网站优化100问第一篇我们讲了搜索引擎的抓取篇,也认识了搜索引擎是怎么把网站的内容抓取的,搜索引擎蜘蛛把网站的内容抓取回去后用户在搜索的时候就能够直接展现出来了吗?得到的答案肯定不是,用户在搜索引擎查询的时候,在亿级为单位的网页数据库中查找某个特定的关键词简直是犹如大海里面捞针,需要很长的时间才可以完成查找并得到相关内容,如果是这样,用户会等待吗?所以搜索引擎在建设的初期就从用户体验角度考虑,必须在毫秒级别给予用户满意的结果展示,否则用户只能流失搜索引擎也只能倒闭,那么搜索引擎是怎样完成这样的工作呢?那就是今天讲到的预处理了
数据分析系统,是处理搜索引擎蜘蛛抓取回来的网页,那么数据分析这一块又分为了一下几个:
1、网页结构化
分析下载回来的网页,删除网页无用和不能分析的代码,分析网站标签。
2、消噪
在网页结构化中,已经删掉了网页代码,仅剩下了文字内容,那么消噪是为什么呢?
都知道在网页中我们会出现很多的常用词 如:我们,的、地、得、版权、申明等信息,这些常见而且无用的词,都将在此环节清理
3、去重
去重比较好理解,就是系统在对比查找重复的网页与内容,如果找到重复的页面,就放在一起,经过后面的其它步骤继续处理。
4、分词(切词)
分词更多说的是中文分词,就是搜索引擎蜘蛛在进行了前面的步骤,然后提取出正文的内容,然后把我们的内容分成N个词语,然后排列出来,存入索引库!同时也会计算这一个词在这个页面出现了多少次。(做优化比较久的都知道做好百度分词的话对网站排名有很大的帮助,在后续我会单独的介绍分词,现在只是给大家普及一下知识)
5、链接分析
链接关系分析是预处理中很重要的一部分,计算相应页面的网站和页面的链接权值;链接关系分析的基础是超链接页面之间的内容推荐与主题相关特性;链接分析算法包含HITS算法、TR算法、Hilltop算法等等。
(6)各种过滤
举例可能包含过滤掉死链、重复数据、色情、垃圾结果以及你懂的;
(7)最终排序,将最能满足用户需求的结果排序在最前,可能包括的有用信息如:网站的整体评价、网页质量、内容质量、资源质量、匹配程度、分散度、时效性等等
更多精彩内容关注:微信订阅号:jxzmt87
评论留言