书中讲到:
以算法为基础的排名系统:爬行、索引和排名
理解爬行、索引和排名原理,对 SEO人员很有用处,可以帮助决定该采取什么行动达到目标。本节主要论及Google、雅虎和微软搜索引擎的运行方式,不一定适用于其他搜索引擎,比如百度(中国)和Naver(韩国)。
搜索引擎有几个主要目标和功能,包括:
爬行和索引网上可以访问的亿万文件(网页和文件)。
对用户查询做出反应, 提供相关结果列表。
本节从非技术角度简单介绍这些功能,先从搜索引擎怎样寻找和发现内容开始。
爬行和索引
可以把互联网想象成一个有很多站的大型城市地铁系统。每一站相当于一个独特的文件 (通常是网页,有 时 候 可以 是 PDF、JPEG或其他文件)。搜索引擎需要采用某种方式来爬过整个城市,找到所有地铁站,所以他们就使用现成的最佳途径:网页之间的链接。
互联网的链接结构将所有页面连接起来。通过链接,搜索引擎的自动机器人,又称为爬行器或蜘蛛 ,可以接触到互相连接的亿万个文件。
搜索引擎找到这些页面后,下一个工作是分析其中的代码,然后把页面上选出来的消息存入大最硬盘阵列以便查询时调用这些信息。要存储能在瞬息间被访问的亿万网页是个相当庞大的任务,搜索引擎建造了大量的数据中心来处理这些数据。
虽然从理论上说可 以从网上很多不同地方开始,但理想情况是从一些被信任的网站开始爬行。你可以根据 网站与最被信任的网站之间的点击距离来评估该网站的信任度。
评论留言