今天主要为大家讲解一下搜索引擎的工作流程,总的来说主要分为四个模块:
一、抓取模块
1、 蜘蛛的定义
搜索引擎为了抓取互联网中的各种页面,必须有一个24小时自动抓取页面的程序,我们称这个程序为“蜘蛛”,在互联网中也被称之为“机器人”。
百度的抓取程序我们一般称为百度蜘蛛,常见的有Baiduspider、Baiduspider-mobile(抓取wap)Baiduspider-image(抓取图片)Baiduspider-video(抓取视频)Baiduspider-news(抓取新闻)。
谷歌的抓取程序我们一般称为谷歌机器人,常见的有Googlebot、Googlebot-Mobile(抓取wap)。
360的抓取程序我们一般称为360蜘蛛,常见的只有一个:360Spider。
蜘蛛访问任何一个站点的时候都会访问网站根目录中的robots.txt文件,这个文件限制的搜索引擎蜘蛛的抓取范围,所有的蜘蛛都必须遵守这个文件中的协议.另外我们可以从一些站点中的robots.txt文件中查看搜索引擎蜘蛛的最新名称。
2、如何吸引蜘蛛来抓取网站中的页面
(1)权重越高、蜘蛛来得越频繁;
(2)更新越快,蜘蛛来得越频繁;
(3)导入链接越多,蜘蛛来得越频繁;
(4)与首页点击距离越小,蜘蛛收录得更快;
网站建立初期,搜索引擎有可能是不知道咱们站点的,我们需要通过以下两个方面来告诉搜索引擎:
(1)通过百度站长平台提交网站链接;
(2)外部链接:我们可以在一些已经被收录的站点中放置我们自己的站点链接以此来吸引蜘蛛访问,可以发布软文也可以交换友情链接。
二、过滤模块
由于互联网中存在大量的垃圾页面、复制内容页面和无内容页面,这些页面大大浪费了搜索引擎的服务器资源,对用户来说也是无用的,所有搜索引擎为了避免这些垃圾页面占用自己的资源,同时也为了更好的用户体验,搜索引擎需要将蜘蛛抓取回来的这些页面进行过滤.
搜索引擎在后台通过提取文字、中文分词、去停止词、去重等方法过滤掉垃圾页面。其中的去重大家尤为留意一下,同一篇文章重复出现在不同的站点中或者同一个站点的不同网址中,搜索引擎是非常讨厌这样内容页面的,甚至会被认为是垃圾页面。
三、收录模块
凡是被搜索引擎认为有价值、对用户有用的页面,搜索引擎会将其存储到索引数据中,我们称之为收录模块。只有被搜索引擎存储到索引数据库中的网址才有可能参与排名。
那么如何查看一个页面是否被收录呢?
如图所示,最常见的办法将页面的网址(URL)放到百度搜索框中,如果出现了该页面的搜索结果,那么就证明该页面已经被百度收录了(其他搜索引擎同理)。
四、排序模块
对存入搜索引擎索引库的页面,通过正排索引、倒排索引以及各种算法之后得到每一个页面的排名分数,根据所得分数将其进行排序,这就是我们看到的最终排序结果。
评论留言