百度搜索引擎蜘蛛工作原理是什么呢(各类搜索引擎的工作原理是什么)

2023-08-26 13:58:59 360SEO ℃

Baiduspider是百度搜索引擎的一个自动程序，它的作用是访问互联网上的网页，建立索引数据库，使用户能在百度搜索引擎中搜索到您网站上的网页。

互联网信息爆发式增长，如何有效的获取并利用这些信息是搜索引擎工作中的首要环节。数据抓取系统作为整个搜索系统中的上游，主要负责互联网信息的搜集、保存、更新环节，它像蜘蛛一样在网络间爬来爬去，因此通常会被叫做“spider”。

spider从一些重要的种子 URL开始，通过页面上的超链接关系，不断的发现新URL并抓取，尽最大可能抓取到更多的有价值网页。对于类似百度这样的大型spider系统，因为每时每刻都存在网页被修改、删除或出现新的超链接的可能，因此，还要对spider过去抓取过的页面保持更新，维护一个URL库和页面库。

互联网资源庞大的数量级，这就要求抓取系统尽可能的高效利用带宽，在有限的硬件和带宽资源下尽可能多的抓取到有价值资源。

互联网中存在着大量的搜索引擎暂时无法抓取到的数据，被称为暗网数据。一方面，很多网站的大量数据是存在于网络数据库中，spider难以采用抓取网页的方式获得完整内容；另一方面，由于网络环境、网站本身不符合规范、孤岛等等问题，也会造成搜索引擎无法抓取。目前来说，对于暗网数据的获取主要思路仍然是通过开放平台采用数据提交的方式来解决，例如“百度站长平台”“百度开放平台”等等

spider在抓取过程中往往会遇到所谓抓取黑洞或者面临大量低质量页面的困扰，这就要求抓取系统中同样需要设计一套完善的抓取反作弊系统。例如分析url特征、分析页面大小及内容、分析站点规模对应抓取规模等等。

前百度Spider抓取新链接的途径有两个，一是主动出击发现抓取，二就是从百度站长平台的链接提交工具中获取数据，其中通过主动推送功能“收”上来的数据最受百度Spider的欢迎。对于站长来说，如果链接很长时间不被收录，建议尝试使用主动推送功能，尤其是新网站，主动推送首页数据，有利于内页数据的抓取。（现在熊掌号出来了，直接在后台提交数据即可）

在Spider抓取这个环节，影响线上展现的因素有：

1、网站封禁。你别笑，真的有同学一边封禁着百度蜘蛛，一边向百度狂交数据，结果当然是无法收录。

2、质量筛选。百度Spider进入3.0后，对低质内容的识别上了一个新台阶，尤其是时效性内容，从抓取这个环节就开始进行质量评估筛选，过滤掉大量过度优化等页面，绝大多数网页抓取后不展示的原因就是页面不够优质。

3、抓取失败。抓取失败的原因很多，有时你在办公室访问完全没有问题，百度spider却遇到麻烦，站点要随时注意在不同时间地点保证网站的稳定性。

4、配额限制。虽然我们正在逐步放开主动推送的抓取配额，但如果站点页面数量突然爆发式增长，还是会影响到优质链接的抓取收录，所以站点在保证访问稳定外，也要关注网站安全，防止被黑注入。

搜索引擎的检索概述

前面简要介绍过了搜索引擎的索引系统，实际上在建立倒排索引的最后还需要有一个入库写库的过程，而为了提高效率这个过程还需要将全部term以及偏移量保存在文件头部，并且对数据进行压缩，这涉及到的过于技术化在此就不多提了。今天简要给大家介绍一下索引之后的检索系统。

检索系统主要包含了五个部分，如下图所示：