搜索引擎蜘蛛的爬取策略有哪些(爬虫中的深度优先搜索过程)

   360SEO    

从搜索引擎角度讲,互联网中的页面主要分为四种页面,即已抓取网页、待抓取网页、可抓取网页以及暗网。

网页四大类型讲解,熟悉网站页面分类方式

顾名思义,已抓取网页就是蜘蛛已经抓取过的网站内容, 待抓取就是未抓取但是已经进入等待列表中,可抓取是还没有发现但是已经存在的页面,暗网则是搜索引擎通过链接自我抓取无法找到需要手动提交才能发现的页面。

平时我们所分析的页面抓取主要是非暗网中的页面抓取,暗网抓取每个搜索引擎都有其独到的算法我们不做过多的剖析。

搜索引擎的抓取策略主要有两种策略,即为广度优先策略和深度优先策略。

广度优先策略讲解

大多数网页都会有除却自身链接之外的很多链接,比如详情页有相关新闻、相关案例等链接,当搜索引擎访问到一个页面之后,它该页面所有链接依次入库排列,然后对发现的页面进行遍历抓取,再把最新发现的URL进行入库排列等待抓取,按照这样的逻辑依次进行抓取即为广度优先策略。如图:抓取顺序为1-2、3、4-5-11-6-12-3-7-13-8-14。结合图文自我理解一下。

深度优先策略讲解

按照页面的一条链接一层一层的进行抓取,直到抓取到最末端的链接后,再返回初始位置按照同样的方式进行抓取其余链接则为深度优先策略。

不管是广度优先还是深度优先两种策略,只要有足够的时间搜索引擎都能抓取全部的页面,但是搜索引擎的抓取精力是优先的,并不能保证页面抓取的全面性,搜索引擎受到自身资源的限制不得不考虑抓取页面优先级的问题。也对应出现了另外两种抓取策略。

重要网页优先抓取策略

判断页面的重要性,搜索引擎主要从自身的质量、权重来判断另外还有一个比较重要的因素就是导入链接的多少,比如首页的导入链接肯定是必起于页面多的,因此首页的优先级也是比较高的。

大站链接优先策略

大站优先很明显的就是搜索一群对大型网站有偏爱性,它自身的权重就是比较高的,这里的权重讲的不单纯是PR,而是信任度,并不是说人家实力大就是权重高搜索引擎就喜欢,很多B2B网站内容量也是很庞大的,然而搜索引擎并不能很好的去爬取页面内容,相对来说一些较好的网站可以有着很好的活跃度,所以发新闻可以增加活跃度提高,发到大站首页也可以实现秒收。

总而言之,搜索引擎的资源是有限的,在搜索引擎有限资源的情况下,我们应该尽可能的依靠外部链接来引导蜘蛛和提升网站权重,这才是网站SEO搜索引擎优化长期运营的重中之重

 标签:

评论留言

我要留言

欢迎参与讨论,请在这里发表您的看法、交流您的观点。