百度蜘蛛原理(百度蜘蛛爬了多久会释放)

   360SEO    

前面几篇文章,小编都提到了网络蜘蛛。那么什么是网络蜘蛛,它又有何作用呢?今天我们就来讲讲这网络蜘蛛。

一.网络蜘蛛是什么。

网络蜘蛛又叫网络爬虫,是一种形象的说法,它是一种计算机程序,如果将互联网看成一个蜘蛛网,那么这个程序就是网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止,就好像是蜘蛛在蜘蛛网上爬行那样,这就是搜索引擎蜘蛛这个名称的来因。搜索引擎收录网站就是靠网络蜘蛛来抓取的。

二. 网络蜘蛛的工作原理。

搜索引擎蜘蛛访问网站页面时类似于普通用户使用浏览器,蜘蛛程序发出页面访问请求后,服务器返回HTML代码,蜘蛛程序把收到的代码存入原始页面数据库。蜘蛛访问网站时,首先会访问网站根目录下的robots.txt文件,如果robots.txt文件禁止搜索引擎抓取某些网页或者内容,再或者网站,蜘蛛将遵循协议,不对其进行抓取。

任何事物都有极限,搜索引擎也是不可能抓取互联网上的所有网站。这是因为一方面抓取技术的瓶颈,无法遍历所有网页。另一方面则是存储技术和处理技术的问题。同时,由于数据量太大,在提供搜索时也会有效率方面的影响。因此,许多搜索引擎的网络蜘蛛只是抓取那些重要的网页,重要性则依据其网页的链接深度。

抓取页面时,网络蜘蛛一般都两种策略,一种是广度优先:网络蜘蛛会先抓取起始网页中链接的所有网页,然后选择其的链接页面,继续抓取在此页面中链接的所有网页。另一种是深度优先:网络蜘蛛沿着发现的链接一直向前爬行,直到前面再也没有其他链接,然后返回到第一个页面,沿着另一个链接再一直往前爬行。由于不可能抓取所有的网页,有些网络蜘蛛对一些不太重要的网站,设置了访问的层数。这也让有些网站上一部分网页能够在搜索到,另外一部分则不能被搜索到。因此网站设计者应当设计扁平化的网站结构有助于网络蜘蛛抓取网页。

网络蜘蛛在访问网页的时候,会遇到加密数据和网页权限的问题,有些网页是需要会员权限才能访问。网站的所有者可以通过协议让网络蜘蛛不去抓取,但对于一些出售报告的网站,他们希望搜索引擎能搜索到他们的报告,但又不能完全免费的让搜索者查看,这样就需要给网络蜘蛛提供相应的用户名和密码。网络蜘蛛可以通过所给的权限对这些网页进行网页抓取,从而提供搜索,而当搜索者点击查看该网页的时候,同样需要搜索者提供相应的权限验证。

在站长日志中可以看出蜘蛛爬行的痕迹,查看网站日志,分析搜索引擎蜘蛛爬行的频繁程度,掌握搜索引擎更新周期。

三.如何吸引网络蜘蛛。

网络蜘蛛关系着搜索引擎的收录及排名,因此吸引网络蜘蛛来抓取你的网站十分重要。

①网站和页面权重:质量高的网站被给予很高的权重,这种网站上的蜘蛛爬行的深度比较高,所以会有更多的内页被收录。

②网站更新度:蜘蛛每次爬行都会把页面数据储存起来,如果第二次爬行时发现此页面与第一次收录的内容完全一样,说明页面没有更新,蜘蛛也没必要经常再来爬行和抓取。有规律的定时定量更新也有助网络蜘蛛有规律的来爬行抓取。

③优秀的内外链:网站的外链是能提高百度蜘蛛来访的主要原因之一。外链在精不在多,提高外链质量而不是随意滥发。内链分为两块,一是内容,二是内部链接。通过外链招了蜘蛛和用户,那么网站的内链和内容是决定着蜘蛛和用户重复来访率高不高。

④高质量的原创文章内容:当蜘蛛爬行和抓取文件时会进行一定程度的复制内容检测,遇到权重低的网站上大量转载或抄袭内容时,很可能不再继续爬行。因此高质量的原创性文章就更 显得尤为重要只有写出高质量的原创性文章对于蜘蛛来讲才是能不能抓取最直接的因素了。这对新站来说尤其重要,有的新站站长查看日志的时候发现了蜘蛛,但是页面从来没有被抓取的原因,因为爬行发现是重复内容那么它讲放弃抓取也就只停留在爬行过的阶段。


今天我们讲述了网络蜘蛛这并不可怕的“动物”,当然网络蜘蛛的内容远不是一篇文章所能概括的,我们【中网网络客】还会继续更新更多关于网络蜘蛛和SEO的内容。

之后文章将会持续更新,为大家提供有质量的文章,尽情关注【中网网络客】

 标签:

评论留言

我要留言

欢迎参与讨论,请在这里发表您的看法、交流您的观点。