搜索引擎蜘蛛的工作原理是什么呢(搜索引擎的工作原理分为)

   百度SEO    

SEO指根据一定策略、运用特定计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。

又可理解为通过自然搜索结果获得网站流量的技术和过程,在了解搜索引擎自然排名机制的基础上,对网站进行内外调整优化,改进网站在搜索引擎中的关键词自然排名,从而获取更多流量。它是英文Search Engine Optimization的缩写,译为 “搜索引擎优化”。

搜索引擎分类:

分类

介绍主流的三种,目录索引Yahoo、新浪;元搜索引擎Dogpile搜星搜索;全文索引百度、谷歌。

搜索引擎工作原理

爬行和抓取

蜘蛛:搜索引擎用来爬行和访问页面的程序被称为蜘蛛,也称网络爬虫。

各主流搜索引擎蜘蛛的名称:

网络爬虫

百度:Baiduspider、Baiduspider-mobile(抓取wap)、Baiduspider-image(抓取图片)、Baiduspider-video(抓取视频)、Baiduspider-news(抓取新闻)。

谷歌:Googlebot

雅虎:“Yahoo! Slurp China”或者Yahoo!

360蜘蛛:360Spider,它是一个很“勤奋抓爬”的蜘蛛

微软MSN: msnbot、网易有道:Roundabout、宜sou蜘蛛:EasouSpider

“蜘蛛其实还有很多,不过再写下去就有水的嫌疑了”

搜索引擎收录流程:

搜索引擎收录流程

1)抓取:抓虫通过百度、谷歌等搜索引擎进行首页、栏目页、内容等抓取,在互联网中发现、搜集网页信息,不过诸如js、Flash、inframe框架是不利于蜘蛛抓取的。

2)过滤:过滤不符合网站的相关内容,将那些内容杂乱无章、难易排序、采集的内容没有价值,不符合用户的需求的内容过滤掉,好的资源都放在数据库中。

3)存储:对信息进行有质量的提取和组织建立索引库

4)排序:当用户在搜索栏中输入关键词或目标词组后,搜索引擎能快速调用索引库(数据库)信息,搜索引擎通过一系列复杂的算法对即将呈现的结果进行复杂的分析计算,排列出先后名次,呈现在用户面前,方便用户查询预览。

排名 的先后当然取决于 用户和搜索引擎 的认可程度

提到搜索引擎,自然就避不开百度,虽然它为人诟病的地方相当不少。

我们平时看到的搜索界面,实际上只是搜索引擎系统的一个检索界面,当你输入关键词查询时,搜索引擎会从庞大的数据库中找到符合该关键词的所有相关网页的索引,并按一定的排名规则呈现给用户。不同的搜索引擎排名不尽相同。

蜘蛛抓取策略

深度优先

什么是深度优先?简单的说,就是搜索引擎蜘蛛在一个页面发现一个连接然后顺着这个连接爬下去,然后在下一个页面又发现一个连接,然后就又爬下去并且全部抓取,这就是深度优先抓取策略。

假如不是很理解,不妨理解为某个神秘的文件夹,打开打开再打开。

宽度优先

宽度优先比较好理解,就是搜索引擎蜘蛛先把整个页面的链接全部抓取一次,然后在抓取下一个页面的全部链接。所以网页的层度不能太多,否则会导致收录难,因为它妨碍了搜索引擎蜘蛛的宽度优先策略。

权重优先

宽度优先比深度优先,只能说各有各的好处,而且蜘蛛都是两种抓取策略一起用,也就是深度优先+宽度优先, 只不过在使用两种策略抓取时,会参照链接的权重,如果说这条连接的权重还不错,那么采用前者,权重低,那么采用宽度优先!

那么蜘蛛怎样知道链接的权重呢?有2个因素,层次的多与少、外链多少与质量;

重访抓取

比如今天蜘蛛来抓取了的网页,如果明天网页加了新的内容,那么蜘蛛会来抓取新的内容!重访抓取分为全部重访:指蜘蛛上次抓取的链接,然后在这一个月的某一天,全部重新去访问抓取一次!单个重访:针对某个页面更新的频率比较快比较稳定的页面,如果说有个页面1个月不更新。那么蜘蛛第三天就不来了,会隔段时间,比如隔个半年,或等全部重访时再来。

以上是搜索引擎蜘蛛抓取网页的一些 内容,望对诸位有所帮助,有任何独到见解,还请不吝赐教(就是多评论),另外勿忘“轻点”关注 QAQ,后面的内容更精彩~~

PS: 检查网站是否收录的方法:

请点击此处输入图片描述

1)在百度搜索框中输入,site:网站网址

2)在站长工具当中输入域名,进行查询(域名该知道是什么罢QAQ)

 标签:

评论留言

我要留言

欢迎参与讨论,请在这里发表您的看法、交流您的观点。