蜘蛛抓取什么意思(掌上蜘蛛抓到了吗)

   谷歌SEO    

搜索引擎,就是运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。

搜索引擎的工作过程是:蜘蛛爬行与抓取、索引、排名。今天给大家讲讲第一部分:蜘蛛爬行与抓取。爬行和抓取是搜索引擎工作的第一步,完成数据收集的任务。

(1)蜘蛛程序 :用来爬行抓取和访问页面的程序,也称为机器人(bot)。蜘蛛访问任何一个网站,首先会检查网站根目录下的robots.txt文件。

(2)跟踪链接 :搜索引擎蜘蛛会跟踪页面上的链接,从一个页面爬到下一个页面,分为两种:一是深度优先,一是广度优先。

(3)吸引蜘蛛 :高权重的网站和页面;新鲜的页面内容(原创内容);导入链接;离首页近的页面。

(4)地址库 :人工录入的种子网站;蜘蛛抓取的链接网址;站长主动提交的网址(搜索引擎喜欢自己依链接发现新连接)

(5)文件存储 :将抓取的html数据依不同的URL编号存入数据库。

(6)内容检测: 蜘蛛在爬行和抓取时,会进行简单的重复内容的监测,遇到权重低的网站上有不健康内容,可能将不再继续爬行。

其中,一个新的网站建成首先就是要让搜索引擎收录,首要条件是加入到搜索引擎的域名列表,通常有3种方法:

A 、利用搜索引擎提供的网站登录入口,主动向搜索引擎提交网站域名。

B 、通过与外部网站建立链接关系。

C 、提交网站地图sitemap。

为了抓取更多网页,搜索引擎还允许网站管理员主动提交页面,网站管理员只需把网站中央页面的URL按照指定的格式制作成文件,提交给搜索引擎,搜索引擎就可以通过该文件对网站中的页面进行抓取及更新。

搜索引擎的爬行与抓取,简单说就是搜索引擎 蜘蛛通过跟踪链接访问页面,获得页面html代码存入数据库,以备后续的索引及排名程序所引用

 标签:

评论留言

我要留言

欢迎参与讨论,请在这里发表您的看法、交流您的观点。