淘宝放了百度的蜘蛛,这是什么梗?
昨天看到一条新闻,标题叫:淘宝部分解禁百度蜘蛛。乍一看标题以为是淘宝本来不让卖一种蜘蛛,现在让卖了,但实际上当然不是这么回事儿。今天就来跟您说说什么是百度蜘蛛,淘宝解禁百度蜘蛛,这是个什么梗。
我们平时用百度搜索,比如您搜索:“科技富能量”这几个字儿。能够出现腾讯新闻的内容,能出现新浪微博的内容,当然还能出现蜻蜓FM的节目列表。
您有没有想过一个问题:网络上的信息近乎无穷无尽,百度是怎么能在0.0几秒的时间里把我们想要的东西找出来的?有些博客或者网页里相信也有和“科技富能量”有关的内容,比如:我们的群【富能量纠结帮】,明明也存在在网上,但为什么在百度里却搜索不出来呢?
这就要隆重介绍一下百度蜘蛛了
百度蜘蛛又号称“网络爬虫”,听起来挺恶心的,就像名字一样,它是一种能够在网络上,到处爬的东西。这种蜘蛛当然不是漫无目的地乱爬,它是按照一定的规则,自动抓取网络信息的一种脚本程序。
它实际上是一种信息搬运工,当它爬到某一个网页上以后,会抓取相应的内容,然后把它的链接地址,甚至网页的快照(一份完整网页信息)送回给百度的索引库。这样,以后用户在百度搜索关键字的时候,就能搜索到对应网站里的信息,如果用户再点击百度的搜索结果,百度就可以把用户导向对应的网站。
这个感觉有点儿像我们在自己电脑里搜索一个文件,第一次搜索会很慢,但是今后搜索的速度就会变快,这就是因为我们第一次搜索的时候,实际上是对整个硬盘的每一个角落进行搜索,这个过程就有点儿像蜘蛛在一个大仓库里到处爬,搜集情报的过程。
第一次搜索完成以后,Windows会建立一个索引库,就像一份清单,清楚地写着各种.rm-vb在几号仓库,哪个区域。以后再搜索的时候,先看清单就行了,速度当然会快得多。
百度蜘蛛也一样,它的索引库就像一个装满蜘蛛的大盒子,不停放出蜘蛛访问各个网站,收集情报,然后带回来给百度。是不是突然想到《权力的游戏》里那个太监、情报总管、“八爪蜘蛛”瓦里斯和他的“小小鸟”?
▲ 瓦里斯(Varys),外号「八爪蜘蛛」,在为七国铁王座服务的御前会议中担任一个颇具神秘感的职务——情报总管。瓦里斯通过他的那些“小小鸟”(《权力的游戏》中最不起眼的一群孤儿、流浪儿)编织成的情报网来收集秘密
为什么网上有的东西搜不出来?
答案就很明显了,蜘蛛没爬到呗。比如WX群里的内容,百度蜘蛛就爬不到。爬不到的原因又分两种:一种就是没爬到……另一种就是人家把百度蜘蛛给屏蔽了。当然还有一种可能就是,百度蜘蛛爬到了,但是带回来的信息百度一看:哎呀……不符合相关法律法规和政策……。
▲ 你猜小编搜了啥关键词,一击即中
对于大多数网站来说,是欢迎百度蜘蛛过来爬的,恨不得想方设法勾引百度蜘蛛“常过来看看”。这样用户就能搜索到自己的网站,能让用户在第一时间看到自己网站更新的内容。有的网站不仅要争取百度蜘蛛来访,还会给百度塞点儿钱,让百度蜘蛛带回去的信息能够在用户搜索列表里的顶部显示,这就是著名的百度推广。
淘宝为什么要屏蔽百度蜘蛛呢?
我们在百度搜索的时候,能搜出来淘宝的店铺和商品这不是一件更方便的事情吗?或许是,但是淘宝不这么看。
当所有商品只能在淘宝网上搜索到的时候,淘宝不仅是一个购物平台,更是一个巨大的流量入口。用户要买什么东西,都要先进淘宝。淘宝的自营广告、用户数据收集和分析,都可以顺理成章地展开。
▲ 淘宝每年发布的消费数据报告,正是基于剁手党们以淘宝为入口的搜索、购买行为
那开头新闻说的,淘宝部分解禁百度蜘蛛,解禁的部分大多是和文章资讯相关的信息,而淘宝店铺之类的目录依然是屏蔽状态——以后在百度上还是搜不出来淘宝店铺的。
▲ 淘宝robots协议对百度开放的目录,看不懂不要紧,你需要知道的是这里面不包含淘宝店铺首页、产品详情页,这些重要的页面在百度中依然是被封禁的
毕竟竞争对手,阿里怎么可能允许百度的“八爪蜘蛛”在自己的地盘上乱爬呢?
评论留言