360蜘蛛为什么不来爬(大蜘蛛爬到身上代表什么)

   抖音SEO    


文/麻策律师

1

Robots协议自1994年诞生以来一直默默地维系着互联网搜索市场的道德水准。

Robots协议的全称是“网络爬虫排除标准”,即网站通过在根目录设置Robots.txt,来告诉搜索引擎能不能以及如何让其搜索蜘蛛爬取网站内容。根目录实际上就像是WINDOWS系统中的A\B\C\D盘,这样的目录放置能让爬虫蜘蛛进入网站第一时间就首先读取ROBOTS.TXT文档中的内容,从而判断自己能否再行往更深的子目录中搜索并抓取内容。

每一家搜索公司都养着一只“蜘蛛侠”,百度蜘蛛叫Baiduspider,谷歌蜘蛛叫googlebot,360蜘蛛叫360Spider,这些蜘蛛每天都迅速地活跃在互联网上,不停地抓取互联网内容,并供用户点击搜索后形成结果。Robots协议被认为像酒店房间的“请勿打扰”和“请即打扫”警示牌,告知酒店员工能否进入房间。

2

关于Robots协议的争议,历来有之。ROBORTS争议第一案是发生在美国的BE违规抓取eBay内容案。Bidder's Edge(简称BE)成立于1997年,是专门提供拍卖信息的聚合网站。BE利用“蜘蛛”抓取来自eBay等各个大型拍卖网站的商品信息,放在自己的网站上供用户浏览,并获得可观的网站流量。虽然eBay早已设置了robots协议禁止BE蜘蛛的抓取,但BE却无视这个要求。受理此案的美国联邦法官Ronald M. Whyte在经过多方调查取证后做出裁定,认定BE侵权成立,禁止了BE在未经eBay允许的情况下,通过任何自动查询程序、网络蜘蛛等设置抓取eBay的拍卖内容。

而在另一个审理结果恰相反的案件,即Field v. Google案。Google允许网络使用者获得Field发布在自己网站上的51部作品,并且这些作品以缓存的方式呈现在Google搜索引擎上,Field认为此行为侵犯其复制权和传播权。最终,审理法院驳回原告诉讼请求,认为原告作者未在其网站设置Robots协议,即视为允许搜索引擎使用,因此搜索引擎的抓取和使用不违法。

2013年发生在中国的3B大战,亦是中国互联网公司关于ROBOTS协议的经典战役。原告认为被告搜索公司违反搜索引擎的机器人协议(Robots协议),擅自抓取、复制原告网站并生成快照向用户提供,而被告公司当庭辩称原告滥用Robots协议,以设置robots.txt文件为手段排斥同业竞争者,以达到限制同业竞争者正当竞争的目的。法院经审理认为,Robots协议被认定为搜索引擎行业内公认的、应当被遵守的商业道德,被告公司在推出搜索引擎的伊始阶段没有遵守原告网站的Robots协议,其行为不当,应承担相应的不利后果。

在2016年,大众点评网(即汉涛公司)称,自2012年以来,百度公司未经许可在百度地图、百度知道中大量抄袭、复制大众点评网的用户点评信息,直接替代大众点评网向用户提供内容,这样就让百度公司迅速获得用户和流量;还使用了大众点评网的图文标识,使得相关公众对服务来源产生误认,属于擅自使用知名服务特有名称的不正当竞争行为。法院判决(一审)指出,本案中百度的搜索引擎抓取涉案信息虽未违反Robots协议,但这并不意味着它可以任意使用这些信息,应当本着诚实信用的原则和公认的商业道德,合理控制来源于第三方网站信息的使用范围和方式,故判百度赔偿232万(原大众点评起诉标的9000万)。

2017年底,商洛市中级人民法院审结一比价软件涉嫌侵犯商标权案。该案中,原告通过在百度、谷歌、360、搜狗网上输入“ZENMAX”就会直接出现相关链接,通往亚马逊网络平台和智购网平台,如果点击智购网“ZENMAX”就会通往亚马逊平台,即被告“智购比价”有偿协助被告亚马逊公司销售侵权产品,构成侵权。而被告认为其“智购比价”软件是通过技术机器爬虫和程序来完成信息的爬取、分析、编制索引并提供搜索,按照网络行业通用的Robots协议和被收录网站主体主动提供的数据源接口与目标源网站建立程序自动收录关系。智购公司“智购比价"收录原告指称商品信息完全符合Robots协议的程序正当收录的行业通例和规则。最终法院驳回了原告针对“智购比价”软件的诉讼请求。

3

ROBOTS协议可以使用的商业攻防想象空间非常大,作为互联网公司,一定要善于使用ROBOTS协议。虽然我国法律并没有明确ROBOTS协议的强制效力,但是,在不正当竞争案件中,《互联网搜索引擎服务自律公约》所规定的“遵循国际通行的行业惯例与商业规则,遵守机器人协议(robots协议)”仍然是法院反法援引作为反法诚信原则的依据。

1.优质内容形成封闭商业生态:人人都说2016年是原创内容生产之年,2017年内容大发展之年,以后的商业市场上,内容为王。所以大家其实也看到,特别是微信公众号自运营以来,产生了海量的原创内容,这对于任何一个搜索引擎来说,都是令人垂涎三尺的优劣产品,但大家有没有发现,通过百度是很难搜索到微信公众号文章的。同样,对于封闭的知乎也一样,百度同样是不能搜索到的或信息是有限的。

而对于搜狗而言,其通过和微信以及知乎的联合合作,为微信和知乎单独设置搜索点击,这个功能就吸引了大量的搜索用户。这背后的功臣,就是隐藏在微信、百度以及搜狗搜索背后的ROBOTS协议,这个协议禁止百度蜘蛛抓取微信和知乎中的内容并显示在用户搜索结果中。

https://www.zhihu.com/robots.txt

User-agent: *

Crawl-delay: 10

2.禁止商业比价的形成:互联网电子商务的发展,形成了诸多的比价软件,通过比价软件,可以直接将各个平台的同类商品信息进行抓取并分析,从而向消费者提示货比三家的结果。这虽然给消费者很大的好处,但实际上却会让一些电商公司瞬间倒闭或形成巨大的威胁。所以,像淘宝网,2008年开始就禁止百度蜘蛛抓取淘宝网上的商品信息,还有京东网的ROBOTS协议也在2011年开始禁止一淘网抓取其页面上的商品信息。


3.防止实质性替代:搜索爬虫通过对特定网站的内容抓取,很容易造成抓取内容后构建的新页面效果对原网站形成“实质性替代”,从而让原网站失去用户访问的价值,这在大众点评网和爱帮网不正当竞争案件中可见一斑。大众点评网的经营者,即上海汉涛信息咨询有限公司将竞争对手爱帮聚信(北京)科技有限公司诉至法院,认为爱帮公司经营的爱帮网通过大量复制大众点评网站内容,获取不当的浏览量和竞争优势,索赔人民币900万元。法院认为爱帮网的行为事实上造成爱帮网向网络用户提供的涉案点评内容对大众点评网的相应内容的市场替代,对汉涛公司的利益产生实质性损害。

4.防止流量负担:任何一家网站都需要有域名以及网络空间,而网络空间可以以实体服务器,也可以是现在流行的云空间,但不论如何,当网站访问量大,以及被用户频繁访问后,其带宽,空间都会形成流量负担,甚至瘫痪,这也是为什么12306网站老是会在过年期间无法访问的原因之一。所以,当有一个搜索爬虫经常访问你的网站来抓取内容时,自然而然就会造成流量拥挤,从而让真实的用户难以访问。所以,BOBOTS协议中就有Crawl-delay参数设置,用于调节蜘蛛的访问频率。

 标签:

评论留言

我要留言

欢迎参与讨论,请在这里发表您的看法、交流您的观点。