蜘蛛爬虫技术(蜘蛛爬行是根据怎么爬行的)

   抖音SEO    

刚和朋友聊天提起某款商品,打开购物App后,首页随即出现同类产品的推送广告;家人商量打算去某地旅游后,某旅游App马上“奉上”该地最佳旅游攻略……

如今,很多人都有类似这样的经历,这种“聊啥来啥”的现象让人们在接受“贴心”服务的同时也越发感到疑惑:“难道App在‘偷听’我们聊天?”近几年,在侵犯公民个人信息犯罪案件的办理中,网络爬虫技术逐步走进大众视野。

网络爬虫技术爬取个人信息是否合法?在大数据时代,爬虫技术应用的法律红线在哪里?在《中华人民共和国个人信息保护法》正式实施之际,记者就此采访了有关专家。

公民个人信息是如何被爬走的

个人信息是互联网企业输出用户画像、制定营销策略以及识别风险的重要依据。随着数据产业的不断发展,个人信息已成为高价值的数据资源,对其的争夺日趋激烈。据统计,目前,除了直接通过用户采集数据,另一个主要的数据来源就是使用网络爬虫技术采集公开信息。

所谓网络爬虫,也称网络机器人或网络蜘蛛,是通过模拟人(网络用户)的行为,自动、高效地浏览互联网并抓取所需数据的计算机程序。上海市检察院第二分院第三检察部副主任吴菊萍告诉记者,无论是个人数据还是企业数据,公开信息还是个人隐私或商业机密,爬虫技术都可以实现数据爬取。吴菊萍向记者介绍了爬虫技术如何实现对公民个人信息的侵犯。“在购物、社交、通讯等类型App中,用户可以上传自身信息后设置访问限制,或者使用加密功能只有自己可以访问,这类信息属于用户的个人隐私。如果爬虫控制者绕开上述限制,在未经授权的情况下进行访问,并抓取用户的个人信息,又或者在抓取后公开传播甚至买卖这些信息,造成对用户的损害后果的,可能侵犯相关用户的隐私权。”

笔者梳理了目前存在的5种利用爬虫技术非法爬取公民个人信息形式,包括制作爬虫软件出售给他人使用以牟利;制作爬虫软件供自己爬取公民个人信息;购买爬虫软件使用权供自己爬取公民个人信息;购买爬虫软件使用权爬取公民个人信息出售牟利;任职于使用爬虫软件获取用户信息的平台公司,利用职务便利获取用户个人信息并出售牟利。

“技术是中立的,但技术应用永远不是中立的。”华东政法大学教授张勇在接受记者采访时表示,爬虫技术作为一种数据搜集的手段,本身并没有合法与非法之分,但面对互联网上众多的数据,如果不加以限定,任由爬虫随意爬取,势必会对互联网生态造成影响。

首先,无限制的爬虫程序可能对网站服务器造成压力。比如,2018年春运期间,12306(中国铁路网)最高峰时段页面浏览量达813.4亿次,1小时最高点击量59.3亿次,平均每秒164.8万次,其中恶意爬虫访问占据了近90%的流量,给12306的运维造成了很大的负担,极大挤占了普通用户的资源和权益。此外,爬虫程序的更大危害在于,目前不少打着“大数据”旗号的公司,用爬虫程序抓取未公开、未授权的个人敏感信息,甚至违规留存、使用、买卖这些隐私数据,严重扰乱市场经济秩序。

如何界定爬取个人信息行为的合法性

今年,浙江省杭州市西湖区检察院办理了网络爬虫侵犯公民个人信息第一案。杭州魔蝎数据科技有限公司在与用户的协议中明确告知,公司不会保存用户的账号密码等信息,但该公司仍未经用户许可,利用爬虫代码这一技术手段长期保存用户的各类账号和密码2000余万条在自己租用的服务器上,并通过二次加工将产品提供给网络贷款公司作为“风控”使用,并从网贷平台收取每笔0.1元至0.3元不等的费用。

“尽管魔蝎公司和用户之间存在信息使用协议,但是魔蝎公司保留用户数据的行为属于对合法用户的越权访问下获取信息,最终,该案以侵犯公民个人信息罪定罪。”杭州市检察院检委会专职委员兼第一检察部主任桑涛介绍。

在办理该案后,杭州市检察院针对爬虫技术撰写了一份案件分析报告。桑涛介绍,不合法的爬虫行为可分为非法侵入和合法用户的越权。非法侵入就是爬虫完全没有获得被爬取方的许可,私自侵入爬取对方存储的个人信息数据,甚至突破他人设置的技术保护措施的行为;而合法用户的越权行为类似于魔蝎公司的行为,尽管魔蝎公司和用户之间签订了信息使用范围的协议,但是爬虫方越权获取用户个人信息。以上非法的爬虫行为,或涉嫌三宗罪:非法获取计算机信息系统数据罪、破坏计算机信息系统罪、侵犯公民个人信息罪。

如何界定爬虫技术获取公民个人信息的合法性?华东政法大学教授高富平认为,可从数据爬取的手段和目的两个方面来看。根据数据爬取的手段来划分,爬取方在双方约定的访问协议范围内进行的数据爬取行为,可被认定为是合法获取信息的行为;而爬虫无视网站访问控制,或者假扮合法访问者的行为,可被认定为不合法。从目的来看,数据爬取一方是否对被爬取一方提供的部分产品或服务进行“实质性替代”,如果是,那么它的目的就是不合法的。

在大数据时代,爬虫技术应用的法律边界在哪儿?吴菊萍介绍,实际每家网站都设定了哪些数据、哪些页面能被抓取,哪些不能被抓取的协议文件,即国际互联网界通行的Robots协议。互联网业界提出该协议来限制网络爬取数据的行为。被爬取数据方将写有可爬取信息范围的Robots协议文件放到该网站后,就表示允许数据爬取方可在协议范围内爬取数据。

“Robots协议允许的范围,尤其是不能越界爬取底层机读数据,这就是‘线’。”高富平同时强调,Robots协议只是互联网界通行的道德规范,这条红线还需要法律明确。

如何平衡个人隐私保护和鼓励技术创新

11月1日,个人信息保护法正式实施,对合理处理个人信息作出明确规定。个人信息保护法和民法典两部法律设计和构建了比较完整的个人信息权益相关保护制度,专家在受访时也表示,对于司法实践中遇到的新问题,仍需要从法律层面作出进一步规定和限制。

张勇指出,我国目前对数据权益的法律保护仍属于静态的、偏重于对计算机信息系统安全的保护,对个人信息权益的法律保护仍存在不足。现有法律以“计算机信息系统安全”为中心,通过扩大解释其涵摄范围,强化对数据犯罪的刑法规制,这种立法模式在观念和规范层面仍显得较为滞后。例如,侵犯公民个人信息罪对侵害“个人信息”的行为方式只包括了非法获取、出售和提供,对于非法修改、删除个人重要信息的行为无法适用侵犯公民个人信息罪处理,最后只能认定为破坏型数据犯罪。

对于日益更新的数据和技术领域,在不断完善法律法规建设层面,打击非法获取用户信息行为的同时,还要关注行业的发展。高富平认为,单纯打击爬虫技术应用并不能扼制这项技术的滥用。需要给数据需求者提供合法获取底层数据的渠道,允许数据控制者许可需求者以有偿或有序方式使用其数据。

专家认为,一方面产业界要恪守法律底线,另一方面也要大力鼓励技术创新。如何平衡个人信息权益保护和信息数据产业发展、技术创新之间的关系,是数据经济时代的重要命题。

对此,张勇认为,保护个人隐私与鼓励产业发展、技术创新之间不是非此即彼的利益衡量问题,而是如何共生共存的利益协调问题。基于安全与发展相统一的系统思维,应当以个人信息保护法、数据安全法、网络安全法的实施为契机,进一步完善爬虫技术应用所需的各类规则体系,优化数据市场法治环境,惩治滥用爬虫技术、侵犯个人信息权益的违法犯罪行为。

案例链接

上海浦东:

公司非法爬取个人信息出售牟利案

刘某等12人都是上海某信息科技公司员工,该公司在没有取得国家有关部门的批准下,开发了一个征信网站,有偿为客户公司提供个人信息查询服务。据刘某等人供述,该公司的个人信息数据来源主要有两种,一是从上游公司购买;二是利用公司开发的爬虫技术爬取各类网站、社保、公积金、手机App等网络上的个人数据信息。而客户使用该网站也十分便捷,根据需要查询的内容,输入相应的身份证号码、姓名、手机号码、手机验证码后进行查询,后台通过爬虫技术获取相应的信息之后给出反馈。在使用该网站查询信息时,会弹出一份授权协议让被查询人点击“确定”表示同意。

经查,该公司通过签订合作协议等方式和3000余家上下游公司达成合作框架,用自行开发的爬虫技术在互联网上爬取身份证、社保、公积金、出行、社交、消费能力、通信记录、电商消费记录等各类公民个人信息共计308万余条,通过有偿提供查询服务违法所得共计1750余万元。经上海市浦东新区检察院提起公诉,法院以侵犯公民个人信息罪判处被告人刘某、黄某等8人有期徒刑三年,缓刑三年至有期徒刑一年,缓刑一年不等,各并处罚金3万元至1万元不等。该团伙中的戴某等其余4人还在审理中。

北京朝阳:

员工通过“暗网”出售客户信息案

2020年,北京市公安局朝阳分局接某知名互联网金融平台工作人员报案称:有人于2020年5月在“暗网”上发帖出售公司客户个人信息,经公司内部排查,发现公司互联网平台存在数据被人非法获取的情况。警方经排查关联账号,锁定犯罪嫌疑人陈某某、吴某某。经进一步查证,2020年4月至5月,陈某某、吴某某利用爬虫程序抓取等方式非法获取公民个人信息共计9万余条,并在“暗网”上向他人出售。北京市公安局朝阳分局以陈某某、吴某某涉嫌侵犯公民个人信息罪向朝阳区检察院移送审查起诉。

来源:检察日报正义网

 标签:

评论留言

我要留言

欢迎参与讨论,请在这里发表您的看法、交流您的观点。