随着网络技术的普及,爬虫技术近年来发展迅猛。有人以为只要使用了爬虫技术就是违法的,有人则以为大家都在使用爬虫技术所以我使用也是没有问题的。那究竟爬虫技术是一项什么技术?请看本期分享。
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种“自动化浏览网络”的程序,即按照一定的规则,模拟人工点击,自动地抓取互联网信息,比如网页、文档、图片、音频、视频等。简单说,这种程序的运行可以实现自动的、高效的读取、收集网络数据。网络爬虫的应用场景具有多样性,最为普遍的是利用爬虫程序读取数据的搜索引擎,以及电商系统中的价格比较工具。总体上来说,网络爬虫是根据爬虫编写者的意志行事,目的在于获取某项网络数据。网络爬虫作为获取数据的一种技术手段,其本身具有中立性,未被法律所禁止。
网络爬虫技术不是秘密窃取数据,如果没有经过被采集信息主体的授权便登陆其网页或者存储系统读取数据或清洗数据的,该项技术也不叫作爬虫技术,叫做黑客技术。
爬虫技术是数据读取中其中一个很重要的技术。根据国家标准**《GB/T 37721-2019 信息技术 大数据分析系统功能要求》**要求3.1中的规定:“在大数据存储和处理 系统提供的原始数据和计算框架的基础上,集成了一系列数据分析生 存周期 过程中所用工具的系统”。而在进行数据分析前,第一步就 是进行数据的读取。
举几个爬虫技术生活中的例子:你每天使用的百度,其实就是 利用了这种爬虫技术:每天放出无数爬虫到各个网站,把他们的信息抓回来,然后存储在数据库中等你来检索。又比如抢票软件,它就相当于撒出去无数个分身,每一个分身都帮助你不断刷新 12306 网站的火车余票。一旦发现有票,就马上把数据抓取下来,然后通 知你来付款。
爬虫技术作为中立的技术手段,好比做是一把刀,技术本身是无罪的,但是使用技术的具体目的、具体行为以及所产生的社会结果,会影响使用爬虫手段行为的合法性与否。
如何判断使用爬虫技术行为的合法性与否可以参考以下三点:
结合 《GB/T 37721-2019 信息技术 大数据分析系统功能要求》行业规范规定和《网络安全法》第22条和第41条之规定 ,网络服务提供者在向用户明示并且取得同意收集齐用户信息功能的,可以结合数据准备模块功能具体要求对数据进行抽取、清洗、转换或 加载,也就是说用户只要同意授权网络服务提供者、网络服务运营 者提取其个人信息,可以使用机器收集的形式进行收集。
网络运营商合法地使用爬虫技术需要做到以下几点:
网络并非是法外之地,在我国网络行为受到严格的法律监管。使用爬虫技术继续数据分析的行为很香,但是稍有不慎则会卷入违法犯罪的刑事风险,建议网络运营商在使用爬虫技术之前进行爬虫技术运用的合法性专家论证,既能做到保护公民个人信息,实现工作效率的提升,又能降低企业运营的法律风险。
评论留言