爬虫 一般值网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取网络信息的程序或者脚本,可以自动采集所有其能够访问到的页面内容,以获取相关数据。
网络爬虫技术目前已经广泛应用。虽然互联网世界已经通过自身的协议建立起一定的道德规范(Robots协议),但法律部分还在建立和完善中。从目前的情况来看,如果抓取的数据属于个人使用或科研范畴,基本不存在问题;但如果数据属于商业盈利范畴,就要就事而论,有可能属于违法行为,也有可能不违法。
Robots协议(爬虫协议)的全称是 网络爬虫排除标准 (Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。该协议是国际互联网界通行的道德规范,虽然没有写入法律,但是每一个爬虫都应该遵守这项协议。
除了Robots协议之外,我们是以网络爬虫的时候还要对自己进行约束:
注意: 本教程中的爬虫仅用于学习、研究用途,请不要用于非法用途。任何由此引发的法律纠纷请自行负责 。
随着网络的迅速发展,万维网成为大量信息的载体,而信息的采集是一项重要的工作,如果单纯靠人力进行信息采集,不仅低效繁琐,搜索的成本也会提高。那么如何有效地提取并利用这些信息成为一个巨大的挑战。
从功能上来说,爬虫一般分为数据采集、处理、存储三部分。
Jsoup 是一个 Java HTML Parse ,能够从URL、文件或者字符串中解析HTML。它提供了一套非常省力的API,可通过DOM、CSS、以及类似于jQuery的操作方法来取出和操作数据。
注意: Jsoup 是基于 MIT 协议发布的,可以放心使用于商业项目。
Jsoup 支持解析:
Jsoup 支持类似于CSS(或jQuery)的选择器语法,来实现非常强大和灵活的查找功能。
Jsoup 提供了 select(String selector) 方法来实现指定元素的过滤,或链式选择访问,该方法返回一个 Elements 集合对象,并提供一组方法来抽取和处理结果。
在百度首页,显示的有“百度热搜”数据,需要爬取该数据的第一条信息的标题。
代码如下:
评论留言