根据关键词爬取百度新闻(最近新闻热点事件)

   谷歌SEO    

--教育不是灌输,而是点燃火焰,学习编程成就更好的自己--

Python语言简洁生动,特别适合文科生学习入门IT世界,用几十行代码就能够做一个完整的爬虫脚本,开发效率杠杠的!短时间内即可解决工作和学习中碰到的各种棘手问题。 (本人外语专业毕业,机缘巧合爱上编程,自学道路曲曲折折,痛并快乐!) 这里总结一下自学Python遇到的难点和重点,分享码过的代码和要点总结,希望能够给初学者一点启示和鼓励,同时愿意结交更多大神交流有助提升自己的水平。

上次讲解了在某诗词相关网站上输入关键词爬取第一页出现的相关诗词并以表格形式保存在Excel文件,其实可稍微增加一点难度,就是 爬取多个关键词数据 或者 多页关键词数据 并生成一个汇总数据,下面来看看如何实现吧:

爬取多个带不同关键词的诗词句内容并保存起来:

解决思路:把爬取过程封装成一个爬虫函数,参数就设定为关键词;生成一个关键词列表,遍历循环爬取相关数据并汇总保存:

构造的爬虫函数代码如下:

我们使用“秋风”和“梦里”两个关键词作为例子来进行爬取吧:

爬取时的浏览器的样子和状态:

爬取结束后得到的数据结果如下:

整体代码汇总如下:

爬取多个带不同关键词的诗词句内容,同时每个关键词进行多页爬取并把所有数据汇总和保存起来:

解决思路:把爬取过程封装成一个爬虫函数,参数有两个包括爬取页数和关键词;生成一个关键词列表,构造嵌套循环体并爬取相关数据并汇总保存:

构造带有两个参数的爬虫函数代码如下:

这个爬虫自定义函数是通过分析和观察找到能翻页的网址写法,需要修改和添加参数就行了,这个部分就是:

"https://so.gushiwen.cn/search.aspxtype=title&page="+str(x)+"&value="+str(y)

我们使用“梦里”,“长江”和“故人”三个关键词作为例子来进行爬取,同时每个关键词爬取两页数据:

爬取时的浏览器的样子和状态:

爬取结束后得到的数据结果如下:

本例涉及了三个关键词和每个关键词对应两页数据,每页数据是10行内容,推算得知共可以下载3*2*10=60行数据,通过截图显示也验证了这点。

整体代码汇总如下:

今天的内容可能稍微有点难度,小白们需要仔细研究和琢磨一下,不过只要领悟了个中滋味就可以提升一点点,本篇的重要知识点包括: 如何构造一个完整和强健的爬虫函数,如何设置多参数并实现多层嵌套循环;如何把爬取的数据统一汇总和保存起来等 。也希望有高手提供更好更快的解决方法,非常感谢!!!

END

我为人人,人人为我!!欢迎大家关注,点赞和转发!!!

~~人生不是赛场,梦想不容退场~~不断努力学习蜕变出一个更好的自己,不断分享学习路上的收获和感悟帮助他人成就自己!!!

 标签:

评论留言

我要留言

欢迎参与讨论,请在这里发表您的看法、交流您的观点。