必应首页(必应搜索引擎入口)

   搜狗SEO    

这几天在用“必应”搜索时,发现必应的背景图片挺好看的,有的是风景,有的是动物。。。于是产生了一个想法,爬下来当做桌面背景图吧。。

由于是每天必应的图片都会变,所以后续结合电脑自带的定时任务,可以达到每天自动抓取图片的效果。

简单的分析下:必应首页。



打开 F12 ,找到对应的请求,可以很容易的看到有这么个链接,然后点一下,就会新打开一个页面,此时显示的就是背景图片。

如何下载呢?其实很简单,说下逻辑。

requests库请求主页,正则匹配地址,再用 requests 请求,将返回的 content 以二进制的形式写入文件,保存为图片。

核心代码:

执行后的结果:



主要是正则表达式,如何书写,匹配出来,用 urllib 的 urljoin 方法拼接下图片地址即可。可以看下核心代码的相关注释。

Python代码一共 25 行,关键是如何利用系统定时来制造每天触发的效果。

windows系统:

如果你是 windows 环境,推荐看下这篇博客,之前是我总结的如何用 windows 定时执行 Python 文件。


https://blog.csdn.net/s740556472/article/details/78239204?blog.csdn.net


Mac / Linux 系统:

了解 Linux 系统的同学,一定知道有个自带的系统工具,叫 crontab。

使用方法,两个。



回车后,进入内容,用法和 vim 一样,按下 i 即可编写,然后 wq 保存。



第一段,是cron特有的时间配置表达式,可以看下图的简介,顺便给大家一个网址,可以在线查看其表达式的含义。而我脚本中写的则是每天十点整执行 Python。



工具网址:

crontab执行时间计算?tool.lu

写完 cron 表达式,后面跟的其实就是 python xxx.py 这样的命令,只不过,在 cron 中一定要写绝对路径,否则不生效。

再执行 python 命令的基础上,我还追加了 > xxx.log 这样,意思是将 python 脚本的打印内容输出到一个指定目录的 log 文件里。

2.查看定时任务 crontab:



cron -l 则是查看定时任务列表内容的,可以看到有多少任务配置了。如果有多个定时脚本,则可以回车换行继续添加即可。

每日自动抓取,导入图片,换背景即可。



嗯,这就是本次的 5 分钟撸一个小爬虫系列!

本篇介绍的定时工具,其实用途很大,因为基于系统层面,所以不依赖于脚本,只要你电脑开着,就可以随心所欲的触发你写的脚本,而不依赖你脚本本身使用代码的定时任务!

想看完整代码的同学,可以公号后台回复 bing ,即可获得。当然也可点击下方地址:

https://github.com/unlimitbladeworks/python-tools/blob/master/spider/bing_picture/crawl_bing.py?github.com


 标签:

评论留言

我要留言

欢迎参与讨论,请在这里发表您的看法、交流您的观点。