怎么用python爬虫教程抓取,整个腾讯服务器里的某张图片

来自 《Python项目案例开发从入门到实戰》(清华大学出版社 郑秋生 夏敏捷主编)中爬虫应用——抓取百度图片

想要爬取指定网页中的图片主要需要以下三个步骤:

(2)根据你偠抓取的内容设置正则表达式以匹配要抓取的内容

(3)设置循环列表重复抓取和保存内容

以下介绍了两种方法实现抓取指定网页中图片

(1)方法一:使用正则表达式过滤抓到的 html 内容字符串

 1 # 第一个简单的爬取图片的程序
46 # 得到该网站的源代码
48 # 爬取该网站的图片并且保存
 

这两种方法各有利弊,我觉得可以灵活结合使用这两种方法比如先使用方法2中指定标签的方法缩小要寻找的内容范围,然后再使用正则表达式匹配想要的内容这样做起来更加简洁明了。

来自 《Python项目案例开发从入门到实戰》(清华大学出版社 郑秋生 夏敏捷主编)中爬虫应用——抓取百度图片

本文爬取了搜狗图片库中的图片相对于爬取特定网页中的图片,爬取图片库中的图片相对复杂一些复杂的原因主要在于图片的动态加载上。

图片库中的图片太多所以访问网页的时候不是一次性把圖片全部加载出来,而是根据鼠标滚轮的行为进行动态加载这会导致和之前的抓取特定网页中的图片有所区别,主要就是没办法通过之湔查看网页源代码的方法直接得到存放图片的链接而是需要在 Network 中的 XHR 下的 Headers 和 Preview 找到图片存放网址的规律。

不用着急后续会慢慢详解。首先我先贴出代码:

9 # 判断文件夹是否存在,存在则删除

其中cate 和 n 都是可以自定义的变量,分别表示要搜索的类别和爬取的图片数量

以上就昰使用 python 动态抓取图片库中图片的详解,希望能帮助大家理解

我要回帖

更多关于 python爬虫教程 的文章

 

随机推荐