这次又来爬取图片啦不过这次爬的是原图
大概的思路和上一篇差不多,不同的是不同的网站有不同的反爬策略
进入网站后会出现一个图片搜索关键词的界面输入关键詞后进入的网址是:/search/你输入的关键词/
通过观察源码发现这些链接就是图片
因为我们要下载的是原图,所以通过点击下载会得到图片的真实網址
在网址中发现图片有2中格式jpeg和jpg
我们可以从源码中用正则表达式获取 data-pin-media属性后面的链接或 src属性后面的链接
但这些是 而 真实图片网址是
在寫的时候要将他们改过来
接着看源码,发现了这个
这原来是页码的链接本来网页是瀑布流的形式,没有点的翻页的选项
结合上面的代碼,我们可以知道一页有15张图片而这段代码最后一个显示的是36,说明一共有36页
现在我们可以爬取多页的图片了
文件操作要引用os模块
我就茬前面加了个\转义字符,结果就好了还有一种办法是item[1][:-1],直接略掉那个多余的问号
(2)这个爬虫实在太慢了,所以测试的时候只爬了2頁不过大致看了下后面页数的源码,应该没什么问题
只有这一个图片资源图不大,吔不是很清晰只是比你那张好一点,呵呵!全部