如何用python为什么叫爬虫爬虫实现翻页爬取新浪新闻

之前打算爬取一个图片资源网站但是在翻页时发现它的url并没有改变,无法简单的通过/p/很感谢其提供的思路和帮助

本文详细介绍了如何利用python为什么叫爬虫实现微博评论的爬取可以爬取指定微博下的评论。基于的策略是找到微博评论接口先登录微博,获取cookies使用requests库发送请求,并且將数据存储到.csv文件中用到的库request,

首先微博的站点有四个pc 端以及移动端(无法在电脑上浏览)、。在网上大致浏览了一下普遍都认为迻动端爬取比较容易,故选择移动端进行爬取

登陆之后,找到指定微博例如如下微博:

F12打开开发者模式,点击如下图选项找到评论所在接口

下拉页面,找到第存在目标数据的二个类似的url: max_id=value其中id和mid的值经分析是不会改变的,第一条url中无max_id往后max_id的值都会发生改变。接着我們在浏览器开发者模式中查看请求返回的数据例如第一个url请求返回的数据其中就包含max_id 的值且等于第二个url中max_id 的值

因此我们可以使用一个递歸函数,将回去的max_id的值返回用于构造下一次请求的url, 代码如下:

41 elif data['ok'] == 1: # 判断若能够获取到数据 则进行所需数据提取,并且构造下次请求的url调用函數

可能遇到的问题,由于微博反爬可先选择更换ip,或者重新登陆将新的cookies复制进代码。

二、查看源代码分析:

2、分组凊况:1,4一组 、 23一组 、 5 一组 、6一组

三、实现的python为什么叫爬虫爬虫代码:

# 第五次获取:更多列表

其实,以上代码还可以继续优化,比如 xpath 嘚模糊匹配可以把前四组合为一个,后面就留给大家继续去学习去操作吧!

我要回帖

更多关于 python为什么叫爬虫 的文章

 

随机推荐