今天用递归写了个知乎所有用户信息的爬虫,源代码放在了github上,有兴趣的同学可以上去下载一下看看,源码地址:
这里介绍一下代码逻辑以及分页分析,首先看网页,这里本人随便选了一个大V作为入口,然后点开他的关注列表,如图
注意,本人爬虫的全称都是处于非登录状态的。
这里的粉丝列表以及关注者列表都是后台ajax请求得到的数据(没有听过ajax的童鞋别慌,ajax请求跟普通浏览器的请求没有区别,它主要就是在我们浏览网页时候偷偷给服务器发送的请求,就是为了节省流量以及减少请求数,不然每次看点新数据都全部刷新网页,服务器压力很大的,所以有了这玩意),
然后我们找到粉丝列表以及关注者列表的URL,这个很简单,在chrome浏览器下面点击一下页数切换就可以找到,如图
找到关注者以及粉丝的URL就好办理,下面看一看这些数据,这里以粉丝的数据举例,如图,是一段json
#上面这个是查询粉丝或者关注列表里面的用户需要附带的参数 #上面这个是查询个人信息需要附带的一个参数 #获取粉丝列表的url,里面的参数分别是用户的ID,查询参数,这个在浏览器复制就可以了,offset表示第几页的粉丝或者关注者,limit表示每页的数量,这里网页上默认是20 # 获取关注列表的URL,根上面的就差了一个字母 #上面这个是提取用户信息信息的url
-
33款可用来抓数据的开源爬虫软件工具 要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家。 爬虫,即...
-
本文参加#感悟三下乡,青春筑梦行#活动,本人承诺,文章内容为原创,且未在其他平台发表过。 中华上下五千年,涌现...
-
在不懂中穿行,好多画,你只能任凭你的感觉来让眼睛,大脑喜欢,因为你不懂画,只有一个生活沉积的你,你不知道好与坏,因...
-
期中考试结束了,迎来了难得的周末双休,兜爸也从杭州回来,开心. 晚上老规矩,回家前去上了拉丁课。同班的大姐们都夸我...
-
有人就有江湖,有江湖就有江湖规矩,在一个学习社群里面自然也不例外。 在蚂蚁私塾学习已经有一段时间了,想分享...