怎么用爬虫爬取自己知乎账号的所有评论?

  • 主要实现 爬取一个收藏夹 里 所有问题答案下的 图片
  • 文字信息暂未收录,可自行实现,比图片更简单
  • 具体代码里有详细注释,请自行阅读
#本地存放的路径,不存在会自动创建
  1. 最近在学Python的爬虫,顺便就练习了一下爬取淘宝上的淘女郎信息:手法简单,由于淘宝网站本上做了很多的防爬措施,应此效果不太好! 爬虫的入口:/json/r ...

  2. python|网络爬虫 概述 这是一个简单的python爬虫程序,仅用作技术学习与交流,主要是通过一个简单的实际案例来对网络爬虫有个基础的认识. 什么是网络爬虫 简单的讲,网络爬虫就是模拟人访问web ...

  1. 一.mysql中limit的用法详解[数据分页常用] 在我们使用查询语句的时候,经常要返回前几条或者中间某几行数据,这个时候怎么办呢?不用担心,mysql已经为我们提供了这样一个功能. SELECT  ...

与以前爬的网站图片的不一样的是,如今爬取的是要本身我的的关注的东西,因此须要作到模拟登陆。模拟登陆的原理是登陆网站后,在浏览器上获取保存的cookies信息,填充以后与请求一块儿发送。javascript 若是前面的爬取图片的会爬取了,对于这个解析字符串的也没有多大问题了。java 一直看着知乎上不少程序员把本身关注的人的答案爬下来以后整理来看,那个时候开始又开始对爬虫这个东西特别感兴趣,对一个妹

今天用递归写了个知乎所有用户信息的爬虫,源代码放在了github上,有兴趣的同学可以上去下载一下看看,源码地址:
这里介绍一下代码逻辑以及分页分析,首先看网页,这里本人随便选了一个大V作为入口,然后点开他的关注列表,如图


注意,本人爬虫的全称都是处于非登录状态的。
这里的粉丝列表以及关注者列表都是后台ajax请求得到的数据(没有听过ajax的童鞋别慌,ajax请求跟普通浏览器的请求没有区别,它主要就是在我们浏览网页时候偷偷给服务器发送的请求,就是为了节省流量以及减少请求数,不然每次看点新数据都全部刷新网页,服务器压力很大的,所以有了这玩意),
然后我们找到粉丝列表以及关注者列表的URL,这个很简单,在chrome浏览器下面点击一下页数切换就可以找到,如图

找到关注者以及粉丝的URL就好办理,下面看一看这些数据,这里以粉丝的数据举例,如图,是一段json

#上面这个是查询粉丝或者关注列表里面的用户需要附带的参数 #上面这个是查询个人信息需要附带的一个参数 #获取粉丝列表的url,里面的参数分别是用户的ID,查询参数,这个在浏览器复制就可以了,offset表示第几页的粉丝或者关注者,limit表示每页的数量,这里网页上默认是20 # 获取关注列表的URL,根上面的就差了一个字母 #上面这个是提取用户信息信息的url

  • 33款可用来抓数据的开源爬虫软件工具 要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家。 爬虫,即...

  • 本文参加#感悟三下乡,青春筑梦行#活动,本人承诺,文章内容为原创,且未在其他平台发表过。 中华上下五千年,涌现...

  • 在不懂中穿行,好多画,你只能任凭你的感觉来让眼睛,大脑喜欢,因为你不懂画,只有一个生活沉积的你,你不知道好与坏,因...

  • 期中考试结束了,迎来了难得的周末双休,兜爸也从杭州回来,开心. 晚上老规矩,回家前去上了拉丁课。同班的大姐们都夸我...

  • 有人就有江湖,有江湖就有江湖规矩,在一个学习社群里面自然也不例外。 在蚂蚁私塾学习已经有一段时间了,想分享...

我要回帖

更多关于 爬虫爬取网站数据并分析 的文章

 

随机推荐