Python 爬虫中scrapy 爬虫遇到的问题

朋友们大家好今天再开一博说┅下自己在学习爬虫练习时遇到的问题及解决办法


1、首先得承认,任何方式的偷盗行为都不在法律的保护范围之内要是偷自己的东西呢,就另当别论了douban 还是相当仁义的,只挡一道墙你只要能越过我的墙,进入的是你家的院子你随便拿吧。

2、翻过douban的墙很多网站都反爬的很好的,比如汽车之家你界面上看到的内容,大部分都是加密的汽车之前最常用的好像是css 对照加的,你拿汽车之家的数据拿回來的内容大部份都 :: befor,:: content 我只类比一下,那有没有办法爬汽车之家呢办法很显然,你只要拿到他的对称加密的方法原生的对照回来就恏了,当然汽车之家也不傻他基本上每隔一段时间就变一下

3、讲一下爬虫最基本的翻人家墙的方法,IP代理池用户代理池,什么IP代理池(那不是要自己写一个很长很长的list那我去哪里搞IP呢,办法是有的“西刺代理”免费版but 我不建议大家这样玩,建议使用收费的调用他們的接口就好了,原因很简单你写完你的IP代理池的时候,前边的已经有N多的不能用了而且你写程序的时候还要循环这个代理池呢!那麼用户代理池呢,原理与IP代理池一样你要模拟不同用户在登陆你要爬的网站)

4、翻人家墙的方式还有什么呢?答案N多我也在学习中!~恏了,开始最基本的三板斧settings设置

4-1、robots,false, 如果遵循robots协议人家就会跟你说,我这个网站上那些是不能爬的所以你要false

4-2、cookie,true这个不讲了大家應该都知道

4-3、 user_agnet,当然前边提到了你如果用户代理池可以忽略这部分,还有一种就是setting里边不设置可以在爬虫中设置

4-4、 pipelines,打开它要问为什么不?原理很简单你使用scrapy 爬虫框架,你就要单纯的认为在pipelines处理你的数据就是比你自己写的方法处理快,不信!不信你试试看吧,試完了通知我我也学习一下

5、items要不要定义呢,取决于你自己的爱好吧当然如果4-4你要使用了,你就需要定义你的items了

6、开始我们的爬虫吧以上是我的建议,各人有各人的办法俗话说:“小鸡不尿尿,各有各的道”

7、分析一下我们要干的事情登录douban

7-1、拿着你的各个账号多登录几次,What happened?对相信你的感觉,fu?k,captchar!!!  验证码出现了不用慌,douban兄弟很仗义没使用特复杂的只使用了一个不定长的英文当验证码

7-2、使用的知识點,',

7-9、我的网盘提供一个python3调用你本地“云打码平台”提供的64位的dll文件,32位的我没有试验我的机器是64位的,各位可以自己试验证一下

8、等我學习完了机器学校在来写一篇我还是不想使用云打码的,^_^^_^

这个follow=False表示访问全站所有符合规则嘚URL吗为什爬虫只能访问start_urls中的网页就停了

我要回帖

更多关于 scrapy 爬虫 的文章

 

随机推荐