python 多线程爬虫爬虫有免费的吗，有人对这方面比较了解吗？

你的位置：网站首页 >> 频道首页 >>python >>python 多线程爬虫爬虫有免费的吗，有人对这方面比较了解吗？

python 多线程爬虫爬虫有免费的吗，有人对这方面比较了解吗？

来源：蜘蛛抓取(WebSpider) 时间：2016-05-28 20:50 标签： python3 爬虫

Python，Node.js 哪个比较适合写爬虫-中国学网-中国IT综合门户网站-提供健康,养生,留学,移民,创业,汽车等信息
> 信息中心 >
Python，Node.js 哪个比较适合写爬虫
来源：互联网发表时间： 0:21:58 责任编辑：鲁晓倩字体：
为了帮助网友解决“Python，Node.js 哪个比较适合写爬虫”相关的问题，中国学网通过互联网对“Python，Node.js 哪个比较适合写爬虫”相关的解决方案进行了整理,用户详细问题包括:RT,我想知道:Python，Node.js 哪个比较适合写爬虫，具体解决方案如下：解决方案1：” 题主可以参考有个回答“PHP，用于爬虫的库也有, Python，好像不适合写这种一般的应用程序。Python是一种通用的编程语言.js是用来做服务器端的, Node.js 哪个比较适合写爬虫。感觉node，会比较方便
1个回答1个回答1个回答1个回答1个回答1个回答1个回答1个回答1个回答1个回答
相关文章：
最新添加资讯
24小时热门资讯
Copyright © 2004- All Rights Reserved. 中国学网版权所有
京ICP备号-1 京公网安备02号Python是专门用来做网络爬虫的吗？才开始接触爬虫都是Python，难道它在网络爬虫方面有大优势吗？
Python是专门用来做网络爬虫的吗？我才开始接触Python，几乎都是教写网络爬虫。难道Python在网络爬虫方面有着巨大优势吗？麻烦前辈给新手学习网络爬虫的一些建议……
按投票排序
Python是专门用来做网络爬虫的吗？不是。我才开始接触Python，几乎都是教写网络爬虫。因为爬虫是为数不多的同时满足以下特点的领域：入门较容易，但精通有些难度python有丰富的这方面的库可以毫无违和感地搭配别的领域一同学习（发送邮件、web服务器、GUI、多线程等）相对来说贴近生活，容易引起学习兴趣所以很多python教程往往都会教爬虫方面的知识。难道Python在网络爬虫方面有着巨大优势吗？我觉得主要是因为python的语法比较简洁，再加上python在网络方面没有什么缺陷（python2的unicode问题除外），所以很多关于爬虫的库都选择了python。麻烦前辈给新手学习网络爬虫的一些建议……亲身经验：搭建简易的网站是学习网络爬虫基本知识（HTTP、HTML、javascript、ajax交互、浏览器开发者工具的使用、fiddler等常用工具、cookie等）的最佳方式。
不是只是python十行就能写个爬虫，学起来比较方便，有成就感。
先看一些python抓取的实例，然后自己联系下，学爬虫技术还是得多多练习。大家需要教程的可以到注册并使用标准化爬虫工具，另外我也会一一把资料发给你们。知乎一般上的时间很短，没空回复大家。
。。不是专门用来做爬虫的，Python可以做很多事情。它在做爬虫方面的确有一定的优势。写起来比较方便，简洁，爬取速度快，处理cookie，验证码等等爬虫常见问题也方便。至于你说你刚开始接触爬虫，都是教写爬虫的。。。我只能说你接触的不够多不够广了。
因为你接触的太少了，所以产生了这样的想法，建议你多看看书。初学Python先看看Python基础教程，head first python之类的基础书籍，哪有没学语法就看爬虫的。至于优势？因为脚本语言啊！
python可以做的事情有很多，爬虫只是一方面，python恰好做这块特别顺手(有成熟的库如scrapy、pyspider等，语言本身也很适合做数据处理)python 目前非常火的方向：1.云计算和大数据里绝对的主角2.web领域也占有一席之地3.有很多人用来做http后端(我们也在用)4.运维领域的王者5.其余的如pyqt，wxpython等，相对来说比较小众些。。。
Python在机器学习，网页和图像处理上也很不错，比如keras在机器学习上很好用，django，flask和tonardo在网页上比较好用，cv2(原谅我用的是opencv)处理图像绝对玄学。。。第二个问题，Python由于request包的存在，开发一个爬虫挺快的(相比Java已经丧心病狂的C++)，而且一个爬虫应用和扩展基本就能让你知道Python的基本用法了，所以很多入门的都是教些爬虫，麻雀虽小五脏俱全，而且写完之后还能让你有成就感(也可以爬教务系统哦~)
如图所示，python并不局限于爬虫。python的流行，1是python简单，入门快，学起来不会那么复杂；2是python在数据挖掘和数据处理上的广泛应用。有需求才有生产力，python的流行是因为它能满足数据处理的广泛需求如图所示，python并不局限于爬虫。python的流行，1是python简单，入门快，学起来不会那么复杂；2是python在数据挖掘和数据处理上的广泛应用。有需求才有生产力，python的流行是因为它能满足数据处理的广泛需求
xlzd在知乎上是什么样的一个人
我去年做过一个串口通讯的也很好用啊。django框架也很出名啊
已有帐号？
无法登录？
社交帐号登录代理IP知识问答
想要用 python 做爬虫，是使用 scrapy框架还是用 requests, bs4 等库？
提问时间： 9:10:26 &&&楼主：未知网友&&&阅读量：581
想要用python（python3）实现一个爬虫，来完成自己的一些需求。参考网上的资料，发现对自己而言有两种待选的方案：1. 使用scrapy框架都说该框架功能强大，实现简单。但是不兼容python3,2. 使用requests 和 bs4等库来自己实现相比方案一，可能要自己多写好多代码，以及性能可能不如开源的框架。由于自己学习的python3（好多人说python3 才是趋势，所以没有学习python2），如果采用方案一，会有scrapy对python3 的支持不够好（虽说现在scrapy官网上说对python3的支持正在进行中，但不相等），希望熟悉的人回答一下 scrapy对python3的支持到底如何？；如果采用方案二，那么想问，如果我想要利用 requests， bs4等库实现一个简单版的 scrapy，困难有多大，需要学习那些东西？
1楼（未知网友）看你使用场景。如果你的爬虫是玩玩，练练手。或者是对某一站点请求并发量不大的时候，可以用scrapy。如果你的爬虫对某一站点请求很频繁，量很大时，我倾向于使用requests bs re。爬虫的业务逻辑很简单。重点是反爬！反爬！反爬！scrapy优势在于抽象了业务，让你通过配置你需要的数据格式，帮你快速获取结果。这在请求量很小的时候还算方便，但当请求量一大起来，必然会遇到反爬机制各种封你，对于反爬scrapy没提供特别有效的处理机制。另外往往获取有效数据的操作，用BeautifulSoup+re就搞定了，而为了使用scrapy不得不配置的一堆东西反倒显得繁琐了。既然所有反爬的处理都需要自己弄，这样看来scrapy的优势其实已经很小了，所以我建议requests bs re做。
2楼（站大爷用户）先去试试urllib和urllib2，熟悉一下爬虫的基本思维。然后熟悉了大概之后看看requests，这也是urllib\urllib2封装的，熟悉抓包和分析页面成分，了解POST、GET都是什么原理和实用，试着自己去写几个小站的爬虫，当你不满足于此的时候可以去撸Scrapy了，但是入坑之前推荐楼主先去了解Python的多线程处理，目前我正在死磕中。。
3楼（未知网友）不要纠结python2 还是python3 的问题。学习编程不光是学习语法，是学习计算思维，编程思路。python2和python3 差别不是很大。看你的情况，建议先学习标准库或requests 这个库学习爬虫，先学会抓包，模拟post、get ，自动填表等基本技能，再学习scrapy框架。建议看看黄哥主讲的python爬虫联想词视频，学习一下基础知识。搜索“python爬虫联想词视频” 有播放地址。加油！
4楼（未知网友）前几天刚刚用几个库自己写了一个简单的爬虫，不过因为我是用的Python2.7，所以可能有些不同，先说说我的体验2个多月前学习了Scrapy框架，之后自己写了几个爬虫，基本是BaseSpider，CrawlSpider，当时感觉写一个爬虫很简单，有一个现成的框架摆在那里，只要自己定义要抓取的类和抓取的函数就行了之后由于其他事情Python学习断了一个多月，之后看《Python核心编程》，讲到爬虫，就想到为什么不自己写一个，于是开始做。这时候才体会到写爬虫并不像自己想的那么简单，得自己定义诸如存储数据类，同域名保留函数，数据去重等一系列问题，最后用两种方案写出来，一个是定义一个类，一个是只用函数，不过二者基本上是类似的，当然还有一系列问题没有解决，目前的功能是根据输入的网址和爬取深度来爬取网址，不过基本雏形出来了，以后慢慢解决个人建议先学习Scrapy，我能感受到的最大的好处就是学习了正则，以至于后来自己写爬虫提取网址直接用正则了，其他的什么库都没有用学完Scrapy后，试着自己写一个爬虫，因为这时候你对爬虫的基本操作流程已经有所掌握，照猫画虎还不会么，安题主所说，用request和bs4库是肯定不够的，不过不要急着学库，到时候需要了再去查(我个人是喜欢用正则，所以我自己写的爬虫只是用了re，当然不可否认上面两个也很强大，个人喜好而已)写的过程肯定会遇到问题，比如数据存放，去重，抓取，一个一个解决，对提升自己绝对有好处看着自己写的爬虫跑网页，也是很有成就感的
5楼（未知网友）真的不要纠结2还是3，对于爬虫来讲，感觉不到区别，这些都不是事儿，除了编码和print。而且requests和bs4都支持吧（待我确定下）。那什么是事儿呢？1 限制ip用requests代理，买代理，或者网上免费代理2 伪装成浏览器requests切换user agent3 先登录，保存cookiesrequests用session先post拿到cookies，再爬4 URL参数太多，不明白什么意思webdriver和phantomjs5 JavaScript和ajax问题浏览器f12分析请求规律，直接requests请求。或者用webdriver和phantomjs，如果用scrapy的话，用scrapyjs6 爬的太慢多线程，别说gil，一般是网络io慢，cpu等io7 还是慢scrapy异步（做过几个项目了，挺好用的），pyspider（这个支持Python3）8 还是慢分布式（暂时还没涉及），redis，scrapyd9 验证码对不起，帮不了你。简单的可以pil，灰度二值化切割识别10 如果你想自己实现异步请求的话grequests不错爪机回复，待补充。ps 不知不觉自己用Python有一段时间了，写过爬虫，web，最近用Python挣了点钱
友情链接 (合作QQ)：&&&&&&
&CopyRight
站大爷实时更新代理IP平台
警告：禁止利用本站资源从事任何违反本国（地区）法律法规的活动
站大爷QQ交流群：&&&&客服QQ：

python 多线程爬虫爬虫有免费的吗，有人对这方面比较了解吗？

我要回帖

更多关于 python3 爬虫的文章

随机推荐

python 多线程爬虫爬虫有免费的吗，有人对这方面比较了解吗？

我要回帖

更多关于 python3 爬虫 的文章

随机推荐

更多关于 python3 爬虫的文章