python scrapy 利用selenium python模拟登录每个采集一个url都要打开浏览器,速度很慢,如何解决

#实例化浏览器对象 只能被调一次 print('即将返回一个新的响应对象')

上一篇文章里面我们使用 Python Scrapy 爬取静態网页中所有文字:

但是有个问题当我们把要访问的URL修改为:的时候,可以发现爬取的内容里面没有“车型论坛”和“主题论坛”两个板块

有时候,我们天真无邪的使用urllib库或Scrapy下载HTML网页时会发现我们要提取的网页元素并不在我们下载到的HTML之中,尽管它们在浏览器里看起來唾手可得

这说明我们想要的元素是在我们的某些操作下通过js事件动态生成的。举个例子我们在刷QQ空间或者微博评论的时候,一直往丅刷网页越来越长,内容越来越多就是这个让人又爱又恨的动态加载。爬取动态页面目前来说有两种方法:

下面我们就来讲一讲如何運用selenium python模拟浏览器行为

 
 
 
发现下载下来的网页和用浏览器访问该网页的内容一样!
如果仅仅需要文字内容,那么将spider中的parse方法改成:
 
 

我要回帖

更多关于 selenium python 的文章

 

随机推荐