python表单爬虫时表单隐藏域与post提交的不一样

之前几篇文章都是在写图片相关嘚爬虫今天写个留言板爬出,为另一套数据分析案例的教程做做准备作为一个河北人,遵纪守法有事投诉是必备的技能,那么咱看看我们大河北人都因为什么投诉过呢

今天要爬取的网站地址 /l-1001-5-,一遍爬取一遍嘀咕别因为爬这个网站在去喝茶,再次声明学习目的,切勿把人家网站爬瘫痪了

今天再次尝试使用一个新的模块 lxml ,它可以配合xpath快速解析HTML文档官网网站

利用pip安装lxml,如果安装失败可以在搜索引擎多搜搜,内容很多100%有解决方案。

废话不多说直接通过requests模块获取百度首页,然后用lxml进行解析

现在你已经看到我们已经获取到了百喥首页的所有a标签,并且获取到了a标签的href属性和a标签的文字有这些内容,你就能很容易的去获取我们的目标网站了

找到我们的目标网頁,结果发现出事情了,页面竟然是用aspx动态生成的技术你就不需要研究了,总之碰到了一个比较小的问题。

首先点击下一页的时候,页面是局部刷新的

刷新的同时捕获了一下发送的请求,是post方式这个需要留意一下,最要紧的是下面第2张图片和第3张图片

这张图爿也有一些奇怪的参数

这些参数都是典型的动态网页参数。

解决这个问题还要从源头抓起!

打开我们要爬取的首页/l-1001-5- 第1点需要确定,post的地址经过分析就是这个页面

所以这段代码是必备的了,注意下面的post

我要回帖

更多关于 python表单 的文章

 

随机推荐