好久没爬P站的feed列表了跑起来一看,居然解析不了视频的链接了打开视频页面源码检查,发现P站对视频信息存放的变量做了小修改
以前视频信息是在页面加载时,视頻信息就已经直接存放在 flashvars_ + videoId
这样的变量中的
然后通过一系列骚操作二次赋值所以在浏览器中可以正常获取 flashvars_ + videoId
的值,而爬虫端无法解析js导致爬虫获取不到对应的videoUrl。如图:
所谓互联网的第一生产力是s*e*x继续捣鼓呗。
用法不再赘述只记录一下踩坑过程
#先爬核心段内容,以便获取videoId