爬虫页面重定向到另一个页面的问题

笔者编写的搜索引擎爬虫在爬取頁面时遇到了网页被重定向到另一个页面的情况所谓重定向到另一个页面(Redirect)就是通过各种方法
(本文提到的为3种)将各种网络请求重新转箌其它位置(URL)。
每个网站主页是网站资源的入口当重定向到另一个页面发生在网站主页时,如果不能正确处理就很有可能会错失这整個网站的内容

对于这种方式的跳转,由于可以实现该功能的JavaScript语句有多种形式不能再使用正则表达式提取url,只能考虑加载JavaScript代码来进行解決例如使用selenium 无头浏览器phantomJS 模拟浏览器操作
关于phantomJS的一些简单操作语法可以在我这篇中看下

刚开始写 写的不好的地方或者哪些地方有误请各位大佬纠正 请各位网友欢迎评论

我要回帖

更多关于 重定向到另一个页面 的文章

 

随机推荐