如何解决用 Beautiful Soup 实时抓取网页数据却得到乱码的问题

想抓取下图最下面圈出的那段文芓:


 







我想将那段文字打印出来请问这种情况下该如何定位。
 用BeautifulSoup(open(url).read(),from_encoding="gb18030")基本没出过错而且昨天一直鼡的好好的,但是昨天为了处理掉获取中文text的<br>安装了lxml,没想到影响了编码(安装就影响哦),后来解析一直出错当时也没想到这个原因,折腾到今天尝试各种办法才想到应该是这个问题默默卸载掉,然后好了让我哭会

我抓他首页title都不能让我抓 但是 抓其他网页  像   这些都没问题

是不是 / 这些网页本身加了什么限制 就不能用"

我要回帖

更多关于 实时抓取网页数据 的文章

 

随机推荐