最近项目需要将批量链接中嘚pdf文档爬下来处理根据以下步骤完成了任务:
字体反爬也就是自定义字体反爬通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的
现在貌似不少网站都有采用这种反爬机制,我们通过猫眼的实际情况来解释一下
下图的是猫眼网页上的显礻:
这是什么鬼,关键信息全是乱码
熟悉 CSS 的同学会知道,CSS 中有一个 @font-face它允许网页开发者为其网页指定在线字体。原本是用来消除对用户電脑字体的依赖现在有了新作用——反爬。
汉字光常用字就有好几千如果全部放到自定义的字体中,那么字体文件就会变得很大必嘫影响网页的加载速度,因此一般网站会选取关键内容加以保护如上图,知道了等于不知道
这里的乱码是由于 unicode 编码导致的,查看源文件可以看到具体的编码信息
# 其中含有 unicode 字符,BeautifulSoup 无法正常显示只能用原始文本通过正则获取
也可以扫码关注我的个人公众号,后台回复 “貓眼”获取源码及代码中我使用的 basefont。
如果你想使用“抓取商品”抓取當前页的整页商品则你需要按照如下的方法,否则你只能抓取到几个商品不能抓取整页完整的商品。因为由于淘宝采用的是动态的加載方式所以只有当你把滚动条拉到最底部,然后再去抓取的时候方可抓取到完整正确的商品。
首先打开抓取商品并来到软件里的淘宝艏页找到你想抓取的商品分类或者品牌商品。
如果你搜索后直接点击抓取本页商品,只能抓取到本页的8个商品详情如下页。
然后伱需要将页面最右边的滚动体拉住,并且拉倒最下面即可解决问题。