https://mr.baidu.com/r/73m10WvifKu=b21311359c55a

这个爬虫来自于一个问答贴:

感謝大佬提供技术支持:

这大概是我遇见反爬做的最,那啥的小说网站了网站如下:

一,首先需要知道bytes类型是可遍历的emmmm,我是才知道

二,python里ord和chr的使用我个人好像是第一次使用,尴尬

1小说内容不在源码里,所以无法直接获取;

2小说内容经过加密和base64编码后,放在一個html页面这个页面返回的是杂乱的js,需要格式化

3这个html页面可以直接拼接,也可以按照源码里比较简单的js来改写成python语言生成

查看源码时囿如下生成链接的js,url_get_data就是对应的html链接

js需要的参数都在里面

经过上一步获得的html链接

对应的html链接与内容:

右侧内容很杂乱可格式化之后,放叺pycharm命名为js文件来分析

因为论坛的重要信息比较凌乱这里整理并补充一下,因为经验原因这些东西陆陆续续的做了三四天。

 首先是看雪論坛以为大佬的代码我把他实现并理解了一下:

# 向下取整在python里就是取整 # 找到密文,密文特点:最长的base64编码后的字符串 # 编码且未解密的内嫆 print('编码且未解密的内容:') # 找到解密需要传的第二个值 # 遍历处理解码后的内容s的类型是bytes # 转换url编码,拼接 # 创建一个数字列表0-255 # 转换数字列表,达到需要的某种顺序

直接改原文链接就可以抓不同章节了前面说的生成链接也补齐了。

就酱算结束了。 

我要回帖

更多关于 https://ubc2.github.io 的文章

 

随机推荐