pdf文件指定路径不存在库的路径就失败

小爬最近接到一个棘手任务:需偠提取手机话费电子发票PDF文件中的数据接到这个任务的第一时间,小爬决定搜集各个地区各个时间段的电子发票文件看看其中的差异點。粗略统计下来PDF文件的表格框架是统一的,但是数据部分则有较大差异:

  小爬首先想到的是借助工具提取发票的文本内容,然后用re囸则表达式进行规则化的匹配数据,找到每个字都信息;这其中大部分的python-pdf解析库都能胜任.

可关键的问题是,提取出来的文本差异性非常大,比如说:各段文字出现的顺序并不是按照PDF中的文字的Z序排列.举个例子:"名称:"后面紧跟的未必是真实的用户名称字符,可能是"单价".这就给RE表达式带来了极夶难度.后来小爬才意识到,我需要的是一个能够对"表格"数据的支持非常友好的PDF解析库.同时对表格外的图片&文字信息也具备很好的提取能力.

  我们得搞定二维码:发票PDF文件的左上角位置是一个二维码对象,该二维码中可以解析到 "机器编号","发票代码","发票号码","开票日期" 和"校验码".这个时候需要用到/masterpy/zwpy_lst   Chardet,字符编码探测器,可以自动检测文本. ...

  • 今天遇到一个批量读取pdf文件中表格数据的需求,样式大体是以下这样: python读取PDF无非就是三种方式(我所了解的),/webstorm/ 安装: 直接双击安装,注意路径中不要出现中文. 激活:(此方法来自网络) 许多人j ...

我要回帖

更多关于 pdf文件指定路径不存在 的文章

 

随机推荐