PDFminer.six文字提取库
PDF 文档的利器非PDFminer.six莫属了。压缩包pdfminer.six-master.zip
里是它的完整源码,拿来就能用,不折腾。
文本提取的能力挺强,复杂排版也能扒得干干净净,原始结构还能保住,这点真的太香了。别的库一搞多栏就乱套,它就比较稳。
除了文字,像字体大小、颜色、样式这些也能识别出来。有时候做个格式或者转别的格式,还挺方便的。
虽然主打文字提取,但图片也能抓,配合PIL或者OpenCV再搞点图像识别也不难,就是得多动点脑筋。
要是你做文档管理,那元数据提取可不能少,作者、创建时间、标题啥的它都能顺出来,干净利落。
想自定义点流程也行,PDFminer.six 的解析器挺灵活,事件器你也可以自己写,想怎么搞就怎么搞。
自带的命令行工具pdf2txt.py
用起来丝滑,直接转成纯文本,省了不少事。
最让我舒服的是它的API 设计,思路清楚,接口也不复杂,集成进你现有的 Python 项目毫无压力。
对多语言的支持也挺友好,中文、日文这些都能识别,不用额外调字体编码啥的,省心。
你还可以选定页面或者区域提取,想抓哪段就抓哪段,提取指定内容轻松。是只 PDF 某几页时,效率提升挺。
哦对了,文字方向这种小细节也能调,比如竖排文本你也能搞定,整体灵活性不错。如果你经常和 PDF 打交道,这个库可以说是少不了。
如果你想快速试用,直接下pdfminer.six-master.zip
压缩包就行,跑个pip install .
或者看下setup.py
,几分钟搞定。
pdfminer.six-master.zip
预估大小:276个文件
.gitignore
189B
style.css
145B
pdf2html.cgi
7KB
to-unicode-Adobe-GB1.pickle.gz
200KB
to-unicode-Adobe-Japan1.pickle.gz
110KB
UniGB-UTF16-V.pickle.gz
99KB
UniGB-UTF32-H.pickle.gz
99KB
UniGB-UCS2-V.pickle.gz
95KB
GBK2K-V.pickle.gz
88KB
UniCNS-UTF16-H.pickle.gz
86KB
10.07MB
文件大小:
评论区