PDFminer.six文字提取库

PDF 文档的利器非PDFminer.six莫属了。压缩包pdfminer.six-master.zip里是它的完整源码,拿来就能用,不折腾。

文本提取的能力挺强,复杂排版也能扒得干干净净,原始结构还能保住,这点真的太香了。别的库一搞多栏就乱套,它就比较稳。

除了文字,像字体大小、颜色、样式这些也能识别出来。有时候做个格式或者转别的格式,还挺方便的。

虽然主打文字提取,但图片也能抓,配合PIL或者OpenCV再搞点图像识别也不难,就是得多动点脑筋。

要是你做文档管理,那元数据提取可不能少,作者、创建时间、标题啥的它都能顺出来,干净利落。

想自定义点流程也行,PDFminer.six 的解析器挺灵活,事件器你也可以自己写,想怎么搞就怎么搞。

自带的命令行工具pdf2txt.py用起来丝滑,直接转成纯文本,省了不少事。

最让我舒服的是它的API 设计,思路清楚,接口也不复杂,集成进你现有的 Python 项目毫无压力。

多语言的支持也挺友好,中文、日文这些都能识别,不用额外调字体编码啥的,省心。

你还可以选定页面或者区域提取,想抓哪段就抓哪段,提取指定内容轻松。是只 PDF 某几页时,效率提升挺。

哦对了,文字方向这种小细节也能调,比如竖排文本你也能搞定,整体灵活性不错。如果你经常和 PDF 打交道,这个库可以说是少不了。

如果你想快速试用,直接下pdfminer.six-master.zip压缩包就行,跑个pip install .或者看下setup.py,几分钟搞定。

zip
pdfminer.six-master.zip 预估大小:276个文件
file
.gitignore 189B
file
style.css 145B
file
pdf2html.cgi 7KB
file
to-unicode-Adobe-GB1.pickle.gz 200KB
file
to-unicode-Adobe-Japan1.pickle.gz 110KB
file
UniGB-UTF16-V.pickle.gz 99KB
file
UniGB-UTF32-H.pickle.gz 99KB
file
UniGB-UCS2-V.pickle.gz 95KB
file
GBK2K-V.pickle.gz 88KB
file
UniCNS-UTF16-H.pickle.gz 86KB
file
UniCNS-UTF32-H.pickle.gz 85KB
file
to-unicode-Adobe-Korea1.pickle.gz 118KB
file
UniGB-UTF8-V.pickle.gz 88KB
file
GBK2K-H.pickle.gz 88KB
file
UniCNS-UTF16-V.pickle.gz 86KB
file
UniGB-UTF32-V.pickle.gz 99KB
file
UniGB-UTF16-H.pickle.gz 99KB
file
UniGB-UTF8-H.pickle.gz 88KB
file
UniGB-UCS2-H.pickle.gz 95KB
file
to-unicode-Adobe-CNS1.pickle.gz 135KB
zip 文件大小:10.07MB