Apache Tika 1.8文档解析工具

老项目里常遇到 Office 文档或 PDF 要提取内容的情况?tika-app-1.8.jar真的挺管用的。Apache 出品,支持格式全,像.doc.xlsx.pdf.html,基本都能解析,效果还不错。

tika-app解析docx只要一行命令,连依赖都省了。比如你扔个 PDF 进去,它就能把文本干干净净提出来,挺适合批量文档那种场景。

不写代码也能用?对,命令行模式下直接运行java -jar tika-app-1.8.jar就行,支持检测 MIME 类型、抽取文本,甚至带点语言识别的功能。

不过要注意,1.8版本算老了,适合老系统用。新项目建议用新一点的版本,或者直接用 Tika 的 Java 类库集成到后端里,扩展性更强。

如果你还在找能读 Office、PDF、HTML 的 Java 工具,可以顺手看看这篇;Python 的同学也有 PDF 解析方向的推荐,比如这篇也蛮实用的。

jar 文件大小:44.1MB