使用十行node.js代码读取docx文本方法

最近在一个项目中需要解析Word文档,有两个需求:将Word文档转为PDF,以及将文档内容按照特定规范读取到数据库中。经过在npm仓库中搜索,发现有几种主要的实现方式:通过调用系统底层程序(如office)的API进行转换;通过模板替换数据生成PDF;使用免费将Word转换为PDF的网站,如docx-to-pdf。后来选择将docx转为文本,发现了一个名为textract的包。然而,这个包有一些缺点,比如不支持docx中的标题号和图片等文件。因此,我决定自己动手实现这个功能。
pdf 文件大小:84.23KB