管道处理 PDF 文档并提取结构化数据

19 次浏览 2024-05-09 0 条评论

zip

数据管道 PDF 处理 AWS Textract 数据提取 AWS CDK TypeScript

此管道从网站抓取 PDF，并使用 AWS Textract 提取文本数据。

流程概览：

- 抓取 PDF 下载 URL

- 将 PDF 下载至 S3

- 使用 AWS Textract 处理 PDF

- 处理 AWS Textract 结果

aws-pdf-textract-pipeline-master.zip 预估大小：17个文件

aws-pdf-textract-pipeline-master 文件夹

yarn.lock 209KB

index.ts 260B

src 文件夹

send-textract-result-to-dynamo 文件夹

lambda.ts 7KB

download-pdf-to-s3 文件夹

lambda.ts 3KB

scrape-pdfs-from-website 文件夹

yarn.lock 15KB

文件大小：102.8KB

相关推荐