管道处理 PDF 文档并提取结构化数据
此管道从网站抓取 PDF,并使用 AWS Textract 提取文本数据。
流程概览:
- 抓取 PDF 下载 URL
- 将 PDF 下载至 S3
- 使用 AWS Textract 处理 PDF
- 处理 AWS Textract 结果
aws-pdf-textract-pipeline-master.zip
预估大小:17个文件
aws-pdf-textract-pipeline-master
文件夹
yarn.lock
209KB
index.ts
260B
src
文件夹
send-textract-result-to-dynamo
文件夹
lambda.ts
7KB
download-pdf-to-s3
文件夹
lambda.ts
3KB
scrape-pdfs-from-website
文件夹
yarn.lock
15KB
102.8KB
文件大小:
评论区