管道处理 PDF 文档并提取结构化数据

此管道从网站抓取 PDF,并使用 AWS Textract 提取文本数据。

流程概览:

- 抓取 PDF 下载 URL

- 将 PDF 下载至 S3

- 使用 AWS Textract 处理 PDF

- 处理 AWS Textract 结果

zip
aws-pdf-textract-pipeline-master.zip 预估大小:17个文件
folder
aws-pdf-textract-pipeline-master 文件夹
file
yarn.lock 209KB
file
index.ts 260B
folder
src 文件夹
folder
send-textract-result-to-dynamo 文件夹
file
lambda.ts 7KB
folder
download-pdf-to-s3 文件夹
file
lambda.ts 3KB
folder
scrape-pdfs-from-website 文件夹
file
yarn.lock 15KB
file
lambda.ts 3KB
file
package.json 229B
folder
__tests__ 文件夹
file
test_stack.ts 1KB
folder
send-pdf-to-textract 文件夹
file
lambda.ts 2KB
file
stack.ts 8KB
file
tsconfig.json 542B
file
LICENSE 1KB
file
jest.config.js 206B
file
README.md 4KB
file
cdk.json 28B
file
.gitignore 48B
file
package.json 840B
zip 文件大小:102.8KB