Python自动化按表格下载PDF
批量化的 PDF 下载流程,用 Python 搞起来其实挺。你只要有个 Excel 表,把下载链接和文件名列好,用 pandas 读一下表格,配合 requests 发求,PDF 就能一批批下来了。省时省力,还挺爽。
Excel 数据的读取,用 pandas 的 read_excel 就行,DataFrame 的筛选、排序、遍历都方便。循环里每行拿一个链接,求回来直接用 open 写文件。路径不存在?os.makedirs 搞定。加个 try-except,避免因为一个错误卡住整个流程。
如果文件多得吓人,可以试试多线程或者 asyncio 来加速。不过也别忘了加点延迟,别把人家服务器打挂了。代码其实简单:
import pandas as pd
import requests, os
df = pd.read_excel('链接.xlsx')
save_path = 'PDFs/'
os.makedirs(save_path, exist_ok=True)
for _, row in df.iterrows():
url = row['下载链接']
file_name = f"{save_path}{row['文件名']}.pdf"
try:
r = requests.get(url)
with open(file_name, 'wb') as f:
f.write(r.content)
except Exception as e:
print(f'下载{url}出错: {e}')
如果你平时经常要从表格批量下载文件,这个方法真值得收藏。改一改还能用在图片、音频等批量抓取上,灵活得。
文件大小:14.62KB
评论区