Python爬虫2020国家科学技术奖励网站数据抓取
2020 年国家科学技术奖励网站的内容,数据结构还算规整,爬起来挺顺手的。这个脚本基本就一把梭,主要用的还是requests
和re
,改一下保存路径就能跑,响应也快,页面也没啥复杂的反爬。
没有加伪装求头,也没加延时,所以你跑得太勤快的话,服务端直接给你关门,嗯,建议加个time.sleep
啥的,别太猛冲。
逻辑直接,适合拿来快速取数。你要是想扩展功能,比如分页、筛选条件什么的,也比较好加。用来做数据前置,挺合适的。
还有几个相关文章也可以顺便看看,像这个Web 爬虫技术解析,讲得比较系统,或者这个Python 数据爬虫技术,也挺实用的,适合入门。
如果你手头正好有科研类项目,或者是做行业趋势的,这种正式点的数据源用来做支撑,还是挺靠谱的。自己跑一遍流程,也有助于理解爬虫常见套路。
21.54KB
文件大小:
评论区