Python爬虫2020国家科学技术奖励网站数据抓取

2020 年国家科学技术奖励网站的内容,数据结构还算规整,爬起来挺顺手的。这个脚本基本就一把梭,主要用的还是requestsre,改一下保存路径就能跑,响应也快,页面也没啥复杂的反爬。

没有加伪装求头,也没加延时,所以你跑得太勤快的话,服务端直接给你关门,嗯,建议加个time.sleep啥的,别太猛冲。

逻辑直接,适合拿来快速取数。你要是想扩展功能,比如分页、筛选条件什么的,也比较好加。用来做数据前置,挺合适的。

还有几个相关文章也可以顺便看看,像这个Web 爬虫技术解析,讲得比较系统,或者这个Python 数据爬虫技术,也挺实用的,适合入门。

如果你手头正好有科研类项目,或者是做行业趋势的,这种正式点的数据源用来做支撑,还是挺靠谱的。自己跑一遍流程,也有助于理解爬虫常见套路。

py 文件大小:21.54KB