Python微博爬虫实现
Python 写的微博爬虫,目录结构清晰,逻辑也不绕。URL 记录在UrlRecord.db
里,是个sqlite
文件,爬的时候会持续加新链接,挺方便维护的。数据存在WeiboData
目录,每个用户独立一个文件,查数据一目了然。
配置文件Config.txt
还能控制是否重爬,设置成1
就能重新开始,挺人性化。运行也简单,直接跑Main.py
,不过记得先把COOKIE
换成你自己的,不然爬不到内容哦。
运行时间一长 IP 会被封,建议配合代理 IP
或限速
来搞。整体来看,逻辑清晰,文件管理也合理,适合做二次开发或者参考思路。
如果你想搞微博热搜,顺手也可以看看这些文章:
如果你打算搞数据、内容挖掘或者只是想练手,这个项目还挺合适的,直接上手,效率高。
708.19KB
文件大小:
评论区