以hao123为起点,滚动抓取外链并记录相关信息

Python爬虫入门,支持Python3。功能简述:以hao123为起点,滚动抓取外链,收集网址,记录网页内外链数目及title等信息。在Windows 7 32位系统上测试,每24小时可收集约10万条数据。

zip
spider-master.zip 预估大小:10个文件
folder
spider-master 文件夹
folder
.github 文件夹
folder
workflows 文件夹
file
pythonapp.yml 1KB
folder
src 文件夹
file
sqlhand.py 4KB
file
main.py 2KB
file
toolhand.py 3KB
file
log.txt 83KB
file
httphand.py 2KB
file
todayb.db 32KB
file
requirements.txt 15B
file
.gitignore 314B
file
README.md 278B
zip 文件大小:19.16KB