网站数据抓取器
此程序为Python编写,无需额外安装步骤。执行Crawler.exe文件即可直接体验其功能。默认配置下,程序会抓取新浪科技的内容。如需改变抓取目标,只需编辑配置文件即可实现。配置文件以ini格式呈现,分为spider_config.ini和sucker_config.ini两部分。在spider_config.ini中,用户可以设置爬虫的线程数、起始URL,以及通过正则表达式来过滤URL。sucker_config.ini则用于配置网页分析器的相关参数,如线程数、正则表达式匹配模式等。本程序支持自定义分析器,用户可以根据NewsParser.py的编写规范,自行创建分析器并编译为pyc文件。
1.23MB
文件大小:
评论区