Python爬虫集合:豆瓣多项内容爬取
Python编写的豆瓣电影、书籍、小组、相册等多项内容爬虫集。八个月后尝试设计了新的爬虫框架,觉得doubanspiders代码对Scrapy的使用有所糟蹋。依赖服务MongoDB,需要安装Scrapy、pybloom和pymongo包。运行豆瓣电影爬虫,进入douban/movie目录执行scrapy crawl movie;运行豆瓣相册爬虫,进入douban/album目录执行scrapy crawl album。
文件大小:15.08KB
评论区