学习Scrapy(PACKT,2016)

这本书介绍了期待已久的Scrapy v 1.0版本,它让你几乎不用努力就能从任何来源提取有用的数据。本书首先解释了Scrapy框架的基本原理,然后详细描述了如何从任何来源提取数据、清理和格式化数据以满足你的需求,并使用Python和第三方API进行数据处理。接下来你会熟悉将抓取的数据存储在数据库中以及搜索引擎中,并使用Spark Streaming对这些数据进行实时分析。通过这本书的阅读,你将轻松掌握抓取应用数据的艺术。
你将学习到:
- 理解HTML页面并编写XPath以提取所需的数据
- 用简单的Python编写Scrapy爬虫并进行网络爬取
- 将你的数据推入任何数据库、搜索引擎或分析系统中
- 配置你的爬虫下载文件、图片和使用代理
- 创建高效的管道,将数据精确地格式化为你想要的形式。使用Twisted
pdf 文件大小:18MB