私人订制自己的管道-python用opencv批量截取图像指定区域的方法
8.1管道的作用当Item在Spider中被收集之后,它将会被传递到Item Pipeline,一些组件会按照一定的顺序执行对Item的处理。每个item pipeline组件(有时称之为“Item Pipeline”)是实现了简单方法的Python类。他们接收到Item并通过它执行一些行为,同时也决定此Item是否继续通过pipeline,或是被丢弃而不再进行处理。以下是item pipeline的一些典型应用: ⚫清理HTML数据⚫验证爬取的数据(检查item包含某些字段) ⚫查重(并丢弃) ⚫将爬取结果保存到数据库中8.2私人订制自己的管道编写你自己的item pipeline很简单,每个item pipeline组件是一个独立的Python类,同时必须实现以下方法: ⚫ process_item(self, item, spider)此外,也可以实现以下方法: ⚫ open_spider(self, spider) ⚫ close_spider(spider) ⚫ from_crawler(cls, crawler) 8.2.1 process_item(self, item, spider)每个item pipeline组件都需要调用该方法,这个方法必须返回一个Item (或任何继承类)对象,或是抛出DropItem异常,被丢弃的item将不会被之后的pipeline组件所处理。参数: ⚫ item (Item对象) –被爬取的item ⚫ spider (Spider对象) –爬取该item的spider 8.2.2 open_spider(self, spider)
3.88MB
文件大小:
评论区