在scrapy中,将item存入json文件
程序员文章站
2022-05-05 15:41:14
...
两种方法将item写入json文件,一种是自定义写入,一种是利用scrapy本身的scrapy.exports中提供的到处方式,scrapy提供的到处方式有:
['BaseItemExporter', 'PprintItemExporter', 'PickleItemExporter',
'CsvItemExporter', 'XmlItemExporter', 'JsonLinesItemExporter',
'JsonItemExporter', 'MarshalItemExporter']
方法一:自己写的json导出假设将item存入article.json
首先在pipeline中进行设置:
import codecs
import json
class JsonWithEncodingPipeline(object):
#自定义json文件的导出
def __init__(self):#初始化,打开文件
self.file = codecs.open('article.json', 'w', encoding="utf-8")
#这里用codecs库来打开文件,目的是编码不会出错
def process_item(self, item, spider):#写入文件
lines = json.dumps(dict(item), ensure_ascii=False) + "\n"
self.file.write(lines)
return item
def spider_closed(self, spider):#关闭文件
self.file.close()
然后在settings中,把这个pipeline开启即可。
方法二:利用系统自带的JsonItemExport
假设将item存入articleexport.jsonzhong
from scrapy.exporters imort JsonItemExporter
class JsonExporterPipleline(object): #调用scrapy提供的json export导出json文件 def __init__(self): self.file = open('articleexport.json', 'wb') self.exporter = JsonItemExporter(self.file, encoding="utf-8", ensure_ascii=False) self.exporter.start_exporting() def close_spider(self, spider): self.exporter.finish_exporting() self.file.close() def process_item(self, item, spider): self.exporter.export_item(item) return item然后在settings中,把这个pipeline开启即可。
注意:方法二导出的json文件中,内容是一个列表list[] 。方法一的方式则是字典{}。
上一篇: Scrapy抓取数据存储到Excel