欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

在scrapy中,将item存入json文件

程序员文章站 2022-05-05 15:41:14
...

两种方法将item写入json文件,一种是自定义写入,一种是利用scrapy本身的scrapy.exports中提供的到处方式,scrapy提供的到处方式有:

['BaseItemExporter', 'PprintItemExporter', 'PickleItemExporter',
           'CsvItemExporter', 'XmlItemExporter', 'JsonLinesItemExporter',
           'JsonItemExporter', 'MarshalItemExporter']
方法一:自己写的json导出


假设将item存入article.json

首先在pipeline中进行设置:

import codecs
import json

class JsonWithEncodingPipeline(object):
    #自定义json文件的导出
    def __init__(self):#初始化,打开文件
        self.file = codecs.open('article.json', 'w', encoding="utf-8")
        #这里用codecs库来打开文件,目的是编码不会出错


    def process_item(self, item, spider):#写入文件
        lines = json.dumps(dict(item), ensure_ascii=False) + "\n"
        self.file.write(lines)
        return item
    def spider_closed(self, spider):#关闭文件
        self.file.close()

然后在settings中,把这个pipeline开启即可。


方法二:利用系统自带的JsonItemExport

假设将item存入articleexport.jsonzhong 


from scrapy.exporters imort JsonItemExporter
class JsonExporterPipleline(object): #调用scrapy提供的json export导出json文件 def __init__(self): self.file = open('articleexport.json', 'wb') self.exporter = JsonItemExporter(self.file, encoding="utf-8", ensure_ascii=False) self.exporter.start_exporting() def close_spider(self, spider): self.exporter.finish_exporting() self.file.close() def process_item(self, item, spider): self.exporter.export_item(item) return item

然后在settings中,把这个pipeline开启即可。

注意:方法二导出的json文件中,内容是一个列表list[]  。方法一的方式则是字典{}。