scrapy 中如何爬取json数据，并解决加载慢的问题

程序员文章站 2022-04-19 12:33:51

最近重新学了边scrapy框架的使用，但是json数据的网址响应很慢，不知道大家有没有这个问题。下面我分享一下，我的经历和如何解决响应的问题。第一步解决响应的问题：大家有没有出现向我这样的问题呢，如果有的话，那么有一个简单的方法去解决首先打开settings设置，然后找到这个：# Obey robots.txt rules#ROBOTSTXT_OBEY = True把它注释掉就能解决啦，是不是很简单。最后分享一下，我是如何处理json数据的，不过我的方法比较简单，具体的参考大佬们的写法吧。...

最近重新学了边scrapy框架的使用，但是json数据的网址响应很慢，不知道大家有没有这个问题。下面我分享一下，我的经历和如何解决响应的问题。
第一步解决响应的问题：
scrapy 中如何爬取json数据，并解决加载慢的问题
大家有没有出现向我这样的问题呢，如果有的话，那么有一个简单的方法去解决

首先打开settings设置，然后找到这个：

# Obey robots.txt rules
#ROBOTSTXT_OBEY = True

把它注释掉就能解决啦，是不是很简单。

最后分享一下，我是如何处理json数据的，不过我的方法比较简单，具体的参考大佬们的写法吧。

# -*- coding: utf-8 -*-
import json

import scrapy
from selenium import webdriver

from ..items import DataItem
from lxml import etree


class DataSpiderSpider(scrapy.Spider):
    name = 'data_spider'
    allow_domain = 'view.inews.qq.com'
    start_urls = ['https://view.inews.qq.com/g2/getOnsInfo?name=disease_other&callback']

    def parse(self, response):
        china_data = json.loads(response.text)
        china_data = json.loads(china_data['data'])
        # 从爬取的信息中提取所需信息
        china = china_data["dailyNewAddHistory"]
        for i in range(len(china)):
            Item = DataItem()
            Item['country'] = china[i]['country']
            Item['date'] = china[i]['date']
            yield Item

本文地址：https://blog.csdn.net/kang_yqdhhd/article/details/107149284

上一篇：情感笑侃,笑''话''说不完

下一篇： PyQt 5 + Windows 10开发环境配置