欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

scrapy 中如何爬取json数据,并解决加载慢的问题

程序员文章站 2022-09-13 22:04:45
最近重新学了边scrapy框架的使用,但是json数据的网址响应很慢,不知道大家有没有这个问题。下面我分享一下,我的经历和如何解决响应的问题。第一步解决响应的问题:大家有没有出现向我这样的问题呢,如果有的话,那么有一个简单的方法去解决首先打开settings设置,然后找到这个:# Obey robots.txt rules#ROBOTSTXT_OBEY = True把它注释掉就能解决啦,是不是很简单。最后分享一下,我是如何处理json数据的,不过我的方法比较简单,具体的参考大佬们的写法吧。...

最近重新学了边scrapy框架的使用,但是json数据的网址响应很慢,不知道大家有没有这个问题。下面我分享一下,我的经历和如何解决响应的问题。
第一步解决响应的问题:
scrapy 中如何爬取json数据,并解决加载慢的问题
大家有没有出现向我这样的问题呢,如果有的话,那么有一个简单的方法去解决

首先打开settings设置,然后找到这个:

# Obey robots.txt rules
#ROBOTSTXT_OBEY = True

把它注释掉就能解决啦,是不是很简单。

最后分享一下,我是如何处理json数据的,不过我的方法比较简单,具体的参考大佬们的写法吧。

# -*- coding: utf-8 -*-
import json

import scrapy
from selenium import webdriver

from ..items import DataItem
from lxml import etree


class DataSpiderSpider(scrapy.Spider):
    name = 'data_spider'
    allow_domain = 'view.inews.qq.com'
    start_urls = ['https://view.inews.qq.com/g2/getOnsInfo?name=disease_other&callback']

    def parse(self, response):
        china_data = json.loads(response.text)
        china_data = json.loads(china_data['data'])
        # 从爬取的信息中提取所需信息
        china = china_data["dailyNewAddHistory"]
        for i in range(len(china)):
            Item = DataItem()
            Item['country'] = china[i]['country']
            Item['date'] = china[i]['date']
            yield Item

`

本文地址:https://blog.csdn.net/kang_yqdhhd/article/details/107149284