scrapy 中如何爬取json数据,并解决加载慢的问题
程序员文章站
2022-09-13 22:04:45
最近重新学了边scrapy框架的使用,但是json数据的网址响应很慢,不知道大家有没有这个问题。下面我分享一下,我的经历和如何解决响应的问题。第一步解决响应的问题:大家有没有出现向我这样的问题呢,如果有的话,那么有一个简单的方法去解决首先打开settings设置,然后找到这个:# Obey robots.txt rules#ROBOTSTXT_OBEY = True把它注释掉就能解决啦,是不是很简单。最后分享一下,我是如何处理json数据的,不过我的方法比较简单,具体的参考大佬们的写法吧。...
最近重新学了边scrapy框架的使用,但是json数据的网址响应很慢,不知道大家有没有这个问题。下面我分享一下,我的经历和如何解决响应的问题。
第一步解决响应的问题:
大家有没有出现向我这样的问题呢,如果有的话,那么有一个简单的方法去解决
首先打开settings设置,然后找到这个:
# Obey robots.txt rules
#ROBOTSTXT_OBEY = True
把它注释掉就能解决啦,是不是很简单。
最后分享一下,我是如何处理json数据的,不过我的方法比较简单,具体的参考大佬们的写法吧。
# -*- coding: utf-8 -*-
import json
import scrapy
from selenium import webdriver
from ..items import DataItem
from lxml import etree
class DataSpiderSpider(scrapy.Spider):
name = 'data_spider'
allow_domain = 'view.inews.qq.com'
start_urls = ['https://view.inews.qq.com/g2/getOnsInfo?name=disease_other&callback']
def parse(self, response):
china_data = json.loads(response.text)
china_data = json.loads(china_data['data'])
# 从爬取的信息中提取所需信息
china = china_data["dailyNewAddHistory"]
for i in range(len(china)):
Item = DataItem()
Item['country'] = china[i]['country']
Item['date'] = china[i]['date']
yield Item
`
本文地址:https://blog.csdn.net/kang_yqdhhd/article/details/107149284
上一篇: Word邮件合并功能批量打印证书以制作带照片的准考证为例
下一篇: 爬虫进阶之爬取图片