欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  后端开发

Python使用scrapy采集数据过程中放回下载过大页面的方法

程序员文章站 2022-04-28 19:45:52
...
本文实例讲述了Python使用scrapy采集数据过程中放回下载过大页面的方法。分享给大家供大家参考。具体分析如下:

添加以下代码到settings.py,myproject为你的项目名称

复制代码 代码如下:
DOWNLOADER_HTTPCLIENTFACTORY = 'myproject.downloader.LimitSizeHTTPClientFactory'

自定义限制下载过大页面的模块

复制代码 代码如下:
MAX_RESPONSE_SIZE = 1048576 # 1Mb
from scrapy.core.downloader.webclient import ScrapyHTTPClientFactory, ScrapyHTTPPageGetter
class LimitSizePageGetter(ScrapyHTTPPageGetter):
def handleHeader(self, key, value):
ScrapyHTTPPageGetter.handleHeader(self, key, value)
if key.lower() == 'content-length' and int(value) > MAX_RESPONSE_SIZE:
self.connectionLost('oversized')
class LimitSizeHTTPClientFactory(ScrapyHTTPClientFactory):
protocol = LimitSizePageGetter

希望本文所述对大家的Python程序设计有所帮助。

Python使用scrapy采集数据过程中放回下载过大页面的方法

声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn核实处理。

相关文章

相关视频


网友评论

文明上网理性发言,请遵守 新闻评论服务协议

我要评论
  • Python使用scrapy采集数据过程中放回下载过大页面的方法
  • 专题推荐

    作者信息
    Python使用scrapy采集数据过程中放回下载过大页面的方法

    认证0级讲师

    推荐视频教程
  • Python使用scrapy采集数据过程中放回下载过大页面的方法javascript初级视频教程
  • Python使用scrapy采集数据过程中放回下载过大页面的方法jquery 基础视频教程
  • 视频教程分类