scrapy-redis分布式爬虫的搭建过程(理论篇)
1. 背景
scrapy 是一个通用的爬虫框架,但是不支持分布式,scrapy-redis是为了更方便地实现scrapy分布式爬取,而提供了一些以redis为基础的组件(仅有组件)。
2. 环境
- 系统:win7
- scrapy-redis
- redis 3.0.5
- python 3.6.1
3. 原理
3.1. 对比一下scrapy 和 scrapy-redis 的架构图。
scrapy架构图:
scrapy-redis 架构图:
多了一个redis组件,主要影响两个地方:第一个是调度器。第二个是数据的处理。 3.2. scrapy-redis分布式策略。
作为一个分布式爬虫,是需要有一个master端(核心服务器)的,在master端,会搭建一个redis数据库,用来存储start_urls、request、items。master的职责是负责url指纹判重,request的分配,以及数据的存储(一般在master端会安装一个mongodb用来存储redis中的items)。出了master之外,还有一个角色就是slaver(爬虫程序执行端),它主要负责执行爬虫程序爬取数据,并将爬取过程中新的request提交到master的redis数据库中。
如上图,假设我们有四台电脑:a, b, c, d ,其中任意一台电脑都可以作为 master端 或 slaver端。整个流程是:
- 首先slaver端从master端拿任务(request、url)进行数据抓取,slaver抓取数据的同时,产生新任务的request便提交给 master 处理;
- master端只有一个redis数据库,负责将未处理的request去重和任务分配,将处理后的request加入待爬队列,并且存储爬取的数据。
scrapy-redis默认使用的就是这种策略,我们实现起来很简单,因为任务调度等工作scrapy-redis都已经帮我们做好了,我们只需要继承redisspider、指定redis_key就行了。
缺点是,scrapy-redis调度的任务是request对象,里面信息量比较大(不仅包含url,还有callback函数、headers等信息),可能导致的结果就是会降低爬虫速度、而且会占用redis大量的存储空间,所以如果要保证效率,那么就需要一定硬件水平。
4. 运行流程
第一步:在slaver端的爬虫中,指定好 redis_key,并指定好redis数据库的地址,比如:
class myspider(redisspider): """spider that reads urls from redis queue (myspider:start_urls).""" name = 'amazon' redis_key = 'amazoncategory:start_
# 指定redis数据库的连接参数 'redis_host': '172.16.1.99', 'redis_port': 6379,
第二步:启动slaver端的爬虫,爬虫进入等待状态,等待 redis 中出现 redis_key ,log如下:
2017-12-12 15:54:18 [scrapy.utils.log] info: scrapy 1.4.0 started (bot: scrapybot) 2017-12-12 15:54:18 [scrapy.utils.log] info: overridden settings: {'spider_loader_warn_only': true} 2017-12-12 15:54:18 [scrapy.middleware] info: enabled extensions: ['scrapy.extensions.corestats.corestats', 'scrapy.extensions.telnet.telnetconsole', 'scrapy.extensions.logstats.logstats'] 2017-12-12 15:54:18 [myspider_redis] info: reading start urls from redis key 'myspider:start_urls' (batch size: 110, encoding: utf-8 2017-12-12 15:54:18 [scrapy.middleware] info: enabled downloader middlewares: ['scrapy.downloadermiddlewares.httpauth.httpauthmiddleware', 'scrapy.downloadermiddlewares.downloadtimeout.downloadtimeoutmiddleware', 'scrapy.downloadermiddlewares.defaultheaders.defaultheadersmiddleware', 'redisclawerslaver.middlewares.proxiesmiddleware', 'redisclawerslaver.middlewares.headersmiddleware', 'scrapy.downloadermiddlewares.retry.retrymiddleware', 'scrapy.downloadermiddlewares.redirect.metarefreshmiddleware', 'scrapy.downloadermiddlewares.httpcompression.httpcompressionmiddleware', 'scrapy.downloadermiddlewares.redirect.redirectmiddleware', 'scrapy.downloadermiddlewares.httpproxy.httpproxymiddleware', 'scrapy.downloadermiddlewares.stats.downloaderstats'] 2017-12-12 15:54:18 [scrapy.middleware] info: enabled spider middlewares: ['scrapy.spidermiddlewares.httperror.httperrormiddleware', 'scrapy.spidermiddlewares.offsite.offsitemiddleware', 'scrapy.spidermiddlewares.referer.referermiddleware', 'scrapy.spidermiddlewares.urllength.urllengthmiddleware', 'scrapy.spidermiddlewares.depth.depthmiddleware'] 2017-12-12 15:54:18 [scrapy.middleware] info: enabled item pipelines: ['redisclawerslaver.pipelines.examplepipeline', 'scrapy_redis.pipelines.redispipeline'] 2017-12-12 15:54:18 [scrapy.core.engine] info: spider opened 2017-12-12 15:54:18 [scrapy.extensions.logstats] info: crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min) 2017-12-12 15:55:18 [scrapy.extensions.logstats] info: crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min) 2017-12-12 15:56:18 [scrapy.extensions.logstats] info: crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
第三步:启动脚本,往redis数据库中填入redis_key(start_urls)
#!/usr/bin/env python # -*- coding:utf-8 -*- import redis # 将start_url 存储到redis中的redis_key中,让爬虫去爬取 redis_host = "172.16.1.99" redis_key = 'amazoncategory:start_urls' # 创建redis数据库连接 rediscli = redis.redis(host = redis_host, port = 6379, db = "0") # 先将redis中的requests全部清空 flushdbres = rediscli.flushdb() print(f"flushdbres = {flushdbres}") rediscli.lpush(redis_key, https://www.baidu.com)
第四步:slaver端的爬虫开始爬取数据。log如下:
2017-12-12 15:56:18 [scrapy.extensions.logstats] info: crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min) parse url = https://www.baidu.com, status = 200, meta = {'download_timeout': 25.0, 'proxy': 'http://proxy.abuyun.com:9020', 'download_slot': 'www.baidu.com', 'download_latency': 0.2569999694824219, 'depth': 7} parse url = https://www.baidu.com, status = 200, meta = {'download_timeout': 25.0, 'proxy': 'http://proxy.abuyun.com:9020', 'download_slot': 'www.baidu.com', 'download_latency': 0.8840000629425049, 'depth': 8} 2017-12-12 15:57:18 [scrapy.extensions.logstats] info: crawled 2 pages (at 2 pages/min), scraped 1 items (at 1 items/min)
第五步:启动脚本,将redis中的items,转储到mongodb中。
这部分代码,请参照:scrapy-redis分布式爬虫的搭建过程(代码篇)
5. 环境安装以及代码编写
5.1. scrapy-redis环境安装
pip install scrapy-redis
代码位置:后面可以进行修改定制。
5.2. scrapy-redis分布式爬虫编写
第一步,下载官网的示例代码,地址: (需要安装过git)
git clone https://github.com/rmax/scrapy-redis.git
官网提供了两种示例代码,分别继承自 spider + redis 和 crawlspider + redis
第二步,根据官网提供的示例代码进行修改。
到此这篇关于scrapy-redis分布式爬虫的搭建过程(理论篇)的文章就介绍到这了,更多相关scrapy redis分布式爬虫搭建内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持!
上一篇: 通过实例了解Oracle序列Sequence使用方法
下一篇: Java 二分查找算法的实现