scrapy-redis爬虫queue，去重，调度

程序员文章站 2022-05-06 18:50:33

...

源码：git clone https://github.com/rmax/scrapy-redis.git

一、爬虫队列： FifoQueue LifoQueue PriorityQueue

class Base(object):
    """Per-spider base queue class"""
    def __init__(self, server, spider, key, serializer=None):
        if serializer is None:
            serializer = picklecompat
        if not hasattr(serializer, 'loads'):
            raise TypeError("serializer does not implement 'loads' function: % r"
                            % serializer)
        if not hasattr(serializer, 'dumps'):
            raise TypeError("serializer '% s' does not implement 'dumps' function: % r"
                            % serializer)
        self.server = server
        self.spider = spider
        self.key = key % {'spider': spider.name}
        self.serializer = serializer
 
    def _encode_request(self, request):
        obj = request_to_dict(request, self.spider)
        return self.serializer.dumps(obj)
 
    def _decode_request(self, encoded_request):
        obj = self.serializer.loads(encoded_request)
        return request_from_dict(obj, self.spider)
 
    def __len__(self):
        """Return the length of the queue"""
        raise NotImplementedError
 
    def push(self, request):
        """Push a request"""
        raise NotImplementedError
 
    def pop(self, timeout=0):
        """Pop a request"""
        raise NotImplementedError
 
    def clear(self):
        """Clear queue/stack"""
        self.server.delete(self.key)

_encode_request() 和 _decode_request() 方法对request对象进行序列化和反序列化

实现三种队列方法：定义子类继承父类base 并重写_len() _pop() _push

二、去重过滤

源码文件是 dupefilter.py

步骤：利用redis集合指纹 server 对象的 sadd() 。获取指纹之后就直接向集合添加指纹，如果添加成功，说明这个指纹原本不存在于集合中，返回值 1。代码中最后的返回结果是判定添加结果是否为 0，如果刚才的返回值为 1，那这个判定结果就是 False，也就是不重复，否则判定为重复。

三、调度器

源文件名称是 scheduler.py

Scrapy-Redis 还帮我们实现了配合 Queue、DupeFilter 使用的调度器 Scheduler，源文件名称是 scheduler.py。我们可以指定一些配置，如 SCHEDULER_FLUSH_ON_START 即是否在爬取开始的时候清空爬取队列，SCHEDULER_PERSIST 即是否在爬取结束后保持爬取队列不清除。我们可以在 settings.py 里*配置，而此调度器很好地实现了对接

def enqueue_request(self, request):
    if not request.dont_filter and self.df.request_seen(request):
        self.df.log(request, self.spider)
        return False
    if self.stats:
        self.stats.inc_value('scheduler/enqueued/redis', spider=self.spider)
    self.queue.push(request)
    return True
 
def next_request(self):
    block_pop_timeout = self.idle_before_close
    request = self.queue.pop(block_pop_timeout)
    if request and self.stats:
        self.stats.inc_value('scheduler/dequeued/redis', spider=self.spider)
    return request

enqueue_request() 可以向队列中添加 Request，核心操作就是调用 Queue 的 push() 操作，还有一些统计和日志操作。next_request() 就是从队列中取 Request，核心操作就是调用 Queue 的 pop() 操作，此时如果队列中还有 Request，则 Request 会直接取出来，爬取继续，否则如果队列为空，爬取则会重新开始

scrapy-redis爬虫queue，去重，调度

python爬虫中url管理器去重操作实例

scrapy-redis数据去重与分布式框架

scrapy-redis爬虫queue，去重，调度

爬取知乎 -----------------------------使用scrapy-deltafetch实现爬虫增量去重

scrapy-redis实现url去重

爬虫笔记（三） - 关于Scrapy去重逻辑分析

在爬虫的过程中如何使用Redis的Bloomfilter去重

爬虫数据去重-布隆过滤器

在爬虫的过程中如何使用Redis的Bloomfilter去重

python爬虫中url管理器去重操作实例