关于python scrapy中添加cookie踩坑记录

程序员文章站 2022-04-12 23:31:14

问题发现：前段时间项目中，为了防止被封号(提供的可用账号太少)，对于能不登录就可以抓取的内容采用不带cookie的策略，只有必要的内容才带上cookie去访问。本来想着很简单：在每个抛出来的requ...

问题发现：

前段时间项目中，为了防止被封号(提供的可用账号太少)，对于能不登录就可以抓取的内容采用不带cookie的策略，只有必要的内容才带上cookie去访问。

本来想着很简单：在每个抛出来的request的meta中带上一个标志位，通过在cookiemiddleware中查看这个标志位，决定是否是给这个request是否装上cookie。

实现的代码大致如下：

class cookiemiddleware(object):
  """
  每次请求都随机从账号池中选择一个账号去访问
  """

  def __init__(self):
    client = pymongo.mongoclient(mongo_uri)
    self.account_collection = client[mongo_database][account_collection]

  def process_request(self, request, spider):
    if 'target' in request.meta: 
      logging.debug('进入到process_request了')
      flag = request.meta['target']
      if flag != 'no':
        all_count = self.account_collection.find({'status': 'success'}).count()
        if all_count == 0:
          raise exception('当前账号池为空')
        random_index = random.randint(0, all_count - 1)
        random_account = self.account_collection.find({'status': 'success'})[random_index]
        
        request.cookies = json.loads(random_account['cookie'])
      else:
        logging.debug('对xxx的请求不做处理')
    else:
      all_count = self.account_collection.find({'status': 'success'}).count()
      if all_count == 0:
        raise exception('当前账号池为空')
      random_index = random.randint(0, all_count - 1)
      random_account = self.account_collection.find({'status': 'success'})[random_index]
      
      request.cookies = json.loads(random_account['cookie'])

在settings.py中的配置如下：

downloader_middlewares = {
  'eyny.middlewares.cookiemiddleware': 550,
}

到这里可能有些大佬已经能够看出端倪了，和我一样认为这么写没啥问题的同志们继续往下看。

在这么编写完之后，我正常开启了项目，还适当调高了并发量，然后第二天发现账号被封了。在debug过程中看到在抓取不需要携带cookie的url的时候，依然携带了cookie，并且cookie是被放在了header中，经过我花费了两个多小时查看框架源码之后，终于发现了原因。

原因&解决方案：

在scrapy的settings目录下的default_settings.py文件中，初始声明了一些downloader_middlewares_base，这些middlewares的声明如下：

downloader_middlewares_base = {
  # engine side
  'scrapy.downloadermiddlewares.robotstxt.robotstxtmiddleware': 100,
  'scrapy.downloadermiddlewares.httpauth.httpauthmiddleware': 300,
  'scrapy.downloadermiddlewares.downloadtimeout.downloadtimeoutmiddleware': 350,
  'scrapy.downloadermiddlewares.defaultheaders.defaultheadersmiddleware': 400,
  'scrapy.downloadermiddlewares.useragent.useragentmiddleware': 500,
  'scrapy.downloadermiddlewares.retry.retrymiddleware': 550,
  'scrapy.downloadermiddlewares.ajaxcrawl.ajaxcrawlmiddleware': 560,
  'scrapy.downloadermiddlewares.redirect.metarefreshmiddleware': 580,
  'scrapy.downloadermiddlewares.httpcompression.httpcompressionmiddleware': 590,
  'scrapy.downloadermiddlewares.redirect.redirectmiddleware': 600,
  'scrapy.downloadermiddlewares.cookies.cookiesmiddleware': 700,
  'scrapy.downloadermiddlewares.httpproxy.httpproxymiddleware': 750,
  'scrapy.downloadermiddlewares.stats.downloaderstats': 850,
  'scrapy.downloadermiddlewares.httpcache.httpcachemiddleware': 900,
  # downloader side
}

可以看到在downloader_middlewares_base中也声明了一个cookiesmiddleware，而且是700，也就是说比我们写的cookiemiddleware(500)要靠后执行，而且在debug过程中也看到，在执行完我们编写的cookiemiddleware之后，header中没有携带cookie，但是在执行完scrapy.downloadermiddlewares.cookies.cookiesmiddleware: 700之后，在header中看到了cookie，这说明cookie是scrapy帮我们自动加了。

我们打开scrapy.downloadermiddlewares.cookies.cookiesmiddleware的实现源码，主要关注process_request方法：

class cookiesmiddleware(object):
  """this middleware enables working with sites that need cookies"""

  def __init__(self, debug=false):
    self.jars = defaultdict(cookiejar)
    self.debug = debug

  @classmethod
  def from_crawler(cls, crawler):
    if not crawler.settings.getbool('cookies_enabled'):
      raise notconfigured
    return cls(crawler.settings.getbool('cookies_debug'))

  def process_request(self, request, spider):
    if request.meta.get('dont_merge_cookies', false):
      return

    cookiejarkey = request.meta.get("cookiejar")
    jar = self.jars[cookiejarkey]
    cookies = self._get_request_cookies(jar, request)
    for cookie in cookies:
      jar.set_cookie_if_ok(cookie, request)

    # set cookie header
    request.headers.pop('cookie', none)
    jar.add_cookie_header(request)
    self._debug_cookie(request, spider)

	def process_response(self, request, response, spider):
    if request.meta.get('dont_merge_cookies', false):
      return response

    # extract cookies from set-cookie and drop invalid/expired cookies
    cookiejarkey = request.meta.get("cookiejar")
    jar = self.jars[cookiejarkey]
    jar.extract_cookies(response, request)
    self._debug_set_cookie(response, spider)

    return response

在上面的代码中，最中要的是process_request方法中的内容，可以看到首先从request.meta中查看有没有dont_merge_cookies属性，如果没有或者为false，就不运行剩下的方法，卧槽，这就是我们要找的方法呀！是不是好简单…

特别注意：如果要使用dont_merge_cookies=true，那么需要我们自己将cookie加入到header中，通过**request.cookies = json.loads(random_account[‘cookie'])**方式添加的cookie，scrapy也不再会帮我们合并到header 中了。

解决方案：我们的解决方法就是在request的meta中加入dont_merge_cookies属性，并设置为true，在cookiemiddleware中，我们将cookie添加在header中，而不是赋值给request.cookies

问题解决了，但是这么简单是不是很不爽，所以就继续想看看是为什么scrapy可以自动给我们加上cookie，这个接下来就需要读下面的代码了。

总结

到此这篇关于关于python scrapy中添加cookie踩坑记录的文章就介绍到这了,更多相关scrapy cookie问题内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持！