scrapy中间件(fake_useragent使用 + ip代理设置)

程序员文章站 2022-05-09 11:17:43

...

随机用户代理

from fake_useragent import UserAgent

headers = {
    "User-Agent": UserAgent().chrome
}


from scrapy import signals
from fake_useragent import UserAgent
from scrapy.exceptions import IgnoreRequest

class RandomUserAgentMiddleware(object):

    def process_request(self, request, spider):
        if spider.name =='bd':
            ua = UserAgent(verify_ssl=False)      //切记切记这里一定要加verify_ssl=False，都是泪的教训啊~~~~
            request.headers['User-Agent'] = ua.random
            return None
        else:
            raise IgnoreRequest

    def process_response(self, request, response, spider):
        if spider.name =='bd':
            # print(response)
            print(request.headers["User-Agent"])
            return response
        else:
            raise IgnoreRequest

    def process_exception(self, request, exception, spider):
        pass

设置ip代理中间件

import requests

class ProxyMiddleware(object):
    def __init__(self, proxy_pool_url):
        self.proxy_pool_url = proxy_pool_url

    @classmethod
    def from_crawler(cls, crawler):
        return cls(
            proxy_pool_url=crawler.settings.get('PROXY_POOL_URL')
        )

    def _get_proxy(self):
        try:
            proxy = requests.get(proxy_pool_url)
            return proxy.text
        except ConnectionError:
            return None

      # 添加代理，需要在request的meta信息中添加proxy字段
      # 代理的形式为: 协议+ip地址+端口
    def process_response(self, request, response, spider):
        if response.status != 200:
            logger.warning('Need use proxy ~~~')
            request.meta["proxy"] = 'http://' + self._get_proxy()
            return request
        else:
            return response

相关标签： python爬虫中间件 proxy

上一篇：使用fake_useragent随机生成user_agent

下一篇：使用fake-useragent库来实现随机更换User-Agent

scrapy中间件(fake_useragent使用 + ip代理设置)

随机用户代理

设置ip代理中间件

【Python3爬虫】在Scrapy中使用代理IP和随机User-Agent

第1.7章 scrapy之ip代理的使用

scrapy下使用ip代理的方法

python中scrapy的使用之设置消息头和更改ip

scrapy框架中间件，请求头，IP代理

scrapy配置user-agent中间件和ip代理中间件

scrapy中间件(fake_useragent使用 + ip代理设置)

分享一篇python scrapy ip代理的设置实例

分享一篇python scrapy ip代理的设置实例

【Python3爬虫】在Scrapy中使用代理IP和随机User-Agent