搭建免费代理池---采集代理（1）

程序员文章站 2022-06-07 11:06:59

在对网站信息进去抓取时，难免遇到被封IP的情况。针对这一情况可采用代理IP的方法来处理，好了现在我遇到的问题是什么呢？就是我没有代理IP啊。百度了下，发现网上有好多免费的代理IP，所以我决定把能找到的所以免费代理IP全部采集下来，以后做成接口的方式来供大家免费使用。本篇文章主要是对采集 “6 ......

在对网站信息进去抓取时，难免遇到被封ip的情况。针对这一情况可采用代理ip的方法来处理，好了现在我遇到的问题是什么呢？就是我没有代理ip啊。

百度了下，发现网上有好多免费的代理ip，所以我决定把能找到的所以免费代理ip全部采集下来，以后做成接口的方式来供大家免费使用。

本篇文章主要是对采集 “66免费代理网 http://www.66ip.cn/”做技术总结。

1、get/post 请求

为了让操作更加简单采用工厂模式对get / post 请求进行了封装。

import requests
import abc

'''
请求方法抽象类
'''


class absmethod:

    @abc.abstractmethod
    def request(self, url, attach):
        pass


'''
get 方法
'''


class get(absmethod):
    '''
    请求
    '''

    def request(self, url, attach) -> requests.response:
        res = requests.post(url, attach)
        if not res.ok:
            return res.raise_for_status()
        return res


'''
post 方法
'''


class post(absmethod):
    '''
    请求
    '''

    def request(self, url, attach) -> requests.response:
        res = requests.get(url, attach)
        if not res.ok:
            return res.raise_for_status()
        return res


'''
方法工厂
'''


class methodfactory:
    def create(self, method: str) -> absmethod:
        return eval(method)()


'''
http 请求
'''


class httpreuqest:

    '''
    发送求请
    '''
    @staticmethod
    def send(url, attach = {}, method='get') -> requests.response:
        factory = methodfactory()
        target = factory.create(method)
        return target.request(url, attach)

2、采集目标站点

class www_66ip_cn:

    '''
    url地址
    '''
    __url = 'http://www.66ip.cn'

    '''
    页面编码
    '''
    __code = 'gbk'

    '''
    选择器
    '''
    __selector = '.containerbox table tr'

    '''
    获取免费代理
    '''

    def get_proxy(self) -> str:
        soup = bs4.beautifulsoup(self.text, 'lxml')
        result = soup.select(self.__selector)
        result = self.__filters([str(n) for n in result])
        return result

    '''
    获取页面内容
    '''
    @property
    def text(self) -> str:
        http = httpreuqest()
        res = http.send(self.__url)
        if res.headers['content-encoding'] == 'gzip':  # 页面采用gizp压缩了，需要对它进行解码不然中文会乱码
            return res.content.decode(self.__code)
        return res.text

    '''
    过滤
    '''

    def __filters(self, items: list[str]) -> list[list]:
        result, regex = [], re.compile(r'<td>([^<>]+)</td>')
        for item in items:
            result.append(regex.findall(item))
        return result


proxy = www_66ip_cn()

d = proxy.get_proxy()

print(d)

3、技术总结

　　目标站点采用了 gzip 进行了页面压缩，如果不对页面进行解码那么中文字符就会以乱码的形式出现。针对这一情况，可采用字符串函数 decode()进行解码

4、百度网盘

链接：https://pan.baidu.com/s/1bstzsfptemccfoum6_4ruw
提取码：dlsr

上一篇： .NET Core Razor Pages中ajax get和post的使用

下一篇： Python入门基础学习(面向对象)

搭建免费代理池---采集代理（1）

1、get/post 请求

2、采集目标站点

3、技术总结

4、百度网盘

搭建免费代理池---采集代理（1）

python利用proxybroker构建爬虫免费IP代理池

【Python3爬虫】教你怎么利用免费代理搭建代理池

python利用proxybroker构建爬虫免费IP代理池的实现

采集15个代理IP网站，打造免费代理IP池

爬取快代理免费ip，构建自己的代理ip池，不再怕反爬（附代码）

听说你玩爬虫爬妹子时老被封ip？教你搭建一个ip代理池！想爬就爬

进击的爬虫：用Python搭建匿名代理池

玩爬虫封IP是最头痛的事情！从零搭建异步爬虫代理池！随你怎么封

aws免费服务器申请及网络代理搭建教程