欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

ip 代理池的获取

程序员文章站 2022-05-19 13:32:37
...

没充钱只能捡捡别人剩下的,,,拿着别人免费的ip一个个试吧,可行率极低,,,

在http://www.xicidaili.com/nt/上爬取ip

附上其他还不错的网站:

http://www.66ip.cn/

http://www.coobobo.com/

http://cn-proxy.com/

https://www.kuaidaili.com/free/inha/

在http://2017.ip138.com/ic.asp上验证ip可行性

import random,requests,time,re
from fake_useragent import UserAgent 

def get_random_header():
    header = {
        'User-Agent': "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36",
        'Referer': 'http://www.xicidaili.com/wt',
    }
    return header

def test_ip(ip,test_url='http://2017.ip138.com/ic.asp',time_out=3):
    proxies={'http': ip[0]+':'+ip[1]}
    try_ip=ip[0]
    #print(try_ip)
    try:
        r=requests.get(test_url,headers=get_random_header(),proxies=proxies,timeout=time_out)
        if r.status_code==200:
            r.encoding='gbk'
            result=re.search('\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}',r.text)
            result=result.group()
            if result[:9]==try_ip[:9]:
                print(r.text)
                print('测试通过')
                return True
            else:
                #print('%s:%s 携带代理失败,使用了本地IP' %(ip[0],ip[1]))
                return False    
        else:
            #print('%s:%s 请求码不是200' %(ip[0],ip[1]))
            return False
    except:
        #print('%s:%s 请求过程错误' %(ip[0],ip[1]))
        return False

def   scraw_proxies(page_num,scraw_url="http://www.xicidaili.com/nt/"):
    scraw_ip=list()
    available_ip=list()
    for page in range(1,page_num):
        print("抓取第%d页代理IP" %page)
        url=scraw_url+str(page)
        r=requests.get(url,headers=get_random_header())
        r.encoding='utf-8'
        pattern = re.compile('<td class="country">.*?alt="Cn" />.*?</td>.*?<td>(.*?)</td>.*?<td>(.*?)</td>', re.S)
        scraw_ip= re.findall(pattern, r.text)
        print(scraw_ip)
        for ip in scraw_ip:
            if(test_ip(ip)==True):
                print('%s:%s通过测试,添加进可用代理列表' %(ip[0],ip[1]))
                available_ip.append(ip)
                                    
            else:
                pass    
        print("代理爬虫暂停10s")
        time.sleep(10)
        print("爬虫重启")
    print('抓取结束')
    return available_ip

if __name__=="__main__":
    available_ip=scraw_proxies(3)