ip代理服务器搭建(搭建稳定的代理ip池)
程序员文章站
2024-03-27 15:29:58
一、建立ip代理池的思路:做爬虫时,遇到访问太频繁ip被封是难以避免的,而本地单个ip是不足以进行大规模爬取,并且自己并不想购买付费代理,那么,构建一个ip代理池是非常有必要的。思路如下:图1二、建立...
一、建立ip代理池的思路:
做爬虫时,遇到访问太频繁ip被封是难以避免的,而本地单个ip是不足以进行大规模爬取,并且自己并不想购买付费代理,那么,构建一个ip代理池是非常有必要的。思路如下:
图1
二、建立ip 代理池的步骤:
- 爬取代理ip:搜索选择代理ip网站,选取免费代理;代码如下:
# _*_ coding:utf-8 _*_
# 开发作者:jason zhang
# 创建时间:2020/12/29 17:58
# 文件名称:爬取代理ip.py
# 开发工具:pycharm
import requests
import lxml.html
import os
headers = {
'user-agent':'mozilla/5.0 (windows nt 10.0; win64; x64) applewebkit/537.36 (khtml, like gecko) chrome/87.0.4280.88 safari/537.36'
}
url_list = ['http://www.xicidaili.com/nn/%r' % i for i in range(1,10)]
ip_list = []
for url in url_list:
r = requests.get(url,headers=headers)
etree = lxml.html.fromstring(r.text)
ips = etree.xpath('//tr[@class="odd"]')
for ip in ips:
ip = ip.xpath('//td/text()')
ip = ip[0] +':'+ ip[1]
ip_list.append(ip)
f = open('ip.txt','wb')
f.write(','.join(ip_list).encode('utf-8'))
f.close(
- 验证代理ip:
通过网络访问来验证代理ip的可用性和访问速度,将之前爬取到的代理ip地址从ip.txt文件中提取出来,分别试用代理ip去访问某个网站首页,仅保留响应时间在2秒内的ip,并保存在qip.txt中,代码如下:
# _*_ coding:utf-8 _*_
# 开发作者:关中老玉米
# 创建时间:2020/12/29 18:27
# 文件名称:验证代理ip.py
# 开发工具:pycharm
import requests
ip_list = open('ip.txt').read().split(',')
headers = {
'user-agent':'mozilla/5.0 (windows nt 6.1; win64; x64) applewebkit/537.36 (khtml, like gecko) chrome/59.0.3071.115 safari/537.36'
}
q
url = 'https://www.baidu.com' #用百度来测试ip是否能正常连网
for i in ip_list: #设置超时时间timeout为2 s,超时则为不可用ip
r = requests.get(url, proxies={'http': 'http://' + ip[i]}, headers=headers,timeout=2)
if r.text:
qip.append(qip[i])
else:
continue
f = open('quality_ip.txt','wb')
f.write(','.join(quality_ip).encode('utf-8'))
f.close()
- 使用代理ip:
建立ip代理池之后,有以下两种使用代理ip的方式。
# _*_ coding:utf-8 _*_
# 开发作者:jason zhang
# 创建时间:2020/12/31 18:03
# 文件名称:使用代理ip.py
# 开发工具:pycharm
# (1)使用随机 ip,代码如下:
import random
import requests
ip_list = open('quality_ip.txt').read().split(',')
headers = {
'user-agent':'mozilla/5.0 (windows nt 10.0; win64; x64) applewebkit/537.36 (khtml, like gecko) chrome/87.0.4280.88 safari/537.36'
}
url = 'http://*********'
r = requests.get(url, proxies={'http': 'http://'+random.choice(ip_list)},headers=headers)
# (2)因为免费的代理时效很短,在后续的爬取任务中很容易失效,所以当出现访问错误(响应码不等于 200)时,更换 ip,代码如下:
ip_list = open('qip.txt').read().split(',')
headers = {
'user-agent':'mozilla/5.0 (windows nt 10.0; win64; x64) applewebkit/537.36 (khtml, like gecko) chrome/87.0.4280.88 safari/537.36'
}
for ip in ip_list:
for i in range(len(url_list)):
r = requests.get(url_list[i], proxies={'http': 'http://'+ip},headers=headers)
if r.status_code != 200:
break