上海ip代理免费（代理服务器ip地址大全）

程序员文章站 2024-03-27 11:53:04

/1 前言/玩爬虫的都避免不了各大网站的反爬措施限制，比较常见的是通过固定时间检测某ip地址访问量来判断该用户是否为 “网络机器人”，也就是所谓的爬虫，如果被识别到，就面临被封ip的风险，那样你就不能...

/1 前言/

玩爬虫的都避免不了各大网站的反爬措施限制，比较常见的是通过固定时间检测某ip地址访问量来判断该用户是否为 “网络机器人”，也就是所谓的爬虫，如果被识别到，就面临被封ip的风险，那样你就不能访问该网址了。

通用的解决办法是用代理ip进行爬取，但是收费的代理ip一般都是比较贵的，网上倒是有很多免费的代理ip网站，但是受时效性影响，大部分地址都不能用，有很多维护代理ip池的教程，即把爬取并检测后能用代理ip放到“代理池里”，等以后要用的时候再从里面提取，在我看来，这种效率比较低，因为这类ip地址很快就失效，我们要做的是边检测边使用，充分保证免费ip的时效性。

/2 抓取ip地址/

下面就开始实战操作。

1.首先我们随便找一个免费代理ip网站，如下图所示。

2、打开网页查看器，分析其网页元素结构，如下图所示。

3、就是一个简单的静态网页，我们用requests和bs4将ip地址和对应端口爬下，如下图所示。

4、每一行ip地址都由5个<td>标签组成，而我们需要的是第一个<td>标签（对应ip地址）和第2个<td>标签（对应端口），所以从第一个开始，每隔5个取出ip地址（item[::5]）,从第二个开始，每隔5个取出对应端口（item[1::5]）,参数n为页码，每次只在1页取1个有用的ip地址，最终效果如下图所示：