Python反爬机制-验证码功能的具体实现过程

程序员文章站 2024-02-19 19:49:52

识别验证码 ocr(optical character recognition)即光学字符识别技术，专门用于对图片文字进行识别，并获取文本。字符验证码的特点就是验证码中包含数字、字母或者掺杂着斑点与...

识别验证码

ocr(optical character recognition)即光学字符识别技术，专门用于对图片文字进行识别，并获取文本。字符验证码的特点就是验证码中包含数字、字母或者掺杂着斑点与混淆曲线的图片验证码。识别此类验证码，首先需要找到验证码验证码图片在网页html代码中的位置，然后将验证码下载，最后再通过ocr技术进行验证码的识别工作。

1. 字符验证码

1.1 ocr环境

tesseract-ocr是一个免费、开源的ocr引擎，通过该引擎可以识别图片中的验证码，搭建ocr的具体步骤如下：

（1）这里以macos操作系统为例，使用brew install安装tesseract,命令如下：

安装完毕后用如下命令测试，示例代码如下：

（2）安装tesseract模块，安装命令如下：

Python反爬机制-验证码功能的具体实现过程

说明

如果使用的的是anaconda并在安装tesseract模块时出现错误，可以使用如下命令：

1.2 下载验证码图片

以下面地址对应的网页为例，下载网页中的验证码图片，具体步骤如下：

测试页面地址：http://sck.rjkflm.com:666/spider/word/

（1）使用浏览器打开测试网页的地址，将显示如下图片所示的字符验证码：

Python反爬机制-验证码功能的具体实现过程

（2）打开浏览器开发者工具，然后在html代码中获取验证码图片所在的位置，如下图所示：

Python反爬机制-验证码功能的具体实现过程

(3) 对目标网页发送网络请求，并在返回的html代码中获取图片的下载地址，然后下载验证码图片。代码如下：

程序运行后项目文件夹中自动生成验证码图片，结果如下图：

Python反爬机制-验证码功能的具体实现过程

1.3 识别验证码

验证码下载完成以后，如果没有安装pillow模块，需要通过“pip install pillow“命令安装一下，如果tesserocr模块没安装也要通过"pip install tesserocr"先安装，然后导入tesserocr与image模块，再通过image.open()方法打开验证码图片，接着通过tesserocr.image_to_text()函数识别图片中的验证码信息即可。示例代码如下：

程序运行结果如下：

验证码为： uuuc
process finished with exit code 0

ocr的识别技术虽然很强大，但是并不是所有的验证码都可以这么轻松地识别出来，如下图所示的验证码中就会掺杂很多干扰线条，那么在识别这样的验证码信息时，就需要对验证码图片进行相应的处理并识别。

Python反爬机制-验证码功能的具体实现过程

如果直接通过ocr识别，识别结果将会受到干扰线的影响，下面通过ocr直接识别测试一下效果。示例代码如下：

程序运行结果如下：

验证码为： ysgn. # 多了一个.
process finished with exit code 0

通过以上测试发现，直接通过ocr技术识别后的验证码中多了一个‘.’，遇到此类情况手写可以将彩色的验证码图片转为灰度图片在测试一下。示例代码如下：

程序运行结果如下：

验证码为： ysgn. # 依然多一个‘.‘
process finished with exit code 0

Python反爬机制-验证码功能的具体实现过程

接下来需要将转为灰度的验证码图片进行二值化处理，将验证码二值化处理后再次通过ocr进行识别。示例代码如下：

程序运行后将自动显示二值化处理后的验证码图片

Python反爬机制-验证码功能的具体实现过程

程序运行结果如下：

验证码为： ysgn
process finished with exit code 0

说明

在识别以上具有干扰线的验证码图片时，我们可以做一些灰度和二值化处理，这样可以提高图片的验证码的识别度，如果二值化处理后还是无法识别到精确性，可以适当的上下调节二值化操作的阙值。

2. 第三方验证码识别

针对ocr识别率和准确度不高的缺点，使用第三方验证码识别平台是一个不错的选择，不仅可以解决验证码识别率低低问题，还可以提高验证码识别的准确度。第三方平台识别验证码非常简单，平台提供了完善的api接口，根据平台对应的开发文档即可完成快速开发的需求，但每次验证码成功识别后平台会收取少量费用。

验证码识别平台一般分为两种，分别是打码平台和ai开发者平台。打码平台主要是由在线人员进行验证码的识别工作，然后在较短的时间内返回结果。ai开发者平台主要是由人工智能来进行识别。例如，百度ai。

下面以打码平台为例，演示验证码识别的具体过程。

（1）在浏览器中打开打码平台网页（http://www.chaojiying.com/)，并且单击首页的“用户注册”按钮，如图所示：

Python反爬机制-验证码功能的具体实现过程

(2) 然后在用户中心页面中填写注册账号的基本信息。如下图：

Python反爬机制-验证码功能的具体实现过程

说明

账号注册完成以后可以联系平台的客服人员，申请免费测试的题分。

(3) 账号注册完成以后，在网页的顶部导航栏中选择“开发文档”，然后在常用开发语言示例下载中选择“python“语言，如下图所示：

Python反爬机制-验证码功能的具体实现过程

(4) 在python语音demo下载页面中，查看注意事项，然后单击“点击这里下载”超链接即可下载示例代码，如图所示：

Python反爬机制-验证码功能的具体实现过程

（5）平台提供的示例代码中，已经将所有需要用到的功能代码进行了封装处理，封装的代码如下：

（6）使用平台示例代码中所提供的验证码图片，运行以上示例代码，运行结果如下：

{'err_no': 0, 'err_str': 'ok', 'pic_id': '9168810337948200001', 'pic_str': '7261', 'md5': '345c80a5dba345c219cc8893f19b496c'}
process finished with exit code 0

说明

程序运行结果中pic_str对应的值为返回的验证码识别信息。

在发送识别验证码的网络请求时，代码中的“1902”表示验证码的类型，该平台所支持的常用验证码类型如下表：

常用验证码类型

验证码类型验证码描述1902常见4-6位英文数字1101-10201-20位英文数字2001-20071-7位纯汉字3004-30121-12位纯英文4004-41111-11位纯数字5000不定长汉字英文数字51088位英文数字（包含字符）5201拼音首字母，计算题，成语混合5211集装箱号4位字母7位数字6001计算题6003复杂计算题

说明

表中之列出了比较常用的验证码识别类型，详细内容可查验证码平台官网

3. 滑动拼图验证码

滑动拼图验证码是在滑动验证码的基础上增加了滑动距离的校验，用户需要将图形滑块滑动至主图空缺滑块的位置，才能通过校验。下面通过案例测试，实现滑动拼图验证码的自动校验。测试网页地址：http://sck.rjkflm.com:666/spider/jgsaw/

(1) 使用浏览器打开测试页的地址，将显示如图所示的滑动拼图验证码。

Python反爬机制-验证码功能的具体实现过程

(2) 打开浏览器开发者工具，单击按钮滑块，然后在html代码中依次获取“按钮滑块”“图形滑块”以及“空缺滑块”所对应的html代码标签所在的位置。

验证码类型	验证码描述
1902	常见4-6位英文数字
1101-1020	1-20位英文数字
2001-2007	1-7位纯汉字
3004-3012	1-12位纯英文
4004-4111	1-11位纯数字
5000	不定长汉字英文数字
5108	8位英文数字（包含字符）
5201	拼音首字母，计算题，成语混合
5211	集装箱号4位字母7位数字
6001	计算题
6003	复杂计算题