Python2实现的图片文本识别功能详解

程序员文章站 2022-05-03 20:21:00

本文实例讲述了Python2实现的图片文本识别功能。分享给大家供大家参考，具体如下：这里需要用到python的几个库，分别是pytesser，以及pytesser的依赖...

本文实例讲述了Python2实现的图片文本识别功能。分享给大家供大家参考，具体如下：

这里需要用到python的几个库，分别是pytesser，以及pytesser的依赖库PIL。python的版本建议用2.7或者2.7一下的都行，不建议用python3以上的，因为python3不向下兼容，所以有很多python2的东西它不支持

pytesser下载的话，我直接在pycharm里面下全是失败，用DOS的命令行下也是失败，所以还是自己直接去google下吧
地址：http://code.google.com/p/pytesser/downloads/list

如果打不开上面的网址的话可以从我的资源里面下载，点击此处。

下载好了之后安装，步骤：

1. 解压pytesser ，将解压后的文件复制到Python安装目录的Lib\site-packages下，直接使用，比如我的安装目录是：C:\Python27\Lib\site-packages。

2. 这里我建立好的pytesser目录为C:\Python27\Lib\site-packages\pytesser\

3. 接下来打开pytesser文件夹，将pytesser.py修改成__init__.py，然后打开py文件进行修改：
①. import Image 改为： from PIL import Image
②. tesseract_exe_name = 'tesseract' —> tesseract_exe_name = 'C:\\Python27\\Lib\\site-packges\\pytesser\\tesseract，注意双斜杠，否则可能因为转义字符报错

接下来就是下载PIL了。这个我在pycharm里面也是下载失败，提示没有找到适合python版本的PIL。
可以在DOS命令行下用命令下：pip install Pillow 这里要注意的是如果要直接在DOS下用pip命令的话要先把pip的路径加到环境变量path里面去，例如我的pip路径：“D:\python2.7.13\Scripts\”

注：小编尝试后发现PIL安装很麻烦，推荐下载exe直接安装

具体可至PIL官网查找对应安装版本：

全部下载完之后就可以开始拿图片测试了。这里我们先拿上面下载的pytesser压缩包里面给的测试图片来测试
代码如下：

from pytesser import *
img=Image.open("D:\\fnord.tif") 
#我这里是直接把图片复制在d盘下。可以随意更改。如果是d盘下的XX文件夹，路径就是：d:\XX\\fnord.tif
#一些对python不熟悉的小伙伴要注意的是这个路径只有最后一个斜杠要改成双斜杠，前面的都是单斜杠，如果不是这样的话在pycharm里面就会报一些看不懂的错误，百度到死都不知道怎么解决。
print image_to_string(img)

或者可以写成：

print image_file_to_string("D:\\fnord.tif")

这里需要注意一下，直接运行上面的代码的话可能会报一个找不到Image类的错误，具体我也不是很清楚，可能是因为pytesser只支持PIL的Image类吧，因此我们还要改一个东西，就是上面步骤3中pytesser包里面__init__.py 文件的第一行：import Image改成from PIL import Image。如图：

Python2实现的图片文本识别功能详解