python 使用tesseract进行图片识别

程序员文章站 2023-09-08 22:57:57

我的python为3.7 1.需要安装二个模块， PIL 直接使用 pip install PIL 会报错使用 pip install Pillow 即可安装PIL 第二个直接 pip install pytesseract 2安装好了模块还需要下载 tesseract-ocr 下载网址：http ......

1 from pil import image
2 import pytesseract
3 
4 text = pytesseract.image_to_string(image.open(r'e:\guo\2432.jpg'),lang='chi_sim')
5 print(text)

我的python为3.7

1.需要安装二个模块，

pil 直接使用 pip install pil 会报错使用 pip install pillow 即可安装pil

第二个直接 pip install pytesseract

2安装好了模块还需要下载 tesseract-ocr

下载网址：https://github.com/ub-mannheim/tesseract/wiki

选择自己的版本下载，下载之后直接安装即可。注意要记住安装的位置，等下需要用到

修改pytesseract.py 文件里面的指向路径

打开方式可以在pycharm 输入import pytesseract.pytesseract 然后按住ctrl键鼠标对着pytesseract右键点击进去

1 from io import bytesio
2 pandas_installed = find_loader('pandas') is not none
3 if pandas_installed:
4     import pandas as pd
5 
6 # change this if tesseract is not in your path, or is named differently
7 tesseract_cmd = r'c:\program files\tesseract-ocr\tesseract.exe'
8 rgb_mode = 'rgb'

其中tesseract_cmd是我已经修改了的地址，tesseract.exe在刚刚安装位置里面，将这里设置好了运行就不会报错

pytesseract有很多语言库，默认的有英文，如果需要中文要去下载对应的语言包：
网址：https://github.com/tesseract-ocr/tessdata
其中的chi_sim.traineddata为简体中文的语言包，将语言包放置到安装路径的tessdata目录下即可。
如果需要使用语言包使用lang=来指定对应的语言包。默认是英文的。

chi_sim.traineddata的识别率不高，如果需要针对性的文字可以使用训练模型生成适合自己的语言包

上一篇： php FPDF类库应用实现代码

下一篇：明朝皇帝爱赏灯，会不会有引发大火的危险？

python 使用tesseract进行图片识别

python使用sorted函数对列表进行排序的方法

Python使用Paramiko模块编写脚本进行远程服务器操作

使用Python脚本对Linux服务器进行监控的教程

python验证码识别教程之利用滴水算法分割图片

Python 使用Numpy对矩阵进行转置的方法

使用Python导出Excel图表以及导出为图片的方法

使用Python对IP进行转换的一些操作技巧小结

python使用PyCharm进行远程开发和调试

Python通过PIL获取图片主要颜色并和颜色库进行对比的方法

Python编程使用NLTK进行自然语言处理详解