欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Python学习笔记--Python 爬虫入门 -17-11 tesseract-OCR

程序员文章站 2023-12-27 09:26:27
...

一.Tesseract 安装教程请参考:

https://jingyan.baidu.com/article/219f4bf788addfde442d38fe.html

这里说明两点关于配置环境变量的地方:

1.1在环境变量PATH,把tesseract-ocr的安装路径添加进去。

D:\softWare\tesseract\Tesseract-OCR

注意,添加时候开头用“;”跟之前的变量隔开,结尾以“;”结尾。

2.在环境变量中,增加一个TESSDATA_PREFIX变量名,

变量值tessdata的安装路径

D:\softWare\tesseract\Tesseract-OCR\tessdata

 

然后DOS 窗口下,输入 tesseract 显示如下表明安装成功

Python学习笔记--Python 爬虫入门 -17-11 tesseract-OCR

二.安装Pillow   pip install Pillow

三.安装pytesseract  pip install pytesseract

Python学习笔记--Python 爬虫入门 -17-11 tesseract-OCR

 

四.使用:

注意:改变环境变量需要重新打开powershell

输入: 

tesseract bigdata.jpg 2 -l chi_sim

bigdata.jpg是当前目录中的bigdata.jpg图片

2 是指定结果输出到文本文件,默认txt后缀

-l是指定使用的包

chi_sim是中文识别包

Python学习笔记--Python 爬虫入门 -17-11 tesseract-OCR

五.代码

import  pytesseract as pt
from  PIL import  Image
#指定tesseract 地址
pt.pytesseract.tesseract_cmd=r"D:\softWare\tesseract\Tesseract-OCR\tesseract.exe"
image = Image.open(r"C:\Users\Dream\Pictures\wyy1.png")
print(type(image))
print(image)

text = pt.image_to_string(image)
# text = pt.image_to_data(image)
print(text)

 

上一篇:

下一篇: