欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Windows安装Tesseract-OCR和错误问题总结

程序员文章站 2023-12-27 15:51:46
...

Windows安装Tesseract-OCR 参考博客
https://segmentfault.com/a/1190000014086067
https://segmentfault.com/a/1190000014091417


报错 error: Microsoft Visual C++ 14.0 is required. Get it with “Microsoft Visual C++ Build Tools”: https://visualstudio.microsoft.com/downloads/

方法一(需要安装很大的软件,最后还不一定成功,亲测失败 - -!)

Windows安装Tesseract-OCR和错误问题总结
Windows安装Tesseract-OCR和错误问题总结

这里配上visualcppbuildtools full.exe免费下载链接:https://pan.baidu.com/s/1yOchht9tBCXPbufYiUKNBg
提取码:rsg0
复制这段内容后打开百度网盘手机App,操作更方便哦

方法二 分别安装tesserocr 和 pillo(继续往下看,最好别动手做,亲测失败)

  1. https://github.com/simonflueckiger/tesserocr-windows_build/releases
    pip install whl文件全路径
  2. pillow的自行安装

方法三 如果还报错说from ._tesserocr import * tesserocr 模块找不到(还是不行,气死我了)

Windows安装Tesseract-OCR和错误问题总结

注意看看版本是否对应。。。该死浪费我这么多时间

https://github.com/simonflueckiger/tesserocr-windows_build/releasesWindows安装Tesseract-OCR和错误问题总结Windows安装Tesseract-OCR和错误问题总结

使用Anaconda3安装


– 来自群里一个朋友的md文档,感谢


一、 下载安装 Anaconda3

下载地址

https://www.anaconda.com/distribution/#download-section

在 conda 中 安装 python3.7

conda install -c anaconda python=3.7.3

创建一个 Python3.7.3 的环境

conda create -n aspider_project python=3.7.3
activate aspider_project
deactivate

可以在 python 脚本中查看 python 版本

import sys
print(sys.version)

在国内用 conda 安装库的时候会比较慢,把镜像源设置为国内的,例如清华的镜像源

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
conda config --set show_channel_urls yes

此时,C 盘下的 .condarc文件内容就变为

channels:
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
show_channel_urls: true
ssl_verify: true

删除国内镜像源用如下命令

conda config --remove-key channels

## 二、 用 conda 配置 验证码识别的环境

下载安装 tesseract.exe 文件

下载地址

https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe

安装时选中语言包,如果没有用国外的代理 ip,这个语言包下载的会奇慢无比。开启全局代理即可。

安装 tesserocr

conda install -c simonflueckiger tesserocr Pillow 
conda list  #查看已安装的库

如果包找不到,以 tesserocr 为例

anaconda search -t conda tesserocr      
anaconda show mcs07/tesserocr   #查看报信息,根据信息找到下载地址
conda install --channel https://conda.anaconda.org/mcs07 tesserocr

以 tesseract 为例

anaconda search -t conda tesseract      
anaconda show phygbu/pytesseract   #查看报信息,根据信息找到下载地址
conda install --channel https://conda.anaconda.org/mcs07 tesserocr

查看环境

conda info --env    #有一个星的代表有是当前环境
conda create -n aspider_project python=3.7.3    #创建环境
conda info --env    #再次查看环境
conda remove -n aspider_project --all   #删除环境
conda activate aspider_project  #**环境
activate aspider_project    #切换环境

运行识别验证码脚本时报错:找不到指定的模块

ImportError: DLL load failed: 找不到指定的模块。

执行如下命令即可

conda uninstall pillow
conda update pip
pip install pillow

报错 Failed to init API, possibly an invalid tessdata path:XXX
把 Tesseract-OCR 文件夹下的 tessdata 文件夹放到报错信息中对应的路径中即可运行

相关标签: Tesseract python

上一篇:

下一篇: