欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Ubuntu16.04 源码安装tesseract

程序员文章站 2023-12-27 10:17:45
...
  • 必要包安装:
sudo apt-get install autoconf automake libtool autoconf-archive pkg-config libpng12-dev libjpeg8-dev libtiff5-dev zlib1g-dev -y 
  • 如果要用tesseract自己训练,就需要安装training,那下面这些依赖也要安装:
sudo apt-get install libicu-dev libpango1.0-dev libcairo2-dev   
  • leptonica安装
sudo apt install git  
git clone https://github.com/DanBloomberg/leptonica   
cd leptonica  
autoreconf -vi  
./autobuild  
./configure  
make -j8
sudo make install 
  • 安装tesseract
git clone --depth 1 https://github.com/tesseract-ocr/tesseract.git  
cd tesseract  
./autogen.sh  
./configure --enable-debug  
LDFLAGS="-L/usr/local/lib" CFLAGS="-I/usr/local/include" make -j8 
sudo make install  
sudo ldconfig  
  • 检测安装成与否
tesseract -v  

Ubuntu16.04 源码安装tesseract

  • 安装训练文件(如果要训练自己的数据)
make training -j8  
sudo make training-install  
  • 下载语言包
    这个包比较大,可以通过下面命令下载也可以通过迅雷等下载工具下载,,下载完成后将里面的各种包放到tesseract目录的tessdata文件夹中。
git clone https://github.com/tesseract-ocr/tessdata  
  • 添加环境变量
gedit ~/.bashrc

在末尾添加(根据自己tesseract的实际目录进行相应修改):

export TESSDATA_PREFIX=/home/XX/tesseract/tessdata  
  • 重启终端,使得刚才环境变量生效。

拿张图片测试一下:

Ubuntu16.04 源码安装tesseract

输入以下命令(1.jpg:待检测图片,out:输出txt文档的名字,-l:指定语言库进行检测,chi_sim:用简体中文库):

tesseract 1.jpg out -l chi_sim 

Ubuntu16.04 源码安装tesseract

out.txt输出:
Ubuntu16.04 源码安装tesseract

相关标签: tesseract ocr

上一篇:

下一篇: