欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

Java使用Tess4J实现图像识别方式

程序员文章站 2022-08-06 19:40:13
目录java tess4j实现图像识别首先,下载tess4j的相关资源(一个压缩包)项目的的目录如下lib中的文件如下(tess4j.jar也在该目录下)再在eclipse中打开项目tess4j的代码...

java tess4j实现图像识别

最近需要用java做一个图像识别的东西,查了一些资料,在此写一个基于tess4j的教程,方便其他人参考和使用。

其实做图像识别,也可以使用tesseract-ocr来实现,但是该方式需要下载软件,在电脑上安装环境,移植性不高,使用tess4j只需要下载相关jar包,导入项目,再把项目封装好就可以处处运行了。

首先,下载tess4j的相关资源(一个压缩包)

官网http://tess4j.sourceforge.net/codesample.html

解压,其中的目录结构如下:

Java使用Tess4J实现图像识别方式

需要用到其中圈起来的三个文件夹中的东西。lib文件夹下放的是需要用到的jar包,tessdata下放的是语言库,默认的有英语库,中文库需要另外下载,下载地址:https://github.com/tesseract-ocr/tessdata/blob/master/chi_sim.traineddata。

新建一个java项目,将lib文件夹和tessdata文件夹复制到项目的根目录下,找到dist文件夹下的tess4j.jar(名字可能有版本号),将该文件也复制到项目根目录下的lib文件夹下。

项目的的目录如下

Java使用Tess4J实现图像识别方式

lib中的文件如下(tess4j.jar也在该目录下)

Java使用Tess4J实现图像识别方式

再在eclipse中打开项目

在项目中导入lib文件夹中所有的jar包(build path --> configure build path),导入后的结果如下:

Java使用Tess4J实现图像识别方式

这样前期准备工作就完成了,下面就剩下代码了。

tess4j的代码比较简洁

如下:

tess4jtest.java

package ocr; 
import net.sourceforge.tess4j.itesseract;
import net.sourceforge.tess4j.tesseract;
import net.sourceforge.tess4j.tesseractexception;
import net.sourceforge.tess4j.util.loadlibs; 
import java.io.file;
import java.io.ioexception;
 
/**
 * tess4j测试类
 */
public class tess4jtest { 
    public static void main(string[] args){ 
    	string path = "d://java//tess4j";//我的项目存放路径    	
    	file file = new file(path + "//photo.jpg");
        itesseract instance = new tesseract();
 
        /**
         *  获取项目根路径,例如: d:\ideaworkspace\tess4j
         */
        file directory = new file(path);
        string coursefile = null;
        try {
            coursefile = directory.getcanonicalpath();
        } catch (ioexception e) {
            e.printstacktrace();
        }
 
        //设置训练库的位置
        instance.setdatapath(coursefile + "//tessdata"); 
        instance.setlanguage("eng");//chi_sim :简体中文, eng	根据需求选择语言库
        string result = null;
        try {
            long starttime = system.currenttimemillis();
             result =  instance.doocr(file);
            long endtime = system.currenttimemillis();
            system.out.println("time is:" + (endtime - starttime) + " 毫秒");
        } catch (tesseractexception e) {
            e.printstacktrace();
        }
        
        system.out.println("result: ");
        system.out.println(result);
    } 
}

这样就搞定了。

效果如下

原图:

Java使用Tess4J实现图像识别方式

读取结果:

Java使用Tess4J实现图像识别方式

从结果来看准确率还有待提高,l 和 1分不清,0 和 o 也没有分清,汉字的准确率还要低一些,大家可以自行训练字体库优化。

以上为个人经验,希望能给大家一个参考,也希望大家多多支持。