欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

OpenCV 文字识别(一):图像预处理

程序员文章站 2022-07-13 08:53:53
...

    考研初试结束,毕设选择了印刷体汉字识别,准备先实现其基本功能。

    在网上查阅资料后发现图像处理第一个步骤一般为图像预处理,即滤除图像噪声,并进行如灰度化、二值化、倾斜校正、图像平滑等基本操作。因为主要目的是学习,所以我写的较为繁琐,将各个步骤拆分了多个函数。

以下为代码:

(头文件省略了)

YuCHuLi.cpp

#include "YuChuLi.h"
using namespace std;
using namespace cv;
//灰度化 二值化 倾斜校正 规范化 图像平滑
#define Error 123

void YuChuLi::HuiDuHua(Mat &img)//灰度化
{
	cvtColor(img,img, CV_RGB2GRAY);
}

void YuChuLi::ErZhiHua(Mat &img)//二值化
{
	threshold(img, img,125,255,CV_THRESH_BINARY);			//125为阀值,由默认值可知大于125置为255(白),因为针对白底黑字,阴影为主要干扰,所以适当降低阀值
}

void YuChuLi::XuanZhuan(Mat &img, double angle)//旋转
{
	//定义旋转中心,为图像的中心即横竖坐标均为图像长度的一半
	Point2f center;
	center.x = float(img.cols / 2.0);
	center.y = float(img.rows / 2.0);
	int length = 0;
	length = sqrt(img.cols*img.cols + img.rows*img.rows);
	//计算二维旋转的仿射变换矩阵
	Mat M = getRotationMatrix2D(center, angle, 1);
	warpAffine(img, img, M, Size(length, length), 1, 0, Scalar(255, 255, 255));
}

double YuChuLi::CalJiaoDu(const Mat &img)
{
	Mat midimg,dstimg;

	Canny (img, midimg,50,200,3);				//边缘检测
	cvtColor(midimg, dstimg, CV_GRAY2BGR);
	
	vector<Vec2f> lines;						//定义容器
	
	//用Hough法检测直线,由大到小改变3个阀值,依次检测
	HoughLines(midimg, lines, 1, CV_PI / 180, 300, 0, 0);
	if (!lines.size())
	{
		HoughLines(midimg, lines, 1, CV_PI / 180, 200, 0, 0);
	}

	if (!lines.size())
	{
		HoughLines(midimg, lines, 1, CV_PI / 180, 150, 0, 0);
	}
	//最后的检测,若检测不出则返回
	if (!lines.size())
	{
		cout << "No lines!" << endl;
		return Error;
	}

	//计算各直线角度的均值
	float sum = 0;
	for (unsigned int i = 0; i<lines.size(); i++)
	{
		float theta = lines[i][1];
		sum += theta;
	}
	float average = sum / lines.size();
	
	double angle = JiaoDuBianHuan(average) - 90;
	//XuanZhuan(img, angle);
	cout << "angle=" << angle << endl;
	return angle;
}

double YuChuLi::JiaoDuBianHuan(double theta)
{
	double ZhiAngle = theta / CV_PI * 180;
	return ZhiAngle;
}

void YuChuLi::QingXieJiaoZheng(Mat &img)
{
	double angle;
	angle = CalJiaoDu(img);
	if (angle == Error)
	{
		cout << "No lines!!!" << endl;
		return;
	}
	XuanZhuan(img, angle);
}

void YuChuLi::PingHuaChuLi(Mat & img)
{
	medianBlur(img, img, 3);
}

 

main.cpp  

#include "main.h"
using namespace std;
using namespace cv;
Mat img;
string filepath;
YuChuLi p1;


int main()
{
	cin >> filepath;					//输入路径
	img = imread(filepath,1);			//读图
	
	p1.HuiDuHua(img);				//灰度化(可行)
	p1.ErZhiHua(img);				//二值化(可行)
	p1.QingXieJiaoZheng(img);		//倾斜校正(可行)
	p1.PingHuaChuLi(img);			//平滑处理(可行,但是印刷体汉字进行平滑处理的阀值较小)
	
	imshow("预处理",img);
	
	waitKey(0);
	return 0;
}

 

效果图:

OpenCV 文字识别(一):图像预处理 (原图)

OpenCV 文字识别(一):图像预处理(进行平滑处理后)

OpenCV 文字识别(一):图像预处理(未进行平滑处理)

 

总结:

1.因为之前写过图片比较程序,所以对一些预处理基本操作较为熟悉,上手较快。

2.倾斜校正耗时最长,很感谢网上的资料。

https://www.cnblogs.com/skyfsm/p/6902524.html写的很详细,因为我是针对印刷体汉字识别且融在了一整个项目中,所以我对程序进行了修改和删减。

3.在进行二值化和平滑处理的过程中,我发现阀值设定需要自己调整,因为日常生活中主要的印刷体汉字来源于白底黑字(书本或是A4纸),所以一般照片常见的噪声来源为阴影,故阀值可适当减小。

4.感觉针对白底黑字不进行平滑处理效果会好一些,我所采用的是中指滤波,很容易将黑字“漂白”。