一种图片文字识别方法技术

技术编号:21116541 阅读:21 留言:0更新日期:2019-05-16 09:13
本发明专利技术为一种图片文字识别方法,包括步骤:对多种字体中的汉字进行10个区域特征值提取,构建字模库;计算多种字体、多种规格的字图10个特征区域的识别准确率,将各特征区域按照识别准确率排序,最终选取7个特征用于组合识别;对待识别的图片上文字进行特征提取,计算特征值;将计算获得的特征值在字模库进行比对,输出相似度最高的汉字。本发明专利技术进行文字识别时,只采用了图片文字的黑白像素特征,原理简单,计算量小,准确率高。

A Method of Character Recognition in Pictures

【技术实现步骤摘要】
一种图片文字识别方法
本专利技术涉及文字识别领域,尤其涉及一种图片文字识别方法。
技术介绍
目前印刷体汉字识别的方法主要有结构模式识别方法和统计模式识别方法。结构模式识别方法和统计模式识别方法主要利用了汉字的笔划特征、结构点特征、投影特征、轮廓特征、直方图特征等特征。。但目前现有技术中采用的结构模式和统计模式存在特征提取困难,部分算法复杂度高、计算量大等问题。
技术实现思路
本专利技术所要解决的技术问题在于,提供一种图片文字识别方法,利用汉字的全局和局部黑白像素的组合特征来对印刷体汉字进行识别,该方法原理简单,计算量小,识别准确率高。本专利技术提供一种图片文字识别方法,包括步骤:S1、对多种字体中的汉字进行特征值提取,构建字模库;S2、对待识别的图片上文字进行特征提取,计算特征值;S3、将计算获得的特征值在字模库进行比对,输出相似度最高的字模汉字。进一步地,所述步骤1具体包括:S101、对一个汉字进行区域划分,将该汉字划分为N个不同的区域,N为大于2的整数;S102、计算每个区域的特征值,将N个区域的特征值进行存储;S103、根据字库中所有汉字的多种字体以及多种字号所对应的N区域的特征值构建字模库。进一步地,步骤1还包括:S104、根据每个区域的特征值计算单个区域的识别准确率,选取其中的M个作为比较区域,M≤N;进一步地,所述步骤101中N为10,区域具体包括整体、中间部分、上半部分、下半部分、左半部分、右半部分、左上角部分、右上角部分、左下角部分、右下角部分。进一步地,所述步骤2具体包括:S201、以图片形式提取待识别图片中的文字;S202、对提取到的文字图片进行区域划分,将文字图片划分为不同的区域;S203、选取与比较区域对应的M个区域;S204、计算选取的M个区域的特征值。进一步地,所述步骤202中进行区域划分时采用矩形框的形式,除中间部分以外,其余区域的所述矩形框的框线至少与图片的最上端、最左端、最下端、最右端其中之一相切。进一步地,M为6至8。进一步地,所述步骤3中,输出的汉字为可编辑形式。本专利技术与现有技术相比有益效果在于,进行文字识别时,只采用了图片文字的黑白像素特征,且只用计算区别作用强的6-8个区域进行组合计算,原理简单,计算量小,准确率高。附图说明图1为本专利技术实施方式中图片文字识别方法流程图;图2为本专利技术实施方式中汉字进行区域划分的示意图。具体实施方式以下结合实施例,对本专利技术作进一步具体描述,但不局限于此。本专利技术的一种图片文字识别方法,如图1所示,包括步骤:S1、对多种字体中的汉字进行特征值提取,构建字模库;S2、对待识别的图片上文字进行特征提取,计算特征值;S3、将计算获得的特征值在字模库进行比对,输出相似度最高的字模汉字。在上述方案的基础上,进一步地,所述步骤1具体包括:S101、对一个汉字进行区域划分,将该汉字划分为N个不同的区域,N为大于2的整数。优选的,N为10,区域划分如图2所示,具体包括汉字的整体F1、中间部分F2、上半部分F3、下半部分F4、左半部分F5、右半部分F6、左上角部分F7、右上角部分F8、左下角部分F9、右下角部分F10。在其他实施方式中,对汉字进行划分的区域不限于这些部分,为了提高准确性还可以增加更多的区域。S102、计算每个区域的特征值,将N个区域的特征值进行存储。具体的以汉字所处平面建立X-Y坐标系,横向为X轴,纵向为Y轴,(x,y)为像素点的横坐标和纵坐标,则令其中0<x<i,0<y<j,公式(1)其中,i为该区域的图像宽度,j为该区域的图像高度,令该区域的黑白值的集合为T,T={t(x,y)},公式(2)。则该区域的特征值η为,其中η1为T中1的个数,η2=i×j,为T中元素的个数。S103、根据字库中所有汉字的多种字体以及多种字号所对应的N区域的特征值构建字模库。优选的,构建字模库的字体包括宋体、楷体、隶书、仿宋、等线、雅黑等多种字体,字体还可以根据需要进行扩充。字号包括初号(42pt)、小初(36pt)、一号(26pt)、小一(24pt)、二号(22pt)、小二(18pt)、三号(16pt)、小三(15pt)、四号(14pt)、小四(12pt)、五号(10.5pt)、小五(9pt)、六号(7.5pt)、小六(6.5pt)等常用的十四种字号。在上述方案的基础上,进一步地,S104、根据每个区域的特征值计算单个区域的识别准确率,选取其中的M个作为比较区域,M≤N。优选的,M为6至8。具体的,从字库中选取一个或多个汉字作为准确率测试汉字,按步骤101的N个区域对准确率测试汉字进行划分,依次计算各个区域的识别准确率。计算过程如下:Δη=(η′n-ηn)2,0<n≤N,公式(4),其中,Δη为准确率测试汉字第n个区域的特征值η′n与模板库中某一候选字的对应特征值ηn的差异。对Δη进行排序,输出字模库中Δη最小值对应的汉字,如果输出的汉字与准确率测试汉字相同,则识别成功,如果不同则认为失败。以宋体为例,设Pn为第n个区域n的识别准确率,则各特征区域识别准确率如表1所示,其中表中单位为百分比:表1宋体字各特征区域的识别准确率(单位%)P1P2P3P4P5P6P7P8P9P10六号1.830.690.891.140.961.280.350.520.510.62小五2.761.341.341.541.391.680.540.650.540.69五号3.441.091.602.081.882.200.600.910.821.00小四4.891.972.482.762.393.111.051.291.031.19四号7.031.713.213.683.504.221.511.821.531.65小三7.032.803.615.093.994.621.452.072.022.17三号7.603.454.594.454.674.501.962.101.971.82小二12.534.786.327.877.447.582.943.163.343.34二号18.657.4311.0210.8610.6811.164.615.105.214.65小一18.236.4111.7711.8511.2211.994.995.755.665.09一号22.389.4013.5814.9514.6714.535.866.867.416.36小初41.8715.2926.2430.2428.4029.7912.4814.5515.5214.15初号53.3823.3035.1240.5837.9937.2216.4018.7222.0219.08均值15.516.139.3710.559.9410.304.214.885.204.75从表1我们可以看出各区域的识别准确率随着字号的增大而升高。以区域1为例,六号字体下区域1的识别准确率为1.83%,初号字体下区域1的识别准确率为53.38%。这说明图像质量越高,可获取的特征越准确。宋体单个区域识别率由高到低依次为:F1、F4、F6、F5、F3、F2、F9、F8、F10、F7。如果按照区域的大小进行区域的分组,可以将区域分为三组:F1(占整字识别区域的100%)为第1组,F3、F4、F5和F6(约占整字识别区域的50%)为第2组,F2、F7、本文档来自技高网...

【技术保护点】
1.一种图片文字识别方法,其特征在于,包括步骤:S1、对多种字体中的汉字进行特征值提取,构建字模库;S2、对待识别的图片上文字进行特征提取,计算特征值;S3、将计算获得的特征值在字模库进行比对,输出相似度最高的字模汉字。

【技术特征摘要】
1.一种图片文字识别方法,其特征在于,包括步骤:S1、对多种字体中的汉字进行特征值提取,构建字模库;S2、对待识别的图片上文字进行特征提取,计算特征值;S3、将计算获得的特征值在字模库进行比对,输出相似度最高的字模汉字。2.如权利要求1所述的文字识别方法,其特征在于,所述步骤1具体包括:S101、对一个汉字进行区域划分,将该汉字划分为N个不同的区域,N为大于2的整数;S102、计算每个区域的特征值,将N个区域的特征值进行存储;S103、根据字库中所有汉字的多种字体以及多种字号所对应的N区域的特征值构建字模库。3.如权利要求2所述的文字识别方法,其特征在于,所述步骤1还包括:S104、根据每个区域的特征值计算单个区域的识别准确率,选取其中的M个作为比较区域,M≤N。4.如权利要求2所述的文字识别方法,其特征在于,所述步骤101...

【专利技术属性】
技术研发人员:柯永红王宁
申请(专利权)人:北京师范大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1