一种字体识别方法及系统技术方案

技术编号:2927536 阅读:368 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种利用粘连性进行字体识别的方法及系统,在将字符垂直投影,得到字符行的平均汉字字符数据与字符行数据;再根据字符宽度与平均字符宽之比与第一比较阈值,识别中英文;然后对字符进行水平投影,得出每一投影高度下像素值;最后根据每一高度与这一高度下的像素值关系识别中英文。使用本发明专利技术能够准确判断字符的属性,提高了识别的效率,有效的区分了中文字符与粘连英文字符,进而提高了光学字符识别的识别率。

【技术实现步骤摘要】

本专利技术涉及一种字体识别方法及系统,特别涉及一种通过对中英文字体的 粘连特征进行识别的方法及系统。
技术介绍
OCR (光学字符识别)技术与要识别的内容密切相关,从印刷体OCR的 角度看,对以英文为代表的大多数西方文字,和以中、日、韩文为代表的东方 文字是有明显区别的。文献《中英文混合文章识别问题》分析指出没有一项OCR核 心技术能够同时圆满识别西文和东方语言两类文字。因此对中英文混排文稿进 行识别时, 一般需要先进行中英文判别,再分别交给不同的识别器进行处理。 该文献同时较全面地总结了中文和西文在OCR特性方面的差别,例如l)字 符远近粘连的差别;2)字符连通体个数的差别;3)字符数量的差别;4)字 体数量的差别;5)拓朴形状的差别。其中l)指出的字符远近粘连的差别,其 具体表现为在东方文字中,相邻字符粘连的可能性较小,而西文相邻字符间 发生粘连的情况则普遍存在,4艮多时候粘连还十分严重。此外需要指出的是, 在OCR中,字符粘连不一定指两个字符真正的粘在一起,更多的情况是指两 个字符在垂直方向(竖排文字为水平方向)的投影无空白间隔。该文献还指出 在解决多种不同结构语言混排问题时,将具有不同语言属性的区域相分离是切 分前的必要步骤。对于中英文混排OCR系统来说,汉英语言区域的分离是最 根本的操作。因此,自动判断待识别字符是粘连英文还是汉字对混排文章的 OCR至关重要。对于上述东西方文字区别的论述,具体到中英文的区别上,主要反映在中文字符与小写英文的区别。因为大写的英文字符无论从形状、宽高、笔画密度、 笔画弯曲度等等都与中文差距很小,且大写英文字母间的粘连程度要比小写字 母轻微得多。一般识别系统都将大写英文字母同时放入中、英文识别引擎的数据字典中。因此对大写英文字母或汉字的判断不是OCR中字符属性判断的主 要矛盾,即使把大写字母误判为中文,也可用中文识别引擎来进行识别。早期,对中文OCR的研究基本集中在对已经切分好的字符进行识别,很少 考虑字符切分和字符属性的判别不正确的影响,对识别率进行统计时采用的样 张几乎全部为中文字符,且字符间距大,切分容易,甚至字符被放入特定的方 格中的样张。其原因一方面是早期OCR的性能瓶颈在于识别技术本身尚有不 足,另一方面也因为早期的文献除了在一些专业领域,中英文混排的情况较少。 而今天OCR识别本身理论已经发展得很完善,且随着开放的深入和科技的普 及,普通文稿中的中英文混排的现象已经非常普遍了,而如前述指出的,对英 文与中文的识别无法用同一个识别器解决,而英文粘连现象又普遍存在,因此 对字符进行正确的切分与(中英文)属性判别就成了提高识别率的一个非常重 要的方面。目前在中英文混合文章识别方面,已经进^f亍了"^午多研究工作,这些方法的 前期预处理都是先用行投影的方法获得文字行,再用垂直投影的方法获得单个 的文字字符。接下来的判断方法大致有几类1、利用字符本身的几何属性,如长短、面积、距离、凹凸等;统计属性, 如投影;和拓朴属性,如连通域数、孔洞数、横/纵向笔画穿越数、字符边界游 程直方图等来进行判断。这类方法在对单个英文与中文进行判断时比较有效,它的不足是当英文出 现粘连时,很多依据这些属性作出的判断都将失效,例如对孔洞数这个特征, 英文字符(包括数字)包含的孑L洞很规则,分三种情况不包含空洞,如"c"; 包含一个孔洞,而且孔洞在字符的中间位置,如"o" , "d";包含两个孔洞, 而且两个孔洞垂直排列,如"g"。而大多数中文的孔洞数相对较多,因此可以通过计算其3U同凄史进4亍中英文的判别。^旦当英文单词发生粘连时,如hope这 个单词显然其孔洞数将多达三个,很可能会被误判为中文。2、参考字符本身的属性和上下文的特征行判断,如根据字符的高度、宽 度和相邻块间距进行汉英判别;按字符的基线进行判断等。在文献《多知识综 合判决的字符切分算法》中提到如下方法。该方法的一般依据为1 )英文字符的高度一般较中文矮,比如a、 c、 e、 m、 n、 o、 r、 s、 t、 u、 v、 w、 x、 z,其高度比中文矮很多。剩下的字母包括b、 d、 f、 g、 h、 i、 k、 1、 p、 q、 y和大写英文字母,其高度比汉字略矮,但宽高 比一般比中文小。因此可根据字符的高度及高宽比等几何参数进行区分。2) 英文中部分字母的上沿与汉字的上下沿不在同一个水平线上,且又比较整齐, 如a、 c、 e、 g、 m、 n、 o、 p、 q、 r、 s、 u、 v、 w、 x、 y、 x的上沿比汉字的上 沿低; a、 b、 c、 d、 e、 h、 i、 k、 1、 m、 n、 o、 r、 s、 t、 u、 v、 w、 x、 z的下 沿较比汉字的下沿高;因此可与同行中汉字的上下沿做对比,在一定的程度上 进行判断。这种方法的优点在与计算量少,判断迅速。它的不足在于上述中英 文字符间的区别有时较模糊,尤其是在英文单词间发生粘连时更是如此,例如 light这个单词,若能对每个字母进行分析,可看出liht这几个字母的下沿与典 型的英文字母下沿对齐,g的上沿与典型的英文字母上沿对齐,^f旦由于发生粘 连后,light成为一个整体,其上、下沿的特征都变得模糊起来。此外,该方法 未考虑到字符笔画密度的因素,而事实上,英文小写字母在水平方向的笔画密 度是有较为明显的特征的。3、依靠识别反馈来进行判断该方法基本思想是对其它方法不能判断, 或摸棱两可的临界的情况作出猜测,再用识别器加以验证。例如猜测为中文, 则送入中文识别器中加以识别,若返回的识别可信度较高则为猜测正确,否则 认为猜错,将其属性归入另一类。这是目前被广泛运用的一种方法。一般来说,每种方法都有其临界的情况,特别是用字符的几何形状进行判断时,其临界情况更多一些。相比较而言,如果识别器本身的性能比较好,则用识别反馈来进行判断是较为准确的,但识别反馈法有两个缺陷首先由于识别相对切分而言是很慢的操作,尤其是当属性假设错误时更是如此,因此它的 效率较低,在实用系统中表现为识别速度的整体下降。此外它的不足还在于,它同样受粘连英文的影响而使得识别效率变低,如"gh"这两个字符粘连,它 容易被误识别为"由"或"山"等中文,而与一般我们对识别器进行训练不同 的是由于我们无法预知哪些字符会粘连,因此事先无法用"gh"这个样本对 数据字典中的"由""山"数据进行区分性训练;另外,在粘连的情况下需要 进行切分一试识别的反复尝试,其效率就更低了。4、基于统计学习的方法,该方法通过选择大量的样本进行训练,得到从 分类到特征的先验概率,从而在实际图像中能计算出各分类的概率。例如文献 《基于贝叶斯分类器的混排文字切分与分类》[作者肖波、徐蔚然,计算机工 程与应用,200S.10 8习中所提到的如下方法。这类方法在样本特征取得合理、样本的代表性好、范围足够广泛时,能取 得较好的效果。其不足在于要取得数量足够大、且要有代表性的样本,是有 一定困难的,很多时候需要人工干预,自动化程度不高,前期训练的工作量大。 因此这类方法在理论上的研究较多,在实际系统中的运用并不多。以上所述的各种方法一般不会单独运用,在实际系统中运用时经常是以一 种方法为主,再用其它的方法加以辅助。但总本文档来自技高网...

【技术保护点】
一种字体识别方法,其特征在于,包括如下步骤:步骤a、将字符垂直投影,得到字符行的平均汉字字符数据与字符行数据;步骤b、根据字符宽度与平均字符宽之比与第一比较阈值,识别中英文;步骤c、对未识别出字符进行水平投影,得出每 一投影高度下像素值;步骤d、根据所述每一高度与这一高度下的像素值关系识别中英文。

【技术特征摘要】

【专利技术属性】
技术研发人员:康凯李鹏
申请(专利权)人:北大方正集团有限公司北京大学北京北大方正技术研究院有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1