基于边界特征的印刷体阿拉伯字母识别方法技术

技术编号:2942155 阅读:294 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种基于边界特征的印刷体阿拉伯字母识别方法。该方法将字母的上、下、左、右四个边界看作一个波,将每一个边界表示为一系列波元的集合;然后,从这些集合中提取如下边界特征:波元个数、零直线的个数、右边界中第一条零直线的长度、下边界中第一条零直线的长度、上边界中最长零直线的长度、右边界中最长零直线的长度、下边界中最长零直线的长度、上边界中正直线的个数,并结合字母高宽比、字母辅助部分的高宽比共同作为识别特征;最后,按照字母的四种形式-独立、开头、中间、结尾分别采用四个决策树识别每一个印刷体阿拉伯字母。

【技术实现步骤摘要】

本专利技术涉及一种光学字符识别方法,特别是涉及一种印刷体阿拉伯字母识别方法。
技术介绍
在各种语言文字中,阿拉伯文是应用最广泛的文字之一。包括字母Lam-Alif在内,阿拉伯字母共有29个。简单来说,阿拉伯字母具有如下特点1.每一个阿拉伯字母根据在单词中的不同位置具有2~4种不同形式,分别为独立、开头、中间和结尾形式;2.阿拉伯文没有元音字母,元音是通过给辅音字母标注称为“动符”的辅助字符的方法体现的。在阿拉伯文中有两个表示元音的“动符”,分别为Hamaza和Madda;3.字母Lam和字母Alif可以连在一起形成一个新字母Lam-Alif;4.字母宽度不相等,不仅不同字母的可能不等宽,而且某字母的四种形式也不等宽;5.大部分阿拉伯字母含有辅助部分,这些辅助部分可能位于字母主体部分的上面、下面或者位于字母内部;6.在字母表中相邻的几个阿拉伯字母可能具有相同的主体形式,而仅用辅助部分加以区别,这使得对于辅助部分的识别变得十分重要。对于阿拉伯文识别的研究最早可以追溯到1975年,Nazif在其硕士学位论文中实现了一种印刷体阿拉伯文识别系统。此后对于阿拉伯文的研究一直没有什么进展,直到1980年,兴起了一股阿拉伯文识别研究的热潮,这一热潮一直延续到90年代初。这一时期,Amin、Shoukry、Jambi等人都对阿拉伯文识别进行了大量研究。目前,研究者们提出的印刷体阿拉伯字母识别方法主要包括基于图像密度的识别方法;基于矩不变特征和神经网络的识别方法;基于基元特征和决策树的识别方法。这些方法当中,基于图像密度和基于矩不变特征的识别方法虽然比较简单,但是算法速度慢,并且这些方法没有充分利用阿拉伯字母丰富的外形特征;基于基元特征的识别方法需要细化过程,其识别速度慢,同时由于阿拉伯字母结构复杂,在细化过程中会出现断裂、毛刺等现象,导致该方法的识别率低。对于印刷体阿拉伯字母识别来说,急需一种简单、识别率高、速度快的方法,为提高现有商用阿拉伯文自动识别系统的性能打下良好的基础。
技术实现思路
本专利技术的目的在于提出一种。本专利技术所采用的技术方案是,第一步,计算字母的上、下、左、右四个边界;第二步,将每一个边界看作一个波,将每一个边界表示为一系列波元的集合;第三步,从波元集合中提取波元个数、零直线个数、最长零直线长度作为识别特征;最后,采用决策树识别每一个印刷体阿拉伯字母。为了提高算法速度,采用从上到下、从下到上、从左到右、从右到左四个方向扫描的方式计算字母的四个边界。这种边界计算方法不仅简单,而且计算速度要大大快于传统的边界跟踪算法。为了简化识别过程,将每一条边界表示为零直线、正直线和负直线三种波元的集合,并对其进行合并、删除操作以提高算法的鲁棒性。在特征提取阶段,提取波元个数、零直线数目、零直线长度、字母高宽比等作为识别特征,这些特征不仅简单,并且可以很快从边界集合或者字母图像中直接得到。决策树首先利用字母高宽比将印刷体阿拉伯字母分为三类,对于每一类,再利用如下特征字母辅助部分的高宽比、各个边界中的波元个数、各个边界中的零直线个数、右边界中第一条零直线的长度、下边界中第一条零直线的长度、上边界中最长零直线的长度、右边界中最长零直线的长度、下边界中最长零直线的长度和上边界中正直线的个数识别印刷体阿拉伯字母。本专利技术克服了现有的印刷体阿拉伯字母识别方法速度慢、算法复杂的缺点,其有益效果是,将字母边界表示为各种波元的集合并从中提取各种波元的特征,特征提取过程简单明了,算法速度快、易于实现。附图说明图1是识别独立形式的印刷体阿拉伯字母的决策树;图2是识别开头形式的印刷体阿拉伯字母的决策树;图3是识别中间形式的印刷体阿拉伯字母的决策树;图4是识别结尾形式的印刷体阿拉伯字母的决策树。具体实施方式下面结合附图和具体实施例对本专利技术作进一步说明结合图1-图4,其中,HW为字母高宽比,W为字母宽度,H为字母高度,LN1为左边界中的波元个数,LN2为上边界中的波元个数,LN3为右边界中的波元个数,LN4为下边界中的波元个数,SN1为左边界中的零直线个数,SN2为上边界中的零直线个数,SN3为右边界中的零直线个数,SN4为下边界中的零直线个数,SL31为右边界中第一条零直线的长度,SL41为下边界中第一条零直线的长度,MSL2为上边界中最长零直线的长度,MSL3为右边界中最长零直线的长度,MSL4为下边界中最长零直线的长度,PN2为上边界中正直线的个数,SHW为辅助部分的高宽比。本实施例中为了提取边界特征,首先从字母图像中计算字母的四个边界。字母边界的计算方法如下(以左边界为例)从左到右扫描字母图像,设ep为从字母图像第p行左侧开始向右扫描遇到第一个黑象素时的连续白像素的个数,则字母的左边界E可以表示为E={ep|p=1,2,....,N},其中N为字母高度。其余三个边界的计算方法类似,只是扫描方向不同。上边界的扫描方向为从上到下,右边界为从右到左,下边界为从下到上。然后,利用如下步骤将每一个边界表示为波元集合(以左边界为例)。步骤1,计算边界E的差分dE={dep|p=2,3,...,N},其中dep的计算方法如式(1)所示。 步骤2,使用式(2)对dE进行平滑。dep=dep-1若dep-1=dep+1(2)步骤3,利用规则1,2,3找到边界中三种类型的波元——零直线、正直线和负直线。规则1若存在p和q满足p<q,dep-1≠0,deq+1≠0,并且dep=dep+1=....=deq-1=0,则p和q之间的边界为一条零直线,其长度为q-p。规则2若存在p和q满足p<q,dep-1>=0,deq+1>=0,并且dep=dep+1=....=deq-1=-1,则p和q之间的边界为一条正直线,其长度为q-p。规则3若存在p和q满足p<q,dep-1<=0,deq+1<=0,,并且dep=dep+1=....=deq-1=-1,则p和q之间的边界为一条负直线,其长度为q-p。步骤4,若波元的长度大于2,则记录该波元的类型、起始点、结束点及其长度。步骤5,将边界E用如下集合S表示,S={(tm,sm,em,lm)|m=1,2,....,M},其中,tm为E中第m个波元的类型,取值为0,1,2,分别表示零直线、正直线和负直线;sm、em以及lm分别为第m个波元的起点、终点和长度;M为E中波元的个数。步骤6,根据规则4,5,6将连续波元合并。规则4若tp=tp+1,|E(ep)-E(sp+1)|<3,且sp+1-ep<2,则将这两个波元合并,同时令M=M-1。规则5若tp=tp+2,|E(ep)-E(sp+2)|<3,且lp+1<3,则将第p、p+1、p+2三个波元合并,同时令M=M-2。规则6若|E(sp)-E(ep)|ep-sp>4,]]>则将此波元删除,同时令M=M-1。然后,从经过上述处理所得到的字母边界集合中提取如下识别特征字母高宽比(HW)、字母辅助部分的高宽比、各个边界中的波元个数、各个边界中的零直线个数、右边界中第一条零直线的长度、下边界中第一条零直线的长度、上边界中最长零直线的长度、右边界中最长零直线的长度、下边界中最长零直线的长度、上边界中正直线的个数。本实施例分别采用图1~图4所示的决策树识别独立形式、开头形式本文档来自技高网
...

【技术保护点】
一种基于边界特征的印刷体阿拉伯字母识别方法,其特征是:第一步,计算字母的上、下、左、右四个边界;第二步,将每一个边界表示为一系列波元的集合;第三步,从波元集合中提取波元个数、零直线个数、最长零直线长度作为识别特征;最后,采用决策树识别每一个印刷体阿拉伯字母。

【技术特征摘要】

【专利技术属性】
技术研发人员:郑丽颖田凯唐降龙
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:93[中国|哈尔滨]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1