一种基于部件的联机手写藏文字符的识别方法技术

技术编号:7178878 阅读:268 留言:0更新日期:2012-04-11 18:40
本发明专利技术属于少数民族语言文字信息处理领域,具体涉及一种基于部件的联机手写藏文字符的识别方法。本发明专利技术突破传统的基于统计的识别方法,以部件为基本识别对象,首先对输入字符进行部件分割,得到按一定规则排列的子结构序列,然后利用基于条件随机场的集成识别方法,从子结构序列中获取正确的部件串分割点及部件串的识别结果,基于此识别结果最终确定字符的类别。本发明专利技术用于基于笔式交互的移动设备的手写识别输入,识别方法的存储量小、识别精度较高,能够满足笔式移动设备的高需求。

【技术实现步骤摘要】

本专利技术属于少数民族语言文字信息处理的联机手写字符识别领域,涉及一种藏文字符的识别方法,尤其涉及。
技术介绍
基于笔的联机手写字符识别技术是一种易被用户使用的、有效的实时工具,已广泛应用在计算机和手持移动设备(如手机、PDA等)中。笔输入设备的普及和应用的扩展, 给手写字符识别技术的应用带来了新的机遇,同时又对识别性能提出了更高的要求。进一步提高识别精度、减少计算量和存储空间是下一步的研究目标。藏文字符识别技术是少数民族语言文字信息处理中的重要部分,但目前国内外在联机手写藏文字符识别上的研究相对较少,因而,研究联机手写藏文字符的识别方法在理论和应用上都具有重要的意义。传统的字符识别方法包括统计方法和结构方法。统计方法通常用特征向量表示整个字符形状信息,用统计分类器进行字符分类,这种方法能够克服笔划顺序和笔划数的变化,识别精度较高;但由于字符的类别数大,分类器参数的存储量也很大。结构方法是将字符分解为简单的子结构(部件、笔划等),用相对简单的方法对子结构进行识别。这种方法的优点是结构基元的模型复杂度低,而缺点是子结构提取的难度大,准确性低。目前联机手写藏文字符识别的研究均是采用基于统计的方法,藏文字符的类别数大,导致分类器参数的存储量大;另一方面,相似字符的类别数多,影响了分类器的识别精度;这两个主要原因导致藏文字符的识别性能尚未达到笔式移动设备对手写识别技术的较高需求。
技术实现思路
本专利技术的目的是为满足目前笔式移动设备对手写藏文识别技术的较高需求,提出。本专利技术的基于部件的联机手写藏文字符的识别方法,其步骤包括1)对输入字符的点轨迹进行预处理;2)对预处理后的字符进行部件分割,得到一系列子结构块;3)将子结构块按其边界框的上边界重新排列,得到子结构块序列;4)采用基于条件随机场的集成识别方法,从子结构块序列中识别出正确的部件串;所述基于条件随机场的集成识别方法通过不同的权值将字符-部件的组成规则模型、 部件分类模型、字符的拼写规则模型及几何模型集成在一起;5)根据识别出的部件串确定输入的字符。步骤1)所述的预处理包括去除孤立点、等距离重采样及高斯平滑。步骤2)所述的部件分割包括垂直方向的迭代归并和基于规则的归并。步骤4)所述的字符-部件的组成规则模型采用部件自学习方法确定某类字符的部件类别,采用层次聚类算法对所有类字符的部件类别进行聚类。步骤4)所述的部件分类模型采用统计分类方法,包括修正的二次判别函数和学习向量量化方法。步骤4)所述的字符的拼写规则模型是一种基于部件的拼写规则模型。对于每一类字符,步骤4)中所述几何模型为每一个部件建立一元几何特征,为每两个连续部件之间建立二元几何特征,并分别用不同的概率密度函数模型化一元和二元几何特征。步骤4)所述的连接字符-部件的组成规则模型、部件分类模型、字符的拼写规则模型及几何模型的权值基于最小分类错误率的准则训练得到。与现有的采用统计模型的联机手写藏文字符的识别方法相比,本专利技术采用的基于部件的联机手写藏文字符的识别方法,将基于字符-部件的结构方法和基于部件的统计模型的方法相融合,在部件过分割的子结构序列中寻找最优的部件分割路径和识别结果,提高了部件分割的精度;本专利技术采用的基于部件的识别方法中,部件的类别总数远小于字符的类别数,这使得部件分类器的词典存储量较小,可以满足移动设备的存储需求;此外,较小的部件类别中相似的部件也大大减少,有助于提高最终的字符识别精度。附图说明图1是本专利技术的基于部件的识别方法的流程框2是藏文字符的结构组成示意3是藏文字符的部件分割的示例4是藏文字符的部件串的表示示例5是提取某一类字符的部件的人工交互界面示意图具体实施例方式下面通过实施例,并结合附图,对本专利技术的基于部件的联机手写藏文字符的识别方法详细的说明。本实施例采用了中国科学院软件研究所基础软件国家工程研究中心的多语言处理研究组的MRG-OHTC样本数据库。该数据库包括了 130位不同书写者的藏文字符样本,每位书写者完成910个常用字符(基本集和扩充A集)的书写。实验选取其中的562类藏文字符进行测试,每个类别有130套样本,剔除了不能正确标记部件分割点的样本。选择其中 105套进行训练,剩余的25套样本进行测试。此外,130套样本中字符的部件分割点的位置标记借助了字符-部件的组成规则模型中的部件自学习方法。本实施例的具体实施过程按如图1所示,具体说明如下1)点轨迹预处理将一个联机手写藏文字符的输入表示为手写轨迹的点序列(Xl,Y1),(X2,J2),… (xn, yn),其中η表示输入字符轨迹中的点数,轨迹中点的顺序按书写的时间先后排列,笔划之间用结束标志点断开。首先去除孤立点,即由单个噪声点组成的笔划,以消除孤立噪声点对部件分割及部件识别的影响,然后对字符的轨迹进行等距离重采样,最后用高斯滤波进行点的平滑,以克服轨迹中点的波动。在等距离重采样中,点的距离设置为0. 7,在高斯平滑中,方差设置为1.5。2)部件分割部件分割模块将经过预处理的字符过分割成一系列子结构块,子结构块是完整的部件或部件的一部分。藏文字符是由一个或多个部件在垂直方向按上下叠加的纵向形式组合而成,如图2所示。所述的部件是指字符的子笔划序列,是易被计算机分割算法提取、 比字符结构更稳定的结构基元。由于字符由部件组成,不同的字符共用相同的部件,因而部件的类别数远小于字符的类别数。结合藏文字符的一般书写顺序,部件分割的具体步骤如下a)垂直方向的迭代归并初始假定每一个笔划为一个子结构块,迭代归并任意两个在垂直方向的交叉度较大的子结构块,直到没有可归并的为止。通常书写藏文字符时,一般部件之间在垂直方向存在空白间隔或部件之间的重叠较小。假定最初每个笔划是一个子结构块,基于这个信息,如果两个子结构块(笔划序列)在垂直方向有间隔或两个子结构块在垂直方向交叉且交叉度小于0.2,就将这两个子结构块分割;如果两个子结构块在垂直方向交叉且交叉度大于 0. 2,就将这两个子结构块归并。所述的交叉度是指两个子结构块在垂直方向的交叉程度的度量,其度量模型表示为两个子结构块的交叉区域的面积与两个子结构块的边界框区域面积和的比值。b)基于规则的归并基于交叉度的迭代归并后,可能会出现一些小的子结构块位于相邻子结构块的左下方位、左上方位、右下方位、右上方位,引入一些基于结构位置关系的规则信息,将这些小子结构块归并到相邻的大子结构块中,最终字符被过分割成一些子结构块序列,分割实例如图3所示。3)子结构块序列由于书写的随意性,经过步骤2)后得到的子结构块的排列没有固定的次序,而我们的字符部件串的表示如图4所示,为确保与字符的部件串表示词典(在后文将对此词典的创建进行说明)一致而不影响识别的结果,将子结构块按其边界框的上边界重新排列, 得到子结构块序列。4)集成的部件串分割与识别将字符识别看成是部件串的识别,关键问题是如何从经过步骤幻所得的子结构块序列中得到正确的部件串分割点及识别结果。本专利技术采用了基于条件随机场 (J.Lafferty, A. McCallum, F. Pereira, Conditional random fields !probabilistic models for segmenting and labeling se本文档来自技高网...

【技术保护点】
1.一种基于部件的联机手写藏文字符的识别方法,其步骤包括:1)对输入字符的点轨迹进行预处理;2)对预处理后的字符进行部件分割,得到一系列子结构块;3)将子结构块按其边界框的上边界重新排列,得到子结构块序列;4)采用基于条件随机场的集成识别方法,从子结构块序列中识别出正确的部件串;所述基于条件随机场的集成识别方法通过不同的权值将字符-部件的组成规则模型、部件分类模型、字符的拼写规则模型及几何模型集成在一起;5)根据识别出的部件串确定输入的字符。

【技术特征摘要】

【专利技术属性】
技术研发人员:马龙龙吴健刘汇丹
申请(专利权)人:中国科学院软件研究所
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1