一种手写维吾尔文单词识别方法技术

技术编号:12027853 阅读:102 留言:0更新日期:2015-09-10 12:49
本发明专利技术涉及手写维吾尔文单词识别方法,该方法首先对手写维文单词预处理,接着分别提取了维文单词的笔画结构特征和梯度特征,笔画结构特征是直接在时间坐标序列上提取的,而梯度特征是把预处理后手写维吾尔文单词的时间坐标序列映射为二维图像,在二维的图像中提取的,然后将两者特征进行串行融合,最后采用欧式距离分类器进行分类识别,得到识别结果。本发明专利技术提取了两种维文单词特征,并将串行融合,相比提取单一的特征,提高了识别率。本算法具有算法性能好、实时性强、可靠性高、识别率高等优点,主要应用于移动终端上实现手写维文识别,为维文的信息化处理提供了一种新的方法,开辟了新的应用途径。

【技术实现步骤摘要】

本专利技术属于模式识别中的文字识别
,主要涉及手写体识别领域,特别是 涉及手写维吾尔文单词识别方法,用于在移动终端上实现维吾尔文单词的手写输入。
技术介绍
维吾尔文是我国一种重要的少数民族语言,是新疆地区维吾尔族用来交流和工 作的主要文字之一,属于阿尔泰语系突厥语族西匈语支,是一种粘连型拼音文字。根据 GB12050-89国家标准,现代维吾尔文由32个字母组成,包括8个元音字母,24个辅音字母。 维吾尔文字母形体由于独写或在词首、词中、词尾位置不同,每个字母有前连式、后连式、双 连式、单立式等2~8种书写形式,演化成124个字符。此外,还有两个复合字符,一个后连 前缀符和一个隔音符号,总共有128个维吾尔文单字符。维吾尔文单词是由维吾尔文单字 符组成的,一个维吾尔文单词少则有3~4个单字符组成,多则有十几个单字符组成。维吾 尔文单词在书写时采用自右向左、自上向下的手写方式,沿着一条水平线即基线相连书写。 研宄维吾尔文单词的处理和识别有益于新疆少数民族地区的文化交流、信息交流 和科技经济的发展。在市场上,维吾尔文印刷体文字识别系统已经广泛的应用于维吾尔文 信息处理的各个领域,但是,对维吾尔文手写单词识别的研宄仍处于探索阶段。相比单字符 识别,单词识别具有以下的优势:(1)更自然连贯的手写输入:人们在书写文字时,大部分 都是以词为单位出现在脑海中,如果将一个单词中的字符逐个书写逐个识别,很容易影响 思维的连贯性,因此,单词的输入相对于单个字符的逐个输入更显得自然和人性化;(2)更 快速的手写输入和识别:直接对单词进行手写识别,可以不用间断的将一个单词输入,并进 行单词的整体识别,更好的体现了人机交互性。 目前,维吾尔文单词识别分为基于切分的识别方法和基于整词的识别方法。 基于切分的识别方法原理是,将单词看作若干个单字符组成的整体,先对单词切 分成一系列的候选字符,进而通过分析字符形状特征来识别出单独的字符,然后识别整个 单词。此方法的优点是适应性较好,不需要大量的单词训练样本和存储空间,但在实际应用 中受到限制较多,对单词切分的准确性要求较高,容易受手写体单词手写者个体差异的影 响,而且系统复杂,对系统中每个环节要求都较苛刻。明显地,基于切分的识别方法的研宄 重点在于单词的字符切分,中国专利号为201010013727. 5的专利技术专利由西安电子科技大 学李静、卢朝阳等提出了一种脱机维吾尔文单词的字符切分方法,该专利提出了通过多特 征的联合应用引导切分,从而使复杂的手写维吾尔文单词变成清晰、完整的单字符图像,送 入字符识别模块实现对整个维吾尔文单词的鲁棒识别。 基于整词的识别方法原理是,从单词的整体特征入手,提取一个全局特征向量,然 后按照某种匹配算法,用它来匹配一个己知词典中的候选单词,距离最近的候选单词就是 最终识别结果。此方法的优点是识别系统比较简单、识别速度快,也避免了单词切分所遇到 的一些问题,而且符合人类阅读时的习惯。但是,单词的整体特征提取较为困难。 由于维文单词粘连的特性以及书写时的随意性,使得单词的全局特征向量的提取 困难。如何将维文单词特定的书写规则与特征提取算法有效结合起来,并将不同的特征融 合,是手写维吾尔文单词识别一个亟待解决的问题。
技术实现思路
本专利技术的目的是克服现有表征维吾尔文单词的全局特征向量提取困难的问题,提 供一种识别率较高的手写维吾尔文单词识别方法。 本专利技术解决上述技术问题所采用的技术方案为:一种手写维吾尔文单词识别方 法,其特征在于包括如下处理过程: 步骤1、对采集到的手写维文单词进行预处理; 步骤2、将步骤1预处理后的维文单词图像从对象空间映射到特征空间,得到维文 单词图像的笔画结构特征; 步骤3、将预处理后的维文单词的时间坐标序列映射为二维图像,得到维文单词图 像的梯度特征; 步骤4、将步骤2得到的笔画结构特征和步骤3的得到的梯度特征进行融合,得到 维文单词图像的特征向量; 步骤5、根据训练样本预先得到的特征向量库,使用欧氏距离分类器对步骤4得到 维文单词的特征向量在特征向量库中进行分类识别,得到分类识别结果。 作为改进,手写维吾尔文单词预处理过程包括: (1-1)、裁剪手写维文单词图像,去除手写维文单词图像中不包含文字轨迹点的区 域,从而留下包含文字轨迹点的区域; (1-2)、对(1-1)裁剪后的维文单词进行归一化处理,将大小不同的手写维文单词 图像归一化为大小相同的图像; (1-3)、对(1-2)归一化处理后的手写维文单词图像进行平滑滤波,去除手写维文 单词图像中的抖动噪声; (1-4)、对(1-3)处理后的手写维文单词图像进行倾斜校正; (1-5)、对(1-4)倾斜校正后的手写维文单词图像进行轨迹点重采样和插值,去除 原手写维文单词图像中存在象素点比较紧密而归一化处理后象素点比较稀疏的现象,使处 理后的手写维文单词图像与原手写维文单词图像中象素点间距离尽量一致。 再改进,所述步骤2的处理过程为:(2-1)、根据维吾尔文单词的特点和对维吾尔文单词的字形分析,参照图3,将维吾 尔文单词拆分为3类笔画:主体笔画、点笔画和附加笔画,其中,沿着基线书写的笔画称为 主体笔画,点笔画为基线上方或下方的点,基线上方的变音符号则为附加笔画;(2-2)、找出步骤1预处理后的维文单词中的主体笔画: (2-2-1)、设置主体笔画数阈值,笔画点数超过主体笔画数阈值的笔画为主体笔 画; (2-2-2)、首笔画的提取:经过(2-2-1)阈值滤除后的第一笔画为首笔画,将该首 笔画归为主体笔画; (2-2-3)、普通主体笔画的提取:将与首笔画X坐标不同的剩余主体段的笔画直接 判断为普通主体笔画,普通主体笔画也归为主体笔画; (2-2-4)、将终始点趋于闭合的笔画也归位主体笔画;(2-3)、找出步骤1预处理后的维文单词中的点笔画和附加笔画:设置点笔画数阈 值,将笔画点数小于点笔画数阈值的笔画归为点笔画数,将笔画点数大于等于点笔画数阈 值小于等于主体笔画数阈值的笔画归为附加笔画者 (2-4)、提取主体笔画的方向线素特征; (2-5)、提取附加笔画的旋转方向码特征; (2-6)、提取点笔画的各类点数目特征; 维文单词的笔画结构特征即包括:(2_4)提取出的主体笔画的方向线素特征, (2-5)提取出的附加笔画的旋转方向码特征,和(2-6)提取出的点笔画的各类点数目特征。 所述(2-5)中提取附加笔画的旋转方向码特征的具体方法为:依书写 顺序将附加笔画所有坐标连接起来得到一条曲线,根据曲线的走向提取旋转方向 码:将手写区域的横、纵坐标的变化趋势分成四种状态:(1)AX彡0,Ay彡0 ;(2) Ax< 0,Ay多 〇 ; (3)Ax< 0,Ay< 〇 ; (4)Ax多 0,Ay< 〇,当笔画走向为顺时针 时,旋转方向码特征为(1)-⑵一⑶一⑷一(1);当笔画走向为逆时针时,旋转 方向码特征为(1)-⑷一⑶一⑵一(1);当笔画为直线时,旋转方向码特征为 (1) - (1) - (1) - (1) - (1)o 所述(2-6)中提取点笔画的各类点数目特征的具体方法为:定义点笔画的点数目 特征为7位:特征前三位表示基线上一点的个数、基线上两点的个数、基本文档来自技高网
...

【技术保护点】
一种手写维吾尔文单词识别方法,其特征在于包括如下处理过程:步骤1、对采集到的手写维文单词进行预处理;步骤2、将步骤1预处理后的维文单词图像从对象空间映射到特征空间,得到维文单词图像的笔画结构特征;步骤3、将预处理后的维文单词的时间坐标序列映射为二维图像,得到维文单词图像的梯度特征;步骤4、将步骤2得到的笔画结构特征和步骤3的得到的梯度特征进行融合,得到维文单词图像的特征向量;步骤5、根据训练样本预先得到的特征向量库,使用欧氏距离分类器对步骤4得到维文单词的特征向量在特征向量库中进行分类识别,得到分类识别结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:卢朝阳李静瞿萌许亚美李克帕提古丽·艾麦尔尼亚孜郝珍珍
申请(专利权)人:西安电子科技大学宁波信息技术研究院
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1