一种手写体藏文字丁识别方法技术

技术编号:19343362 阅读:46 留言:0更新日期:2018-11-07 14:20
本发明专利技术提出了一种手写体藏文字丁识别方法,可充分利用手写体藏文字丁的联机和脱机信息,提高手写体藏文字丁的识别率,实现步骤为:(1)建立藏文字丁字典;(2)建立手写体藏文字丁样本库;(3)获取手写体藏文字丁样本库各样本的联机特征;(4)获取手写体藏文字丁样本库各样本的脱机特征;(5)获取不含噪声的藏文字丁样本的特征向量;(6)获取训练样本集和待识别样本;(7)获取藏文字丁样本的特征模板;(8)对待识别样本中的藏文字丁样本进行分类。本发明专利技术可用于对移动终端输入的手写体藏文字丁进行识别。

A handwritten Tibetan character recognition method

The invention provides a handwritten Tibetan character recognition method, which can make full use of the online and offline information of the handwritten Tibetan character and improve the recognition rate of the handwritten Tibetan character. The realization steps are: (1) establishing the Tibetan character Ding dictionary; (2) establishing the sample library of the handwritten Tibetan character Ding; (3) acquiring each sample library of the handwritten Tibetan character Ding. On-line features of samples; (4) Obtaining offline features of each sample in the handwritten Tibetan Ding sample library; (5) Obtaining feature vectors of Tibetan Ding samples without noise; (6) Obtaining training samples and identifying samples; (7) Obtaining feature templates of Tibetan Ding samples; (8) Classifying Tibetan Ding samples in identifying samples. . The invention can be used for identifying handwritten Tibetan characters entered by mobile terminals.

【技术实现步骤摘要】
一种手写体藏文字丁识别方法
本专利技术属于文字模式识别
,涉及一种手写体藏文字丁识别方法,可用于对移动终端输入的手写体藏文字丁进行识别。
技术介绍
藏语历史悠久,国内使用人口约为800万,目前英语与汉语识别技术已经成熟,并且广泛地应用在各领域,而藏语的识别技术还处于起步阶段,成果相对较少。伴随着各种移动设备的普及,手写输入成为人机交互的一种重要方式,藏语手写识别不仅具有重要的社会意义,还有广阔的市场前景。藏语结构可分为两个部分:辅音字母和元音字母,这些字母按照藏语结构特点分别出现在藏语音节字的不同位置并进行叠加,字母之间的纵向叠加组成藏文字丁,字丁的横向叠加组成完整的藏文音节字。与藏文的字母和音节字相比,选取藏文字丁为识别对象的原因主要有以下几点:(1)字母之间相互粘连紧密,界定藏文字母十分困难。(2)藏文音节数量过于庞大,不但会对识别造成很大困扰,而且对于数据的采集,以现有条件来看也极为困难。(3)字丁在结构上是相互独立的,且参照《信息技术藏文编码字符集扩充集A》的编制说明:“在国际标准框架下制定藏文大字符集编码国家标准,定义垂直预组合的藏文字符,应作为我国藏文信息处理发展的策略”,因此选用藏文字丁作为识别单位是合理且便于实现国际化的。目前,手写体藏文字丁的识别方法主要可分为基于脱机特征的识别方法和基于联机特征的识别方法。其中,基于脱机特征的识别方法处理的是由笔画轨迹点序列映射而成的二维图像,该方法对于手写输入经常出现的连笔、断笔和手写笔顺不同等问题有较好的鲁棒性,但是对于相似形如和等藏文的识别效果却差强人意。而基于联机特征的识别方法处理的是有时间信息的笔画轨迹点序列,该方法由于手写输入中会出现连笔、断笔、笔顺等书写不规范问题,从而使得笔画点序列发生了改变,对基于联机特征识别方法的识别效果产生很大干扰,但基于联机特征的识别方法对部分相似字丁的区分效果比基于脱机特征的识别方法更好。影响手写体藏文字丁识别率的因素主要有利用到的藏文文字特征信息不全面,藏文字丁本身相似度极高,以及手写文字的随意性造成的文字变形。目前已有技术中都是通过使用单一的脱机或联机识别技术来完成藏文的识别,并不能充分利用手写体藏文的脱机和联机信息,造成手写体藏文字丁的识别率低,而结合使用两种信息的手写体藏文识别方法却没有相关的文献或专利的报道。
技术实现思路
本专利技术的目的在于针对上述已有技术的不足,提出一种手写体藏文字丁识别方法,以提高手写体藏文字丁的识别率。为实现上述目的,本专利技术采取的技术方案包括以下步骤:(1)建立藏文字丁字典:确定待采集藏文字丁的类别和类别数量n,并对确定的藏文字丁类别从0到n-1编码,得到n个带有编码的藏文字丁组成的藏文字丁字典,n≥2;(2)建立手写体藏文字丁样本库:(2a)在移动终端平台上采集m套手写体藏文字丁样本,每套样本包含藏文字丁字典中的所有类别,得到m×n个手写体藏文字丁样本;(2b)对各手写体藏文字丁样本分别进行倾斜校正、平滑、归一化、插点和重采样,以去除采集过程中附加的噪声,得到由m×n个不含噪声的手写体藏文字丁样本组成的手写体藏文字丁样本库,其中,所述手写体藏文字丁样本为一系列按时序采样的笔画坐标轨迹,m≥2;(3)获取手写体藏文字丁样本库各样本的联机特征:根据不含噪声的藏文字丁样本的笔画坐标轨迹,计算每个藏文字丁样本在八个方向上的方向线素,得到m×n个藏文字丁样本的联机特征,其中,每个藏文字丁样本在八个方向上的方向线素,是指每个藏文字丁样本在平面直角坐标系中以x轴正方向为起点,逆时针方向旋转,每隔45度所指方向上的方向线素;(4)获取手写体藏文字丁样本库各样本的脱机特征:将每个不含噪声的藏文字丁样本的笔画坐标轨迹映射为二维图像,并对每个二维图像进行Gabor滤波,得到m×n个藏文字丁样本的脱机特征;(5)获取不含噪声的藏文字丁样本的特征向量:对每个藏文字丁样本的联机特征与脱机特征进行串行融合,得到m×n个藏文字丁样本的特征向量;(6)获取训练样本集和待识别样本:从手写体藏文字丁样本库中随机选取m-1套藏文字丁样本,并将(m-1)×n个藏文字丁样本作为训练样本集,剩余的n个藏文字丁样本作为待识别样本;(7)获取藏文字丁样本的特征模板:计算训练样本集中同一类别藏文字丁样本对应的特征向量的平均值,得到n个藏文字丁样本的特征模板;(8)对待识别样本中的藏文字丁样本进行分类:将待识别样本中n个藏文字丁样本对应的特征向量与每个藏文字丁样本的特征模板分别进行匹配,并参照藏文字丁字典,将匹配度最高的特征模板所属类别的编码对应的藏文字丁作为识别结果。本专利技术与现有技术相比,具有如下优点:本专利技术由于对待识别样本中的藏文字丁样本进行分类时,是通过对每个藏文字丁样本的联机特征与脱机特征进行串行融合,并将融合后的特征向量与藏文字丁样本的特征模板进行匹配实现的,避免了现有技术提取单一特征得到的特征向量中包含藏文字丁信息不全面的缺陷,有效地提高了手写体藏文字丁的识别率,且识别的鲁棒性好。附图说明图1为本专利技术的实现流程图;图2为藏文各部分组成结构示意图;图3为本专利技术对手写体藏文字丁样本进行倾斜校正、平滑、归一化、插点和重采样的实现流程图;图4为本专利技术手写体藏文字丁样本在八个方向的方向线素及方向线素的向量分解示意图。具体实施方式下面结合附图和具体实施例,对本专利技术作进一步的详细描述。参照图1,本专利技术包括以下步骤:步骤1,建立藏文字丁字典。藏文的组成结构可分为字母、字丁和音节字,如图2所示,字母间的垂直叠置形成藏文字丁,字丁间的水平叠置形成藏文音节字。根据我国先后颁布的《藏文编码字符集基本集》、《藏文编码字符集扩充集A》和《藏文编码字符集扩充集B》的国家标准,藏文字丁的数量一共是有7433个,数量庞大,但绝大多数是梵音藏文字丁。本专利技术选取了《藏文编码字符集基本集》和《藏文编码字符集扩充集A》中的663个藏文字丁,这些数量的字丁通过排列组合就已经能覆盖90%以上的藏文。将这663个字丁从0到662编码,建立藏文字丁字典。步骤2,建立手写体藏文字丁样本库。步骤2a)在移动终端平台上采集不同人手写的藏文字丁数据,本专利技术共采集了30个藏族同胞手写的藏文字丁,每人写2遍,共写了60套,因此共采集有663×60=39780个手写数据样本。步骤2b)对每个样本的笔画坐标轨迹进行倾斜校正、平滑、归一化、插点和重采样,其具体的实现流程如图3所示:步骤2b1)对手写体藏文字丁样本进行裁剪处理。由于书写人员在采集软件的书写框内书写时没有规定固定的位置和大小,为了减少样本间的差异,可以先对样本进行裁剪。首先找到字丁样本的最小外接框,然后只保留外接框以内的部分,将不包含字丁信息的空白部分去除。步骤2b2)对裁剪后的藏文字丁进行基于水平投影的倾斜校正处理。在采集手写字丁的时候,受习惯和环境等因素影响,难免会出现字体倾斜的情况,对样本间字丁笔画的横向和纵向分布产生不同程度的影响,从而影响字丁的识别。倾斜矫正时将藏文字丁进行旋转,旋转步长为1°,旋转范围为-15°到15°。对每次旋转得到的新的字丁数据进行水平投影,得到在当前矫正角度下水平方向上的笔画点个数,如果当前矫正角度的个数大于前面矫正角度的个数,则更新最佳角度为当前矫正角度。步骤2b3)对倾斜本文档来自技高网
...

【技术保护点】
1.一种手写体藏文字丁识别方法,其特征在于,包括以下步骤:(1)建立藏文字丁字典:确定待采集藏文字丁的类别和类别数量n,并对确定的藏文字丁类别从0到n‑1编码,得到n个带有编码的藏文字丁组成的藏文字丁字典,n≥2;(2)建立手写体藏文字丁样本库:(2a)在移动终端平台上采集m套手写体藏文字丁样本,每套样本包含藏文字丁字典中的所有类别,得到m×n个手写体藏文字丁样本;(2b)对各手写体藏文字丁样本分别进行倾斜校正、平滑、归一化、插点和重采样,以去除采集过程中附加的噪声,得到由m×n个不含噪声的手写体藏文字丁样本组成的手写体藏文字丁样本库,其中,所述手写体藏文字丁样本为一系列按时序采样的笔画坐标轨迹,m≥2;(3)获取手写体藏文字丁样本库各样本的联机特征:根据不含噪声的藏文字丁样本的笔画坐标轨迹,计算每个藏文字丁样本在八个方向上的方向线素,得到m×n个藏文字丁样本的联机特征,其中,每个藏文字丁样本在八个方向上的方向线素,是指每个藏文字丁样本在平面直角坐标系中以x轴正方向为起点,逆时针方向旋转,每隔45度所指方向上的方向线素;(4)获取手写体藏文字丁样本库各样本的脱机特征:将每个不含噪声的藏文字丁样本的笔画坐标轨迹映射为二维图像,并对每个二维图像进行Gabor滤波,得到m×n个藏文字丁样本的脱机特征;(5)获取不含噪声的藏文字丁样本的特征向量:对每个藏文字丁样本的联机特征与脱机特征进行串行融合,得到m×n个藏文字丁样本的特征向量;(6)获取训练样本集和待识别样本:从手写体藏文字丁样本库中随机选取m‑1套藏文字丁样本,并将(m‑1)×n个藏文字丁样本作为训练样本集,剩余的n个藏文字丁样本作为待识别样本;(7)获取藏文字丁样本的特征模板:计算训练样本集中同一类别藏文字丁样本对应的特征向量的平均值,得到n个藏文字丁样本的特征模板;(8)对待识别样本中的藏文字丁样本进行分类:将待识别样本中n个藏文字丁样本对应的特征向量与每个藏文字丁样本的特征模板分别进行匹配,并参照藏文字丁字典,将匹配度最高的特征模板所属类别的编码对应的藏文字丁作为识别结果。...

【技术特征摘要】
1.一种手写体藏文字丁识别方法,其特征在于,包括以下步骤:(1)建立藏文字丁字典:确定待采集藏文字丁的类别和类别数量n,并对确定的藏文字丁类别从0到n-1编码,得到n个带有编码的藏文字丁组成的藏文字丁字典,n≥2;(2)建立手写体藏文字丁样本库:(2a)在移动终端平台上采集m套手写体藏文字丁样本,每套样本包含藏文字丁字典中的所有类别,得到m×n个手写体藏文字丁样本;(2b)对各手写体藏文字丁样本分别进行倾斜校正、平滑、归一化、插点和重采样,以去除采集过程中附加的噪声,得到由m×n个不含噪声的手写体藏文字丁样本组成的手写体藏文字丁样本库,其中,所述手写体藏文字丁样本为一系列按时序采样的笔画坐标轨迹,m≥2;(3)获取手写体藏文字丁样本库各样本的联机特征:根据不含噪声的藏文字丁样本的笔画坐标轨迹,计算每个藏文字丁样本在八个方向上的方向线素,得到m×n个藏文字丁样本的联机特征,其中,每个藏文字丁样本在八个方向上的方向线素,是指每个藏文字丁样本在平面直角坐标系中以x轴正方向为起点,逆时针方向旋转,每隔45度所指方向上的方向线素;(4)获取手写体藏文字丁样本库各样本的脱机特征:将每个不含噪声的藏文字丁样本的笔画坐标轨迹映射为二维图像,并对每个二维图像进行Gabor滤波,得到m×n个藏文字丁样本的脱机特征;(5)获取不含噪声的藏文字丁样本的特征向量:对每个藏文字丁样本的联机特征与脱机特征进行串行融合,得到m×n个藏文字丁样本的特征向量;(6)获取训练样本集和待识别样本:从手写体藏文字丁样本库中随机选...

【专利技术属性】
技术研发人员:卢朝阳赵晓艳李静
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1