The invention provides a handwritten Tibetan character recognition method, which can make full use of the online and offline information of the handwritten Tibetan character and improve the recognition rate of the handwritten Tibetan character. The realization steps are: (1) establishing the Tibetan character Ding dictionary; (2) establishing the sample library of the handwritten Tibetan character Ding; (3) acquiring each sample library of the handwritten Tibetan character Ding. On-line features of samples; (4) Obtaining offline features of each sample in the handwritten Tibetan Ding sample library; (5) Obtaining feature vectors of Tibetan Ding samples without noise; (6) Obtaining training samples and identifying samples; (7) Obtaining feature templates of Tibetan Ding samples; (8) Classifying Tibetan Ding samples in identifying samples. . The invention can be used for identifying handwritten Tibetan characters entered by mobile terminals.
【技术实现步骤摘要】
一种手写体藏文字丁识别方法
本专利技术属于文字模式识别
,涉及一种手写体藏文字丁识别方法,可用于对移动终端输入的手写体藏文字丁进行识别。
技术介绍
藏语历史悠久,国内使用人口约为800万,目前英语与汉语识别技术已经成熟,并且广泛地应用在各领域,而藏语的识别技术还处于起步阶段,成果相对较少。伴随着各种移动设备的普及,手写输入成为人机交互的一种重要方式,藏语手写识别不仅具有重要的社会意义,还有广阔的市场前景。藏语结构可分为两个部分:辅音字母和元音字母,这些字母按照藏语结构特点分别出现在藏语音节字的不同位置并进行叠加,字母之间的纵向叠加组成藏文字丁,字丁的横向叠加组成完整的藏文音节字。与藏文的字母和音节字相比,选取藏文字丁为识别对象的原因主要有以下几点:(1)字母之间相互粘连紧密,界定藏文字母十分困难。(2)藏文音节数量过于庞大,不但会对识别造成很大困扰,而且对于数据的采集,以现有条件来看也极为困难。(3)字丁在结构上是相互独立的,且参照《信息技术藏文编码字符集扩充集A》的编制说明:“在国际标准框架下制定藏文大字符集编码国家标准,定义垂直预组合的藏文字符,应作为我国藏文信息处理发展的策略”,因此选用藏文字丁作为识别单位是合理且便于实现国际化的。目前,手写体藏文字丁的识别方法主要可分为基于脱机特征的识别方法和基于联机特征的识别方法。其中,基于脱机特征的识别方法处理的是由笔画轨迹点序列映射而成的二维图像,该方法对于手写输入经常出现的连笔、断笔和手写笔顺不同等问题有较好的鲁棒性,但是对于相似形如和等藏文的识别效果却差强人意。而基于联机特征的识别方法处理的是有时间 ...
【技术保护点】
1.一种手写体藏文字丁识别方法,其特征在于,包括以下步骤:(1)建立藏文字丁字典:确定待采集藏文字丁的类别和类别数量n,并对确定的藏文字丁类别从0到n‑1编码,得到n个带有编码的藏文字丁组成的藏文字丁字典,n≥2;(2)建立手写体藏文字丁样本库:(2a)在移动终端平台上采集m套手写体藏文字丁样本,每套样本包含藏文字丁字典中的所有类别,得到m×n个手写体藏文字丁样本;(2b)对各手写体藏文字丁样本分别进行倾斜校正、平滑、归一化、插点和重采样,以去除采集过程中附加的噪声,得到由m×n个不含噪声的手写体藏文字丁样本组成的手写体藏文字丁样本库,其中,所述手写体藏文字丁样本为一系列按时序采样的笔画坐标轨迹,m≥2;(3)获取手写体藏文字丁样本库各样本的联机特征:根据不含噪声的藏文字丁样本的笔画坐标轨迹,计算每个藏文字丁样本在八个方向上的方向线素,得到m×n个藏文字丁样本的联机特征,其中,每个藏文字丁样本在八个方向上的方向线素,是指每个藏文字丁样本在平面直角坐标系中以x轴正方向为起点,逆时针方向旋转,每隔45度所指方向上的方向线素;(4)获取手写体藏文字丁样本库各样本的脱机特征:将每个不含噪声的藏 ...
【技术特征摘要】
1.一种手写体藏文字丁识别方法,其特征在于,包括以下步骤:(1)建立藏文字丁字典:确定待采集藏文字丁的类别和类别数量n,并对确定的藏文字丁类别从0到n-1编码,得到n个带有编码的藏文字丁组成的藏文字丁字典,n≥2;(2)建立手写体藏文字丁样本库:(2a)在移动终端平台上采集m套手写体藏文字丁样本,每套样本包含藏文字丁字典中的所有类别,得到m×n个手写体藏文字丁样本;(2b)对各手写体藏文字丁样本分别进行倾斜校正、平滑、归一化、插点和重采样,以去除采集过程中附加的噪声,得到由m×n个不含噪声的手写体藏文字丁样本组成的手写体藏文字丁样本库,其中,所述手写体藏文字丁样本为一系列按时序采样的笔画坐标轨迹,m≥2;(3)获取手写体藏文字丁样本库各样本的联机特征:根据不含噪声的藏文字丁样本的笔画坐标轨迹,计算每个藏文字丁样本在八个方向上的方向线素,得到m×n个藏文字丁样本的联机特征,其中,每个藏文字丁样本在八个方向上的方向线素,是指每个藏文字丁样本在平面直角坐标系中以x轴正方向为起点,逆时针方向旋转,每隔45度所指方向上的方向线素;(4)获取手写体藏文字丁样本库各样本的脱机特征:将每个不含噪声的藏文字丁样本的笔画坐标轨迹映射为二维图像,并对每个二维图像进行Gabor滤波,得到m×n个藏文字丁样本的脱机特征;(5)获取不含噪声的藏文字丁样本的特征向量:对每个藏文字丁样本的联机特征与脱机特征进行串行融合,得到m×n个藏文字丁样本的特征向量;(6)获取训练样本集和待识别样本:从手写体藏文字丁样本库中随机选...
【专利技术属性】
技术研发人员:卢朝阳,赵晓艳,李静,
申请(专利权)人:西安电子科技大学,
类型:发明
国别省市:陕西,61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。