当前位置: 首页 > 专利查询>新疆大学专利>正文

一种联机手写维吾尔文单词数据增强方法技术

技术编号:19178759 阅读:24 留言:0更新日期:2018-10-17 00:37
本发明专利技术公开了一种联机手写维吾尔文单词数据增强方法,分析手写维吾尔文单词的书写特性,提出了手写轨迹随机变长的联机手写数据增强算法。然后,结合多种适合联机手写单词的数据增强算法,实现联机手写维吾尔文单词数据增强。结合多种算法的数据增强方法效果明显,可以用少量的原始样本来构造更多不同手写风格的有效伪造样本,同时保证其可读性。此数据增强方法具有较强的通用性,可以为其它文字手写数据增强研究作为直接参考。

An online handwritten Uyghur word data enhancement method

The invention discloses an on-line handwritten Uygur word data enhancement method, analyzes the writing characteristics of handwritten Uygur words, and proposes an on-line handwritten data enhancement algorithm with random variable length of handwriting track. Then, combined with a variety of on-line handwritten word data enhancement algorithms, online handwritten Uygur word data enhancement is realized. The data enhancement method combined with a variety of algorithms has obvious effect. A small number of original samples can be used to construct more effective forged samples with different handwriting styles, while ensuring its readability. This data enhancement method has strong generality and can be used as a direct reference for other handwritten data enhancement research.

【技术实现步骤摘要】
一种联机手写维吾尔文单词数据增强方法
本专利技术属于手写识别
,涉及一种联机手写维吾尔文单词数据增强方法,具体地说,涉及一种基于多种算法结合的联机手写维吾尔文单词数据增强方法。
技术介绍
手写识别是模式识别以及机器学习领域中的热题。随着机器学习研究的进步,用机器学习算法来构造和训练手写识别模型已经成为手写识别领域的普遍方法。在机器学习研究中,训练数据量越大,训练出来的模型泛化能力往往会越强。这种情况在深度学习研究中更为明显。数据量的大小是直接影响深度模型泛化能力的重要因素。数据量的大小直接联系到数据的表示能力。收集的数据量越大能包含的样本变化越多,越接近于实际情况。在手写识别研究中,收集大量手写样本往往需要的大量的人力和财力,是一个很困难而且漫长的过程。手写数据增强用少量的原始手写数据来构造更多的伪造样本,从而增加数据量并提高数据表示能力,是减轻或弥补数据缺少问题的一种有效途径。手写识别有两大类,联机手写识别和脱机手写识别。联机和脱机手写识别对象的数据表示和存储方式有所不同。联机手写识别在手写过程中记录下来的手写轨迹上进行分析和识别;脱机手写识别则对手写完成之后的图像信息上进行处理和识别。简单地说,联机手写识别的对象是带有时间顺序的手写轨迹点序列;脱机手写识别的对象一般是只有空间信息的图像。由于联机手写数据和脱机手写数据的表示方式不同,其对应的数据增强技术和方法也有所区别。脱机手写数据增强方法可以直接采用普遍的图像数据增强技术,比如,图像旋转,尺寸和位置变换,加噪声等。根据手写样本的特性,还可以用更有效的数据增强方法。联机手写数据是表示真实手写过程的非常好的方法。跟脱机手写数据相比,联机手写数据包含的信息更多。联机手写样本一般带有手写轨迹中每一点按时间前后顺序和坐标,样本总笔画数、笔画分界点,笔画顺序以及每一个点所属于的笔画等信息。通过这些信息不仅能够如实观察实际手写过程的属性,而且为手写数据增强提供更好的条件。本专利技术根据维吾尔文联机手写单词书写特性,提出多种手写数据增强技术结合应用的方法,构造更多有效的伪造样本,减轻手写单词数据短缺的问题。目前使用的现代维吾尔文是在阿老伯和部分波斯字母基础上适应维吾尔语特性的拼音文字。现代维吾尔文有32个基本字母类型,其中有24个辅音和8个元音。每个字母类型在单词中不同的位置用不同的字母形式,比如前连式、后连式、双连式和独立式等。手写是充满多样性和随机性的过程。每个人都有各自的手写风格,而且在不同的环境中会有变化,导致同一个字母或单词能写成的样式多种多样。下面以维吾尔文单词为例,简单分析一下手写过程的一些属性。a)手写样本轨迹中点顺序和笔画顺序有随机性为同一个单词收集的联机手写样本不仅在总体形状上有区别,而且在手写轨迹中每一点出现的前后顺序都不同。这种情况在各笔画的前后顺序上发生得更明显。手写轨迹中构成样本主体的笔画叫做主笔画,放在主体的上下边并起区分性作用的笔画叫做延迟笔画或次笔画。主体笔画的序列长度和形状比较大,延迟笔画则相比起来比较短小甚至只包含一个点。有时候,这种情况也不一定。某个人根据他的书写风格可能首先写长度大的主要笔画,然后去写其它较小的笔画或者用相反的顺序。在手写过程中,哪个主笔画先写或者哪个延迟笔画后写是很难预定的。b)每个笔画有不同程度的倾斜情况除了顺序的随机性以外,每个笔画的形状可能有不同程度的倾斜情况。手写单词中某些字母的主体部分直接一个笔画连写的情况很常见。这些连写的大笔画和其对应的延迟笔画叫做连体段。某一个字母的主体部分在不同的连体段中形成的倾斜度有不同。很多书写者在写完了整体单词或单词总某个连体段的主体部分之后再去补写需要的延迟笔画。因延迟笔画较小,延迟笔画形成的倾斜度更有随机性。c)整体样本有不同程度的倾斜情况整体样本的倾斜情况在拼音文字的单词手写过程中经常遇见。单词包含的字母数越多,整体倾斜度会越明显。整体样本形成倾斜度的情况跟个人手写风格,手写环境,书写着的手写姿势有关。同时,也会受书写者在手写过程中的心里和生理因素的影响。整体样本的倾斜情况主要表现为开段高后段低或者相反。d)整体样本以及每个笔画的长度有随机性联机手写样本的长度一般用它包含的轨迹点数来表示,叫做轨迹长度。同一个单词或字母的手写样本在轨迹长度上的随机性不需解释的普遍情况。手写单词中每一个笔画的轨迹长度也因例而变。这种情况不仅仅有关于手写采集设备的物理特性,还归因于书写者的手写速度,手写时用的力度和态度等主观因素。比如,书写者有时候非常认真得写,有时候写得很随便;在写某一个单词过程中可能突然慢下来,导致对应部分的轨迹点分布很密,甚至某些点被重复记录下来。e)样本在手写板上写的位置有随机性在手写样本收集过程中,如果没有明确限制,书写者每一次写的手写屏幕位置大不相同。虽然样本位置的变化对样本形状的影响不大,但过度依靠屏幕框边写的样本可能会产生一些重复点和噪声点。众多因素会影响联机手写样本的实际点轨迹和形状,导致手写样本可能形成的样式无穷。手写样本的多种变化属性看起来增大手写识别研究的难度,但同时为手写数据增强提供了非常好的着手点。既然联机手写数据和脱机手写数据的表示方式不同,应该采用适合并能够充分利用数据信息的方法来进行数据增强。在图像数据增强方面的很多技术可以应用于脱机手写数据增强,比如图像旋转以及各种变换。联机手写数据同时提供手写样本的空间信息和时间信息。可以选择和采用的数据增强技术更加丰富,数据增强的效果更好。但实际应用中应该注意各种文字的书写特性。下面以维吾尔文手写单词为例,分析几种经典联机手写数据增强方法对手写样本带来的效果和影响。a)笔画丢弃实际手写过程难免发生有些笔画的缺失。笔画丢弃通过随机丢弃原始轨迹中的一些笔画来逼近实际手写过程。这种情况虽然影响手写样本的质量,样本总体还会有可读性,同样可以利用。有时候某个笔画的缺失会让一个样本所属的类别变化,而且不能预先知道变成哪个类别,导致原始数据分布不均匀,标签错误率高。维吾尔文单词对其延迟笔画的变化十分敏感,笔画丢弃的方法很显然不符合维吾尔文手写单词数据增强。b)轨迹段丢弃手写过程总书写者色手写速度很难保持平稳。再加上手的颤抖等生理状况容易产生点分布不均匀的手写样本轨迹。在样本轨迹中有些分段稀疏,相邻点之间的距离很大。根据以上属性,通过丢弃原始手写样本轨迹中的某些分段来模仿实际手写过程,叫做分段丢弃。分段丢弃比笔画丢弃更适合实际情况,具有通用性。但分段丢弃对延迟笔画敏感的文种来说还是有局限性。c)轨迹点丢弃按照某种比例对手写轨迹中的点进行随机丢弃的方式来逼近真实手写样本的属性,可以更方便地制造更多伪造样本。这种方法可以简单地被称为轨迹点丢弃方法。跟以上两种丢弃方案相比,轨迹点丢弃方法具有通用性,实现也简单。所以在深度学习领域中得到了普遍应用。采用轨迹点丢弃方法的获得的伪造样本跟原始样本总体形状上的差别不大。这可能是它的一个缺点。在延迟笔画敏感的文字上采用轨迹点丢弃方法的时候还是要小心,因为此方法可能丢弃那些只有一个点组成的延迟笔画,导致样本所属类型的变化。有些方法如果直接应用于整体手写单词轨迹会导致不理想的结果。
技术实现思路
本专利技术的目的在于提供一种联机手写维吾尔文单词数据增强方法。该方法根据维吾尔本文档来自技高网
...

【技术保护点】
1.一种联机手写维吾尔文单词数据增强方法,其特征在于,包括以下步骤:步骤1、笔画轨迹长度随机变化以额定长度的轨迹分段为单位访问手写样本轨迹;如果当前分段是横向平直分段,把这个分段右边的样本轨迹坐标以随机长度往右平移;最后,对样本轨迹进行轨迹点插入来弥补平移后产生的轨迹空隙;轨迹分段平直性判断方法是:首先用公式(1)和(2)计算分段的两头和中点形成的转折角度;然后,用公式(3)计算该分段两头对于横轴形成的倾斜角度;如果转折角度和倾斜角度符合额定平直判断条件,则该分段被认为横向平直分段;a=|B‑C|,b=|A‑C|,c=|A‑B|    (1)

【技术特征摘要】
1.一种联机手写维吾尔文单词数据增强方法,其特征在于,包括以下步骤:步骤1、笔画轨迹长度随机变化以额定长度的轨迹分段为单位访问手写样本轨迹;如果当前分段是横向平直分段,把这个分段右边的样本轨迹坐标以随机长度往右平移;最后,对样本轨迹进行轨迹点插入来弥补平移后产生的轨迹空隙;轨迹分段平直性判断方法是:首先用公式(1)和(2)计算分段的两头和中点形成的转折角度;然后,用公式(3)计算该分段两头对于横轴形成的倾斜角度;如果转折角度和倾斜角度符合额定平直判断条件,则该分段被认为横向平直分段;a=|B-C|,b=|A-C|,c=|A-B|(1)其中,A,B,C分别为轨迹分段的起点,中点和终点;a,b,c是由A,B,C形成的三角形的对应边长,∠B和∠O是该轨迹段的中心转折角度和对于横轴的倾斜角度;步骤2、笔画轨迹弹性变换2.1采用的笔画轨迹弹性变换把轨迹分段随机旋转的方法来实现;分段长度和旋转的角度取值范围要相互配合;分段长度过长或旋转角度过大会破坏原始样本的形状,伪造样本的可读性不好甚至所属类别变化;如果选的太小则轨迹变换的效果不明显;轨迹分段的旋转用公式(4)和(5)实现;其中,(xi,yi)和(xrot,yrot)是原始和变换以后的点坐标,N是轨迹段长度,(xc,yc)是旋转中心,θ是旋转角度(弧度);分段长度小的时候,选用轨迹段终点或起点作为旋转中心的弹性变换效果比较明显;2.2多级轨迹弹性变换在手写轨迹上用不同的分段长度和旋转角度多次进行轨迹弹性变换来实现多级轨迹弹性变换;调好各级相关参数的多级轨迹弹性变换比简单轨迹弹性变换效果更明显;分段长度调大的时候,旋转角度的范围要小一点;分段长度调小则能加大旋转角度范围;手写轨迹的弹性变换在原始轨迹上产生轨迹间断或空隙;所以,轨迹弹性变换以后要采用轨迹点插入等方法来弥补所造成的轨迹不均匀情况;步骤3、笔画轨迹随机旋转在这一步中,在手写样本轨迹中的每一个笔画为单词进行随机旋转;笔画轨迹旋转公式如步骤2所示;旋转中心是笔画轨迹的重点,即笔画轨迹中所有点坐标的平均值,步骤2中的公式来计算;旋转角度的范围小一点就行,否则在较长的笔画轨迹旋转后出现异常;或者考虑对不同长度的笔画采用不同幅度为旋转角度;步骤4、整体样本随机倾斜化采用的样本倾斜化通过对样本轨迹或形状进行...

【专利技术属性】
技术研发人员:吾加合买提·司马义玛依热·依布拉音艾斯卡尔·艾木都拉
申请(专利权)人:新疆大学
类型:发明
国别省市:新疆,65

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1