一种联机手写维吾尔文单词数据增强方法技术

技术编号：19178759 阅读：24 留言：0更新日期：2018-10-17 00:37

本发明专利技术公开了一种联机手写维吾尔文单词数据增强方法，分析手写维吾尔文单词的书写特性，提出了手写轨迹随机变长的联机手写数据增强算法。然后，结合多种适合联机手写单词的数据增强算法，实现联机手写维吾尔文单词数据增强。结合多种算法的数据增强方法效果明显，可以用少量的原始样本来构造更多不同手写风格的有效伪造样本，同时保证其可读性。此数据增强方法具有较强的通用性，可以为其它文字手写数据增强研究作为直接参考。

An online handwritten Uyghur word data enhancement method

The invention discloses an on-line handwritten Uygur word data enhancement method, analyzes the writing characteristics of handwritten Uygur words, and proposes an on-line handwritten data enhancement algorithm with random variable length of handwriting track. Then, combined with a variety of on-line handwritten word data enhancement algorithms, online handwritten Uygur word data enhancement is realized. The data enhancement method combined with a variety of algorithms has obvious effect. A small number of original samples can be used to construct more effective forged samples with different handwriting styles, while ensuring its readability. This data enhancement method has strong generality and can be used as a direct reference for other handwritten data enhancement research.

全部详细技术资料下载

【技术实现步骤摘要】
一种联机手写维吾尔文单词数据增强方法
本专利技术属于手写识别
，涉及一种联机手写维吾尔文单词数据增强方法，具体地说，涉及一种基于多种算法结合的联机手写维吾尔文单词数据增强方法。
技术介绍
手写识别是模式识别以及机器学习领域中的热题。随着机器学习研究的进步，用机器学习算法来构造和训练手写识别模型已经成为手写识别领域的普遍方法。在机器学习研究中，训练数据量越大，训练出来的模型泛化能力往往会越强。这种情况在深度学习研究中更为明显。数据量的大小是直接影响深度模型泛化能力的重要因素。数据量的大小直接联系到数据的表示能力。收集的数据量越大能包含的样本变化越多，越接近于实际情况。在手写识别研究中，收集大量手写样本往往需要的大量的人力和财力，是一个很困难而且漫长的过程。手写数据增强用少量的原始手写数据来构造更多的伪造样本，从而增加数据量并提高数据表示能力，是减轻或弥补数据缺少问题的一种有效途径。手写识别有两大类，联机手写识别和脱机手写识别。联机和脱机手写识别对象的数据表示和存储方式有所不同。联机手写识别在手写过程中记录下来的手写轨迹上进行分析和识别；脱机手写识别则对手写完成之后的图像信息上进行处理和识别。简单地说，联机手写识别的对象是带有时间顺序的手写轨迹点序列；脱机手写识别的对象一般是只有空间信息的图像。由于联机手写数据和脱机手写数据的表示方式不同，其对应的数据增强技术和方法也有所区别。脱机手写数据增强方法可以直接采用普遍的图像数据增强技术，比如，图像旋转，尺寸和位置变换，加噪声等。根据手写样本的特性，还可以用更有效的数据增强方法。联机手写数据是表示真实手写过程的...

【技术保护点】
1.一种联机手写维吾尔文单词数据增强方法，其特征在于，包括以下步骤：步骤1、笔画轨迹长度随机变化以额定长度的轨迹分段为单位访问手写样本轨迹；如果当前分段是横向平直分段，把这个分段右边的样本轨迹坐标以随机长度往右平移；最后，对样本轨迹进行轨迹点插入来弥补平移后产生的轨迹空隙；轨迹分段平直性判断方法是：首先用公式(1)和(2)计算分段的两头和中点形成的转折角度；然后，用公式(3)计算该分段两头对于横轴形成的倾斜角度；如果转折角度和倾斜角度符合额定平直判断条件，则该分段被认为横向平直分段；a＝|B‑C|,b＝|A‑C|,c＝|A‑B| (1)

【技术特征摘要】
1.一种联机手写维吾尔文单词数据增强方法，其特征在于，包括以下步骤：步骤1、笔画轨迹长度随机变化以额定长度的轨迹分段为单位访问手写样本轨迹；如果当前分段是横向平直分段，把这个分段右边的样本轨迹坐标以随机长度往右平移；最后，对样本轨迹进行轨迹点插入来弥补平移后产生的轨迹空隙；轨迹分段平直性判断方法是：首先用公式(1)和(2)计算分段的两头和中点形成的转折角度；然后，用公式(3)计算该分段两头对于横轴形成的倾斜角度；如果转折角度和倾斜角度符合额定平直判断条件，则该分段被认为横向平直分段；a＝|B-C|,b＝|A-C|,c＝|A-B|(1)其中，A,B,C分别为轨迹分段的起点，中点和终点；a,b,c是由A,B,C形成的三角形的对应边长，∠B和∠O是该轨迹段的中心转折角度和对于横轴的倾斜角度；步骤2、笔画轨迹弹性变换2.1采用的笔画轨迹弹性变换把轨迹分段随机旋转的方法来实现；分段长度和旋转的角度取值范围要相互配合；分段长度过长或旋转角度过大会破坏原始样本的形状，伪造样本的可读性不好甚至所属类别变化；如果选的太小则轨迹变换的效果不明显；轨迹分段的旋转用公式(4)和(5)实现；其中，(xi,yi)和(xrot,yrot)是原始和变换以后的点坐标，N是轨迹段长度，(xc,yc)是旋转中心,θ是旋转角度(弧度)；分段长度小的时候，选用轨迹段终点或起点作为旋转中心的弹性变换效果比较明显；2.2多级轨迹弹性变换在手写轨迹上用不同的分段长度和旋转角度多次进行轨迹弹性变换来实现多级轨迹弹性变换；调好各级相关参数的多级轨迹弹性变换比简单轨迹弹性变换效果更明显；分段长度调大的时候，旋转角度的范围要小一点；分段长度调小则能加大旋转角度范围；手写轨迹的弹性变换在原始轨迹上产生轨迹间断或空隙；所以，轨迹弹性变换以后要采用轨迹点插入等方法来弥补所造成的轨迹不均匀情况；步骤3、笔画轨迹随机旋转在这一步中，在手写样本轨迹中的每一个笔画为单词进行随机旋转；笔画轨迹旋转公式如步骤2所示；旋转中心是笔画轨迹的重点，即笔画轨迹中所有点坐标的平均值，步骤2中的公式来计算；旋转角度的范围小一点就行，否则在较长的笔画轨迹旋转后出现异常；或者考虑对不同长度的笔画采用不同幅度为旋转角度；步骤4、整体样本随机倾斜化采用的样本倾斜化通过对样本轨迹或形状进行...

【专利技术属性】
技术研发人员：吾加合买提·司马义，玛依热·依布拉音，艾斯卡尔·艾木都拉，
申请(专利权)人：新疆大学，
类型：发明
国别省市：新疆,65

全部详细技术资料下载我是这个专利的主人