一种英文单词手写识别方法及终端设备技术

技术编号:35000710 阅读:33 留言:0更新日期:2022-09-21 14:50
本发明专利技术提供一种英文单词手写识别方法及终端设备,属于手写识别技术领域。本发明专利技术英文单词手写识别方法包括步骤:设定初始数据集;初始化操作:设定英文字符高度分类表,根据英文单词集里的单词生成目标图片的参数;从英文单词集依次获取单词,基于所述英文字符高度分类表获取该单词的字符种类组合的标志值;计算该单词的每个字符的实际宽、高、垂直起始位置;获取调整后的目标字符参数;设置不同的绘制参数,获取基于该单词的多种写法;生成包含个数为第二设定值数据的训练数据集和测试数据集;在生成的训练数据集和测试数据集上使用训练模型进行训练,生成手写识别模型。本发明专利技术的有益效果为:极大地提高英文单词手写识别系统的开发效率。开发效率。开发效率。

【技术实现步骤摘要】
一种英文单词手写识别方法及终端设备


[0001]本专利技术涉及一种手写识别技术,尤其涉及一种英文单词手写识别方法,及采用所述手写识别方法的终端设备。

技术介绍

[0002]现有的手写输入识别技术的基本原理是在人工采集的数据集上采用训练模型技术进行训练,然后使用训练出来的模型进行推理得出识别结果。目前英文手写数据集大多是单个字符的数据集,针对英文单词的手写数据集都是纸质文档扫描或者拍照后裁剪出来的图片,而非笔画数据。
[0003]现有技术的技术缺陷:
[0004]采用单字符的笔画数据集不满足单词识别的要求,而纸质文档经扫描或者拍照后生成出来的图片包含很多干扰信息且与手写生成的图片差别很大,不能用于英文单词的输入法手写识别深度学习训练。

技术实现思路

[0005]为解决现有技术中的问题,本专利技术提供一种英文单词手写识别方法,还提供一种采用所述手写识别方法的终端设备。
[0006]本专利技术包括如下步骤:
[0007]S1:设定初始数据集,所述初始数据集包括英文大小写手写笔画数据集和英文单词集;
[0008]S2:初始化操作:设定英文字符高度分类表,根据英文单词集里的单词生成目标图片的参数;
[0009]S3:从英文单词集中获取一个单词,基于所述英文字符高度分类表获取该单词的字符种类组合的标志值;
[0010]S4:计算该单词的每个字符的实际宽、高、垂直起始位置;
[0011]S5:根据目标图片的宽度参数调整字符实际宽、高、垂直起始位置,获取调整后的目标字符参数;
[0012]S6:基于所述目标字符参数绘制笔画,设置不同的绘制参数,获取基于该单词的多种写法;
[0013]S7:重复步骤S3

S6,获取所述英文单词集设定个数单词的不同写法,生成包含个数为第二设定值数据的训练数据集和测试数据集;
[0014]S8:在生成的训练数据集和测试数据集上使用训练模型进行训练,生成手写识别模型。
[0015]本专利技术作进一步改进,还包括步骤S9:将手写识别模型的文件进行量化处理,降低模型复杂度,获取精度损失更小的手写识别模型文件。
[0016]本专利技术作进一步改进,步骤S2中,所述英文字符高度分类表包括五种类别,分别为
中上、中部、上部、下部和全高类别。
[0017]本专利技术作进一步改进,所述目标图片的参数包括目标图片高度、宽度、每个字符之间的间隔与每个单词生成目标图片的数量。
[0018]本专利技术作进一步改进,步骤S3中,所述字符种类组合的标志值设置方法为:获取该单词中从左到右每个字符在所述英文字符高度分类表中的类别,将整数型标志值Flag的第1到第5位分别对应所述英文字符高度分类表的5个类别;如果该单词中有字符属于其中一个类别则该位置为1,否则置为0,最终获取包括一串字符的标志值。
[0019]本专利技术作进一步改进,基于所述字符种类组合的标志值,按照5个种类的不同组合可以将单词的字符种类组合的标志值分为2的5次方即32种,分别得出单词中每种字符的实际宽系数wc、高系数hc和垂直起始位置系数yc。
[0020]本专利技术作进一步改进,步骤S4中,该单词的每个字符ch的实际宽w、高h、垂直起始位置y的计算方法为:
[0021](1)从该字符ch的笔画集中随机获取一个笔画数据,获得其转化为图片的宽度wo和高度ho;全高情况下的目标图标的宽度wa为CHAR_IMG_SIZE*wo/ho;
[0022](2)结合字符实际宽系数、高系数、垂直起始位置系数得出各字符的目标宽w为wa*wc,目标高h为CHAR_IMG_SIZE*hc,目标垂直起始位置y为CHAR_IMG_SIZE*yc,其中,CHAR_IMG_SIZE为目标图片高度。
[0023]本专利技术作进一步改进,步骤S5中,字符实际宽、高、垂直起始位置的调整方法为:
[0024](a)将步骤S5中获取的每个字符的宽度w相加,得出total_w;
[0025](b)获得该单词中字符的数量word_length;
[0026](c)缩放比例ratio的计算方式为:ratio=(FULL_IMG_WIDTH

FIXED_GAP*word_length)/total_w;
[0027](d)将每个字符按照ratio比例缩放后,加上字符间隔FIXED_GAP后得到总宽度,如果总宽度的计算结果与设定的目标图片宽度有偏差,则根据偏差对运算结果进行调整,最后得出每个字符的目标宽度w


[0028]本专利技术作进一步改进,步骤S8中,采用深度学习CNN训练模型进行训练,采用Adam优化算法更新模型中的可训练参数,所述训练模型包括:若干个卷积层和全连接层,还包括:
[0029]批归一化层:分别设置在各个卷积层和第一个全连接层的输出端,用于对每一层的输入进行归一化操作;
[0030]最大池化层:设置在若干组批归一化层输出端,用于将输入数据不重叠的分割成若干个同样大小的小块,每个小块内只取最大的数字,舍弃其他数据,达到压缩特征数据、简化网络复杂度、减少计算量的目的;
[0031]扁平化层:设置在最后一个池化层输出端,用来将输入扁平化,即把多维的输入一维化,用于从卷积层到全连接层的过渡。
[0032]本专利技术还提供一种终端设备,设有所述手写识别模型文件,用于执行所述英文单词手写识别方法,实现对英文单词的手写识别。
[0033]与现有技术相比,本专利技术的有益效果是:极大地提高模型训练效率,花费很少的费用,而且后续可以很容易地扩展数据集,该专利技术极大地提高了效率和扩展性,显著地降低了
费用。并且,训练数据集和测试数据集通过对各种手写习惯的拓展考虑,使本专利技术的数据集更贴近于人的手写习惯,能够更容易的对手写英文单词进行识别。
附图说明
[0034]图1为本专利技术方法流程图;
[0035]图2为本专利技术训练模型一实施例结构示意图。
具体实施方式
[0036]下面结合附图和实施例对本专利技术做进一步详细说明。
[0037]如图1所示,本专利技术的识别包括如下步骤:
[0038]S1:设定初始数据集,所述初始数据集包括英文大小写手写笔画数据集和英文单词集;
[0039]S2:初始化操作:设定英文字符高度分类表,根据英文单词集里的单词生成目标图片的参数;
[0040]S3:从英文单词集中获取一个单词,基于所述英文字符高度分类表获取该单词的字符种类组合的标志值;
[0041]S4:计算该单词的每个字符的实际宽、高、垂直起始位置;
[0042]S5:根据目标图片的宽度参数调整字符实际宽、高、垂直起始位置,获取调整后的目标字符参数;
[0043]S6:基于所述目标字符参数绘制笔画,设置不同的绘制参数,获取基于该单词的多种写法;
[0044]S7:重复步骤S3

S6,获本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种英文单词手写识别方法,其特征在于,包括如下步骤:S1:设定初始数据集,所述初始数据集包括英文大小写手写笔画数据集和英文单词集;S2:初始化操作:设定英文字符高度分类表,根据英文单词集里的单词生成目标图片的参数;S3:从英文单词集中获取一个单词,基于所述英文字符高度分类表获取该单词的字符种类组合的标志值;S4:计算该单词的每个字符的实际宽、高、垂直起始位置;S5:根据目标图片的宽度参数调整字符实际宽、高、垂直起始位置,获取调整后的目标字符参数;S6:基于所述目标字符参数绘制笔画,设置不同的绘制参数,获取基于该单词的多种写法;S7:重复步骤S3

S6,获取所述英文单词集设定个数单词的不同写法,生成包含个数为第二设定值数据的训练数据集和测试数据集;S8:在生成的训练数据集和测试数据集上使用训练模型进行训练,生成手写识别模型。2.根据权利要求1所述的英文单词手写识别方法,其特征在于:还包括步骤S9:将手写识别模型的文件进行量化处理,降低模型复杂度,获取精度损失更小的手写识别模型文件。3.根据权利要求1或2所述的英文单词手写识别方法,其特征在于:步骤S2中,所述英文字符高度分类表包括五种类别,分别为中上、中部、上部、下部和全高类别。4.根据权利要求3所述的英文单词手写识别方法,其特征在于:所述目标图片的参数包括目标图片高度、宽度、每个字符之间的间隔与每个单词生成目标图片的数量。5.根据权利要求4所述的英文单词手写识别方法,其特征在于:步骤S3中,所述字符种类组合的标志值设置方法为:获取该单词中从左到右每个字符在所述英文字符高度分类表中的类别,将整数型标志值Flag的第1到第5位分别对应所述英文字符高度分类表的5个类别;如果该单词中有字符属于其中一个类别则该位置为1,否则置为0,最终获取包括一串字符的标志值。6.根据权利要求5所述的英文单词手写识别方法,其特征在于:基于所述字符种类组合的标志值,按照5个种类的不同组合可以将单词的字符种类组合的标志值分为2的5次方即32种,分别得出单词中每种字符的实际宽系数wc、高系数hc和垂直起始位置系数yc。7.根据权利要求6所述的英文单词手写识别方法,其特征在于:步骤S4中,该单词的每个字符...

【专利技术属性】
技术研发人员:庄育和
申请(专利权)人:深圳市航盛电子股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1