一种手写字符图像相似度确定模型训练方法技术

技术编号:38197275 阅读:15 留言:0更新日期:2023-07-21 16:34
本发明专利技术涉及图像处理技术领域,尤其涉及一种手写字符图像相似度确定模型训练方法,该方法包括数据识别模块识别手写字符图像,数据处理模块确定各手写字符图像中的手写字符复杂度并确定与数据库中的字符的匹配方式,等级评价模块确定手写字符与数据库中各字符的相似度等级并判断手写字符与数据库中各字符是否匹配,建模模块建立卷积神经网络模型,训练模块将训练集输入卷积神经网络模型进行训练,验证模块确定模型的验证准确率,数据调整模块确定对匹配方式的优化方式,这种方法通过多个模块的协同作用,实现了模型训练过程的自动优化,提高了手写字符识别的准确率和效率,具有较好的实用性和普适性。较好的实用性和普适性。较好的实用性和普适性。

【技术实现步骤摘要】
一种手写字符图像相似度确定模型训练方法


[0001]本专利技术涉及图像处理
,尤其涉及一种手写字符图像相似度确定模型训练方法。

技术介绍

[0002]高维数据例如图像、音频等在日常生活中愈发普遍,因而可对其提取有用信息的特征学习方法显得尤为重要。手写体识别即是对其中某种高维信息进行特征提取并利用的一个实例。它通过电子专用设备将纸质手写文本电子化,得到计算机存储的字符图像,之后通过一系列特征学习的方法提取图像特征、分类等操作得到最终识别的字符。一旦得出高效准确识别字符的方法,可应用到办公自动化、机器翻译等领域,即可带来巨大的社会和经济效益。但是有效地抽取手写体图像特征的过程具有一定难度,到目前为止,手写体字符识别距实用要求还有一定距离。目前的大部分研究工作都集中在处理手写体图像特征提取问题,且也已取得一定的成果。但是从真实世界中采集的图像通常存在包含噪声、数据缺失等问题,因此需要提出一种更鲁棒的算法来进行特征提取。
[0003]中国专利公开号:CN102982330A公开了一种文字图像中字符识别方法和识别装置,包括:对所述文字图像中切割出的字符,以设定单位进行划分;并对每个设定单位内的字符进行识别;其中,对于一个设定单位,确定该设定单位内的字符的识别结果的方法流程,具体包括如下步骤:对所述设定单位内的每个字符进行特征提取和特征匹配后,确定每个字符的候选字;针对所述设定单位内的每个字符,确定该字符的每个候选字的相似度、以及该字符的每个候选字与该字符相邻的字符的候选字之间的转移概率;根据确定出的相似度和转移概率,确定出所述设定单位内的字符的识别结果;其中,所述识别结果还根据所述设定单位内的每个字符的每个候选字的出现概率确定;以及所述根据确定出的相似度和转移概率,确定出所述设定单位内的字符的识别结果,以及所述识别结果还根据所述设定单位内的每个字符的每个候选字的出现概率确定,具体包括:对于该设定单位内的第1个字符的候选字的维特比概率,根据该候选字的相似度和/或该候选字的出现概率确定;从该设定单位内的第2个字符起,对于当前字符的每个候选字,根据该候选字的相似度、出现概率、以及该候选字与该当前字符相邻的字符中的在前字符的候选字之间的转移概率,确定出所述当前字符的每个候选字与所述在前字符的各候选字之间的维特比概率;在确定出当前候选字与各在前候选字之间的维特比概率后,比较各维特比概率,从中选择最大的维特比概率作为当前候选字的维特比概率;其中,所述当前候选字为所述当前字符的候选字之一,所述在前候选字为所述在前字符的候选字之一;以所述当前候选字作为当前节点,选择与该当前候选字之间的维特比概率最大的在前候选字作为与该当前候选字相邻的在前节点;确定候选路径;其中,所述候选路径中的每个节点为分别针对所述设定单位内的每个字符选择出的候选字,同一候选路径中的相邻节点是根据每个候选字的在前节点确定的;比较各候选路径的最后节点的维特比概率,以最后节点的维特比概率最大的候选路径作为所述识别结果。
[0004]由此可见,现有技术存在以下问题:字符相似度识别准确率不高,鲁棒性差。

技术实现思路

[0005]为此,本专利技术提供一种手写字符图像相似度确定模型训练方法,用以克服现有技术中字符相似度识别准确率不高,鲁棒性差的问题。
[0006]为实现上述目的,一方面,本专利技术提供一种手写字符图像相似度确定模型训练方法,包括:步骤S1、数据识别模块识别若干手写字符图像;步骤S2、数据处理模块提取各所述手写字符图像中手写字符以确定所述手写字符的复杂度;步骤S3、所述数据处理模块根据所述手写字符的复杂度所处复杂度水平确定所述手写字符与数据库中的若干字符的匹配方式;步骤S4、所述等级评价模块在相应匹配方式下确定所述手写字符与数据库中的各字符的相似度等级;步骤S5、所述等级评价模块根据所述相似度等级确定所述手写字符与数据库中的各字符是否匹配;步骤S6、建模模块建立卷积神经网络模型,并将各所述手写字符图像和对应匹配完成的所述数据库中的字符作为单个数据集并将若干数据集以预设比例划分为训练集和验证集;步骤S7、所述训练模块将所述训练集输入所述卷积神经网络模型以训练所述卷积神经网络模型;步骤S8、所述验证模块将所述验证集输入训练完成的所述卷积神经网络模型并确定所述卷积神经网络模型的验证准确率;步骤S9、所述数据调整模块在所述验证准确率低于准确率标准时,确定对所述匹配方式的优化方式;其中,当所述复杂度处于第一复杂度水平,所述数据处理模块根据皮尔逊相关系数确定所述手写字符与相应数据库中的字符是否匹配;或当所述复杂度处于第二复杂度水平,所述数据处理模块计算所述手写字符与所述数据库中的字符的相似度,并确定所述数据库中的字符的相似度等级,以在相似度等级为第三相似度等级时,计算所述手写字符与所述第三相似度等级的字符的平均曲率差值以确定手写字符与所述数据库中的字符是否匹配。
[0007]进一步地,在所述步骤S3中,当所述数据处理模块在所述复杂度处于第一复杂度水平时,所述数据处理模块将所述手写字符与数据库中的若干字符的匹配方式设置为第一匹配方式,所述第一匹配方式包括计算所述手写字符基于空间分布的特征向量,并计算所述特征向量与数据库中的各字符的特征向量的皮尔逊相关系数,以根据皮尔逊相关系数与预设皮尔逊相关系数的比对结果确定所述手写字符与相应数据库中的字符是否匹配。
[0008]进一步地,在所述步骤S3中,当所述数据处理模块在所述复杂度处于第二复杂度水平下,所述数据处理模块将所述手写字符与数据库中的若干字符的匹配方式设置为第二匹配方式,所述第二匹配方式包括计算所述手写字符与所述数据库中的字符的相似度W,设
定:W=B
×
N
×
ZB=1

|B1

B2|/

BmaxZ=1

(H/Z0)其中,B为笔画数相似度,B1为手写字符的笔画数,B2为数据库中的字符的笔画数,

Bmax为数据库中最多笔画数字符与最少笔画数字符的笔画数差值,N为结构相似度,Z为形状相似度,H为衡量两个字符轮廓点集之间的Hausdorff距离,Z0为字符图像的对角线长度。
[0009]进一步地,当所述数据处理模块计算所述相似度完成时,所述等级评价模块根据相似度与预设相似度的比对结果对数据库中的字符的相似等级进行判定,相似等级包括第一相似度等级、第二相似度等级和第三相似度等级,所述预设相似度包括用以划分所述数据库中的第一相似度等级的字符和第二相似度等级的字符的第一预设相似度以及用以划分第二相似度等级的字符和第三相似度等级的字符的第二预设相似度,其中第一预设相似度小于第二预设相似度。
[0010]进一步地,当所述等级评价模块在数据库中的字符被确定为第三相似度等级的字符时,计算手写字符与所述第三相似度等级的字符的平均曲率差值,根据平均曲率差值与预设平均曲率差值的比对结果确定手写字符与相应数据库中的字符是否匹配。
[0011]进一步地,当确定所述卷积神经网络模型的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种手写字符图像相似度确定模型训练方法,其特征在于,包括:步骤S1、数据识别模块识别若干手写字符图像;步骤S2、数据处理模块提取各所述手写字符图像中手写字符以确定所述手写字符的复杂度;步骤S3、所述数据处理模块根据所述手写字符的复杂度所处复杂度水平确定所述手写字符与数据库中的若干字符的匹配方式;步骤S4、等级评价模块在相应匹配方式下确定所述手写字符与数据库中的各字符的相似度等级;步骤S5、所述等级评价模块根据所述相似度等级确定所述手写字符与数据库中的各字符是否匹配;步骤S6、建模模块建立卷积神经网络模型,并将各所述手写字符图像和对应匹配完成的所述数据库中的字符作为单个数据集并将若干数据集以预设比例划分为训练集和验证集;步骤S7、训练模块将所述训练集输入所述卷积神经网络模型以训练所述卷积神经网络模型;步骤S8、验证模块将所述验证集输入训练完成的所述卷积神经网络模型并确定所述卷积神经网络模型的验证准确率;步骤S9、数据调整模块在所述验证准确率低于准确率标准时,确定对所述匹配方式的优化方式;其中,当所述复杂度处于第一复杂度水平,所述数据处理模块根据皮尔逊相关系数确定所述手写字符与相应数据库中的字符是否匹配;或当所述复杂度处于第二复杂度水平,所述数据处理模块计算所述手写字符与所述数据库中的字符的相似度,并确定所述数据库中的字符的所述相似度等级,以在所述相似度等级为第三相似度等级时,计算所述手写字符与所述第三相似度等级的字符的平均曲率差值以确定手写字符与所述数据库中的字符是否匹配。2.根据权利要求1所述的手写字符图像相似度确定模型训练方法,其特征在于,在所述步骤S3中,当所述数据处理模块在所述复杂度处于第一复杂度水平时,所述数据处理模块将所述手写字符与数据库中的若干字符的匹配方式设置为第一匹配方式,所述第一匹配方式包括计算所述手写字符基于空间分布的特征向量,并计算所述特征向量与数据库中的各字符的特征向量的皮尔逊相关系数,以根据皮尔逊相关系数与预设皮尔逊相关系数的比对结果确定所述手写字符与相应数据库中的字符是否匹配。3.根据权利要求1所述的手写字符图像相似度确定模型训练方法,其特征在于,在所述步骤S3中,当所述数据处理模块在所述复杂度处于第二复杂度水平下,所述数据处理模块将所述手写字符与数据库中的若干字符的匹配方式设置为第二匹配方式,所述第二匹配方式包括计算所述手写字符与所述数据库中的字符的相似度W,设定:W=B
×
N
×
ZB=1

|B1

B2|/

BmaxZ=1

(H/Z0)其中,B为笔画数相似度,B1为手写字符的笔画数,B2为数据库中的字符的笔画数,

Bmax为数据库中最多笔画数字符与最少笔画数字符的笔画数差值,N为结构相似度,Z为形状相似度,H为衡量两个字符轮廓点集之间的Hausdorff距离,Z0为字符图像的对角线长度。4.根据权利要求3所述的手写字符图像相似度确定模型训练方法,其特征在于,当所述数据处理模块计算所述相似度完成时,所述等级评价模块根据相似度与预设相似度的比对结果对数据库中的字符的相似等级进行判定,相似等级包括第一相似度等级、第二相似度等级和第三相似度等级,所述预设相似度包括用以划分所述数据库中的第一相似度等级的字符和第二相似度等级的字符的第一预设相似度以及用以划分第二相似度等级的字符和第三相似度等级的字符的第二预设相似度,其中第一预设相似度小于第二预设相似度。5.根据权利要求4所述的手写字符图像相似度确定模型训练方法,其特征在于,当所述等级...

【专利技术属性】
技术研发人员:徐丹白世亮
申请(专利权)人:深圳宏途教育网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1