一种基于字符敏感编辑距离的零样本汉字识别方法技术

技术编号：40325529 阅读：32 留言：0更新日期：2024-02-09 14:19

本发明专利技术涉及一种基于字符敏感编辑距离的零样本汉字识别方法。汉字图像经过编码器，得到特征向量；特征向量分别经过解码器、部首计数模块，得到预测的汉字表意描述序列以及预测部首数量；汉字表意描述序列中的部首数量与预测部首数量相比较，形成代价门控用来约束编辑距离中的插入代价和删除代价。通过查找结构、笔画数、偏旁和四角号码字典信息，获得每个部首对之间的相似度作为替换代价；汉字表意描述序列和IDS字典中的每个候选序列经过编辑距离获得相似得分；选取相似得分最高的候选序列所对应的汉字为最终汉字。本发明专利技术方法消除了模型错误识别成相似部首和模型过解析或欠解析造成的部首序列失匹配的影响，有效地提高了对未见汉字的识别能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉与模式识别，尤其涉及一种基于字符敏感编辑距离的零样本汉字识别方法。

技术介绍

1、汉字识别作为人工智能和模式识别的一个重要研究方向，被广泛深入研究与应用。在实际应用中，新类别、新样本不断涌现，所以出现了零样本汉字识别问题，即在少量或没有标注训练样本的情况下识别未见汉字。每个汉字都可由若干个部首表示，所以部首常被作为建立可见汉字与未见汉字的共享属性。现有的零样本汉字识别方法大多数采用基于部首的序列匹配框架，即预测的部首序列和表意描述序列(ids)字典通过最小编辑距离进行匹配来识别未见汉字。尽管最小编辑距离在将预测的部首序列转录为对应的汉字上取得了不错的效果，但是仍然存在很大的改进空间。一方面，汉字中的一些部首在形状和结构上只有细微的差异，以至于提取的特征过于相似，造成了相似部首之间的识别错误。另一方面，由于部首之间的关系不太明显，容易出现重复或忽略识别部首，进而造成了部首序列长度的失匹配。然而，最小编辑距离将插入、删除和替换代价都固定为1是不合理的，因为它忽略了错误识别成相似部首与正确部首之间的关联性以及序列长度失...

【技术保护点】

1.一种基于字符敏感编辑距离的零样本汉字识别方法，其特征在于，包括以下步骤；

2.根据权利要求1所述的一种基于字符敏感编辑距离的零样本汉字识别方法，其特征在于，在步骤S1中，汉字图像经过DenseNet网络编码为图像特征向量I∈RHxWxC，即先经过一个卷积层得到特征图，然后通过ReLU激活函数进行非线性变换，再通过一系列的密集块逐渐增加特征的维度和复杂度，最后得到图像的高级抽象特征即图像特征向量I∈RHxWxC。

3.根据权利要求1所述的一种基于字符敏感编辑距离的零样本汉字识别方法，其特征在于，在步骤S2中，所述双向GRU在每个时间步t中，将上一个时间步识别的部...

【技术特征摘要】

1.一种基于字符敏感编辑距离的零样本汉字识别方法，其特征在于，包括以下步骤；

2.根据权利要求1所述的一种基于字符敏感编辑距离的零样本汉字识别方法，其特征在于，在步骤s1中，汉字图像经过densenet网络编码为图像特征向量i∈rhxwxc，即先经过一个卷积层得到特征图，然后通过relu激活函数进行非线性变换，再通过一系列的密集块逐渐增加特征的维度和复杂度，最后得到图像的高级抽象特征即图像特征向量i∈rhxwxc。

3.根据权利要求1所述的一种基于字符敏感编辑距离的零样本汉字识别方法，其特征在于，在步骤s2中，所述双向gru在每个时间步t中，将上一个时间步识别的部首yt-1和上一个隐藏状态ht-1通过门控循环单元g1得到当前时间步的对齐信息然后和图像特征向量i通过覆盖注意力层，得到当前覆盖向量ct，之后将ct和输入门控循环单元g2获得部首特征表示ht；通过引入覆盖向量，将固定长度序列转换为非固定长度向量ct，使得模型能够对先前已经生成的部首进行关注，避免重复生成和忽略部分部首信息。

4.根据权利要求3所述的一种基于字符敏感编辑距离的零样本汉字识别方法，其特征在于，在步骤s2中，部首特征表示ht与部首向量原型yi计算相似度，将ht归类到最有可能的一类部首中；模型的可训练参数由特征提取模块θ和每个类中的原型模块u组成；距离用来度量部首和部首原型之间的相似性，最小化损失函数本质上意味着减少部首表示与部首原型之间的距离，基于距离的交叉熵损失函数ld表示为：

5.根据权利要求1所述的一种基于字符敏感编辑距离的零样本汉字识别方法，其特征在于，在步骤s2中，汉字部首表意描述序列y中的每个部首作为未见汉字和已见汉字的中间桥梁。

6.根据权利要求4所述的一种基于字符敏感编辑距离的零样...

【专利技术属性】
技术研发人员：王大寒，陈宇，江楠峰，张煦尧，朱顺痣，
申请(专利权)人：厦门理工学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人