一种基于Transformer的场景手写体汉字识别方法技术

技术编号:40195768 阅读:57 留言:0更新日期:2024-01-26 23:59
本发明专利技术公开了一种基于Transformer的场景手写体汉字识别方法,S1:获取原始手写体汉字图像数据集,得到更新后的手写体汉字图像数据集,并进行预处理得到预处理后的数据集;S2:采用基于控制点的图像矫正方法进行矫正,得到矫正后的手写体汉字图像;S3:采用基于文本内核的文本行检测与分割算法进行手写体文本行检测与分割,得到待识别的手写体文本行图像;S4:构建基于Transformer的手写汉字识别网络模型,并基于待识别的手写体文本行图像进行训练,得到训练后的手写汉字识别模型;S5:基于所述训练后的手写汉字识别模型,进行手写体汉字的识别。本发明专利技术中降低了手写体汉字识别模型的复杂度,并且减少了训练时间、提高了模型泛化能力以及手写汉字识别的准确率。

【技术实现步骤摘要】

本专利技术涉及手写汉字识别,尤其涉及一种基于transformer的场景手写体汉字识别方法。


技术介绍

1、针对手写汉字识别的方法主要包括基于全局分析与结构分析的手写汉字识别方法、基于svm的手写汉字识别方法以及基于循环卷积神经网络的手写汉字识别方法。其中,传统方法主要是基于全局分析与结构分析,结合统计学知识与模板匹配、矩阵分析、数学变换等技术,通过“预处理+特征提取+分类器”的识别框架对手写汉字实行识别,但是该方法需要手动设计特征提取算法,因此针对复杂场景中的手写汉字识别准确率较差。基于svm的手写汉字识别方法是通过非线性变换将输入空间变换到一个高维空间,然后在这个新空间中求取最优线性分类面、定义适当的内积函数,从而实现手写汉字的识别,但手写汉字识别是一个大规模的分类问题,svm采用的多个支持向量机组合的方法难以获得相对较高的精度。基于循环卷积神经网络的手写汉字识别方法采用cnn网络作为主干网络,通过采用双向的lstm网络,将ctc作为解码器,并在此基础上配合自注意力机制来理解文本图像,进而完成手写汉字的识别,但是由于其网络复杂度高,网络训练时间长、模型本文档来自技高网...

【技术保护点】

1.一种基于Transformer的场景手写体汉字识别方法,其特征在于,具体步骤包括:

2.根据权利要求1所述的基于Transformer的场景手写体汉字识别方法,其特征在于,S4中,构建基于Transformer的手写汉字识别网络模型,并基于待识别的手写体文本行图像进行训练的过程为:

3.根据权利要求2所述的基于Transformer的场景手写体汉字识别方法,其特征在于,所述编码器模块包括第一多头注意力层、第一归一化层、第一前置反馈层和第二归一化层;

4.根据权利要求3所述的基于Transformer的场景手写体汉字识别方法,其特征在于,所述第一多头...

【技术特征摘要】

1.一种基于transformer的场景手写体汉字识别方法,其特征在于,具体步骤包括:

2.根据权利要求1所述的基于transformer的场景手写体汉字识别方法,其特征在于,s4中,构建基于transformer的手写汉字识别网络模型,并基于待识别的手写体文本行图像进行训练的过程为:

3.根据权利要求2所述的基于transformer的场景手写体汉字识别方法,其特征在于,所述编码器模块包括第一多头注意力层、第一归一化层、第一前置反馈层和第二归一化层;

4.根据权利要求3所述的基于transformer的场景手写体汉字识别方法,其特征在于,所述第一多头注意力层的q1,k1,v1、第二多头注意力层的q2,k2,v以及第三多头注意力层的q3,k3,v3的通用计算公式为:

5.根据权利要求4所述的基于transformer的场景手写体汉字识别方法,其特征在于,s1中,对更新后的手写体汉字图像数据集中的图像进行预处理的过程包括:

<...

【专利技术属性】
技术研发人员:王新年黄鑫
申请(专利权)人:大连海事大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1