基于SwinTransformer的手写文字识别方法及系统技术方案

技术编号:33349614 阅读:18 留言:0更新日期:2022-05-08 09:52
本申请涉及一种基于Swin Transformer的手写文字识别方法及系统,包括获取待识别手写图片;基于Swin Transformer建立Swin

【技术实现步骤摘要】
基于Swin Transformer的手写文字识别方法及系统


[0001]本申请涉及计算机
,特别是涉及一种基于Swin Transformer的手写文字识别方法及系统。

技术介绍

[0002]文字识别是对序列的预测方法,所以采用了对序列预测的RNN网络,并通过CNN将图片的特征提取出来后采用RNN对序列进行预测,最后通过一个CTC的翻译层得到最终结果,这也就是常说的CNN+RNN+CTC的结构,也即CRNN。
[0003]现有基于CRNN的手写汉字识别系统准确性较低,主要是因为传统的CNN模型,在编码提取图像特征阶段,模型无法像较好的获取图像空间信息,也无法跨越空间获取图像像素之间的权重机制,并且,传统模型用LSTM把CNN阶段提取的特征翻译成文字,由于LSTM在获取文本的长期依赖效果不理想,而且不能跨字直接获取特征的相关度,导致在解码阶段,把图片特征转化从文字经常出现形体相似的错别字,进而导致文字识别的准确率低的技术问题。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够提高文字识别准确率本文档来自技高网...

【技术保护点】

【技术特征摘要】
Multi

head Self

attention建立第一stagetransformer层;编码结构模块,用于根据所述第一stagetransformer层建立预设特定数量的层数,并形成所述Swin

T编码结构;编码抽取模块,用于基于所述Swin

T编码结构对所述待识别手写图片进行特征抽取。7.根据权利要求6所述的基于Swin Transformer的手写文字识别系统,其特征在于,所述特征输入模块还包括:解码设定模块,用于基于transformer预先设定设定解码器;矩阵相乘模块,用于将所述当前图像特征输入至预设的设定解码器,并将所述当前图像特征与预...

【专利技术属性】
技术研发人员:曾祥云朱姬渊
申请(专利权)人:上海易康源医疗健康科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1