基于注意力机制的语种敏感的多语种文本识别方法技术

技术编号:37981388 阅读:15 留言:0更新日期:2023-06-30 09:56
本发明专利技术公开了一种基于注意力机制的语种敏感的多语种文本识别方法,其步骤包括:首先收集带有标注的文本图片,建立文本识别数据集;接着构建基于注意力机制的语种敏感的多语种文本识别模型;然后运行基于注意力机制的语种敏感的多语种文本识别模型;最后计算每张文本图片对应的损失函数,训练基于注意力机制的语种敏感的多语种文本识别网络;最后利用训练好的网络对图片进行识别,得到识别结果。本发明专利技术无须为不同语种训练各自的识别网络,且能够对不同语种进行有针对性的识别,从而能实现在各个语种的文本图像上均衡的进行高精度识别,以提高识别率。以提高识别率。以提高识别率。

【技术实现步骤摘要】
基于注意力机制的语种敏感的多语种文本识别方法


[0001]本专利技术涉及涉及文字识别领域的相关问题,具体涉及一种基于注意力机制的语种敏感的多语种文本识别方法。

技术介绍

[0002]文本识别是指将文本图像转换为机器可读文本格式的流程。基于注意力机制的方法是文本识别中的一种常用方法。注意力机制通常和序列到序列的编码器

解码器框架结合在一起,通过注意力模块来帮助特征对齐。
[0003]目前的文本识别方法都是针对英文这一单一语种来设计的,但在识别多语种文本时,大多是把在英文文本识别中有效的方法直接应用到所有语种中。但由于不同语种具有不同特性,且其他语种的文本数据远少于英文,直接把在原有的方法应用到多语种文本识别上,会导致其他语种的文本识别效果很差。
[0004]由于文本图像的长度差异很大,有些文本图像只含一个字符,而有些文本图像含有十个甚至更多的字符,这种差异在多语种文本识别中体现的更为明显。传统的基于注意力的编码器更多关注了长文本之间的上下文依赖关系,而没有考虑到短文本的局部信息特征,从而导致短文本识别效果较差。本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于注意力机制的语种敏感的多语种文本识别方法,其特征在于,包括以下步骤:步骤1:收集统一剪裁并带有标签的多语种文本图片,从而建立多语种文本识别数据集X,将X对应的单词级标签集合记为gt_word,X对应的语种标注所构成的标签集合记为gt_lang;令多语种文本识别数据集X所覆盖的语种类别数为N
lang
;令gt_word中所有单词级标注所包含字符中,属于第i个语种的字符总数为步骤2:构建基于注意力机制的语种敏感的多语种文本识别模型,包括:基于ResNet的特征提取模块、基于双向长短期记忆网络的语种识别模块、基于注意力机制的长度敏感的编码模块、基于注意力机制的语种敏感的解码模块;所述特征提取模块,包含:n1个卷积块;其中,每个卷积块依次包含:1个最大池化层、1个卷积层、1个bn层和1个ReLU激活函数;令第2个至第n个卷积块的卷积层后连接一个残差结构;所述语种识别模块,包含:2个双向长短期记忆网络BiLSTM、1个带softmax激活函数的线性层和预测层;其中,线性层的输出数即为待识别的语种类别数N
lang
;所述编码模块,包含:一个线性前馈网络、一个长度敏感模块、一个位置前馈网络和另一个线性前馈网络;其中,所述长度敏感模块包含短文本前馈分支和长文本前馈分支;所述短文本前馈分支由一个LN层和两个连续的卷积层组成;所述长文本前馈分支由一个LN层和一个多头自注意力网络组成;所述位置前馈网络包含一个LN层和三个卷积层;所述解码模块,包含:n3个自注意力模块和N
lang
个语种敏感的线性层;步骤3:基于注意力机制的语种敏感的多语种文本识别模型的处理;步骤3.1:基于ResNet的特征提取模块的处理;将多语种文本识别数据集X中的一张文本图片x输入多语种文本识别模型中,经过特征提取模块的n1个卷积块的处理后,得到尺寸为的特征图F,其中,C为输出通道数;步骤3.2:基于双向长短期记忆网络的语种识别模块的处理;对特征图F求高度方向上的平均值,得到尺寸为W
cls
×
C的二维特征序列,其中,W
cls
为特征提取模块输出的宽度;将二维特征序列输入所述语种识别模块中,并依次经过2个连续的双向长短期记忆网络BiLSTM的处理后中,得到尺寸为W
cls
×
C的特征序列;将尺寸为W
cls
×
C的特征序列输入所述线性层中,并得到尺寸为W
cls
×
N
lang
的特征图,所述预测层对特征图在宽度上取平均值后再进行softmax激活,得到长度为N
lang
的语种预测概率分布p;并从语种预测概率分...

【专利技术属性】
技术研发人员:汪增福高铭
申请(专利权)人:中国科学院合肥物质科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1