基于端到端网络的场景文本识别方法技术

技术编号:38751010 阅读:16 留言:0更新日期:2023-09-09 11:17
本发明专利技术公开了一种基于端到端网络的场景文本识别方法,包括以下步骤:S1:构建深度学习的端到端文本识别网络,端到端文本识别网络包括特征提取层、编码层和解码层;S2:特征提取层添加卷积块注意力模块,并采用基于卷积注意力的残差网络对文本图像进行特征提取;S3:编码层引入细粒度特征编码,采用长短期记忆网络对细粒度特征进行编码,获得上下文特征编码序列;S4:解码层引入自注意力机制,添加自注意力模块加强文本图像的全局特征,对文本特征进行增强与转录;S5:确定端到端文本识别网络的损失函数和网络结构参数,训练网络,将文本图像输入网络获得识别结果。提高了文本图像特征描述能力及噪声影响下的稳定性,文本识别获得了更高的准确率。更高的准确率。更高的准确率。

【技术实现步骤摘要】
基于端到端网络的场景文本识别方法


[0001]本专利技术涉及图像识别
,具体地说,尤其涉及一种提升噪声鲁棒性的场景文本识别方法。

技术介绍

[0002]场景文本识别的目的是从自然场景中的文本图像读取出长短不一的连续字符。一般来说,场景文本识别可以细分为文本检测和文本识别两个步骤。文本检测是识别自然图像中的任意文本区域,文本识别则是将包含一个或者多个单词的文本图像解码为对应内容的字符串。场景文本识别是一个计算机视觉研究的热门领域,在人机交互、自动驾驶、路标识别、工业自动化等领域都有广泛的应用。
[0003]由于自然场景中的文本背景多样和拍摄条件的限制,通常这些文本图像具有对比度低、模糊、低分辨率、光照不足等缺陷,传统的文本识别技术无法获得较好的识别效果。现有的基于深度学习方法引入了整个文本的全局信息,因此,当图像中出现模糊、遮挡和不完整的字符,这些方法的识别效果将会显著下降。除了文本图像的质量以外,待识别文本可能的字体类型以及字体大小也是场景文本识别模型需要解决的难题。对总体来说场景文本识别仍然是一项具有挑战性的任务。

技术实现思路

[0004]本专利技术的目的在于解决现有文本识别网络对复杂和低质量的图像表现不佳的问题,提供一种基于端到端网络的场景文本识别方法,提高了对文本图像特征描述能力以及在噪声影响下的稳定性,在文本识别上获得了更高的准确率。
[0005]为了实现上述目的,本专利技术所采用的技术方案如下:
[0006]一种基于端到端网络的场景文本识别方法,包括以下步骤:
[0007]S1:构建深度学习的端到端文本识别网络,端到端文本识别网络包括特征提取层、编码层和解码层;
[0008]S2:特征提取层添加卷积块注意力模块,并采用基于卷积注意力的残差网络对文本图像进行特征提取;
[0009]S3:编码层引入细粒度特征编码,采用长短期记忆网络对细粒度特征进行编码,获得上下文特征编码序列;
[0010]S4:解码层引入自注意力机制,添加自注意力模块加强文本图像的全局特征,对文本特征进行增强与转录;
[0011]S5:确定端到端文本识别网络的损失函数和网络结构参数,训练网络,将文本图像输入网络获得识别结果。
[0012]优选地,端到端文本识别网络直接将文本块作为输入,通过归一化图像,调整弯曲的文本;
[0013]编码层包括两层双向长短期记忆网络,编码层将提取的特征划分为多个特征子
集,采用长短期记忆网络对每个特征子集进行上下文编码;
[0014]解码层包括自注意力模块和注意力解码器,自注意力模块增强编码层中长短期记忆网络输出的编码信息,注意力解码器对编码信息进行解码输出相应的字符序列。
[0015]优选地,卷积块注意力模块包含通道域注意力模块和空间注意力模块;
[0016]通道域注意力模块包括平均池化层、最大池化层和含有隐藏层的多层感知器,通道域注意力模块结构输出满足以下公式:
[0017][0018]式中,σ为sigmoid激活函数,W0和W1为线性层,为平均池化层提取的特征,为最大池化层提取的特征;
[0019]空间注意力模块包括平均池化层、最大池化层和卷积层,空间注意力模块结构输出满足以下公式:
[0020][0021]式中,f7×7表示卷积核为7
×
7的卷积运算,AvgPool为平均池化,MaxPool为最大池化,为平均池化层提取的特征,为最大池化层提取的特征。
[0022]优选地,残差网络以固定尺寸文本图像作为输入,在通过两个卷积核为3
×
3的卷积运算后,再通过一个最大池化层,得到64个高和宽皆为原图一半的卷积特征图;在卷积层输出后,通过BN层和Relu激活层对特征图进行批次归一化和非线性激活处理;
[0023]残差网络在每个Block卷积完成后,再通过一层通道域注意力网络和空间注意力网络;在不同Block之间,特征图的数量逐级递增,后一个Block的数量是前一个Block的两倍;Block的设计是将文本图像与预测的文本长度进行对齐,以便到解码层进行标签预测。
[0024]优选地,残差网络的每个残差单元结构输出满足以下公式:
[0025]o(x)=x+y
[0026]式中,x为残差单元的输入,x由恒等映射得到;y表示经过两层卷积层和卷积块注意力模块的输出;
[0027]每个残差单元的输出计算公式为:
[0028][0029]y
l
=M
s
(M
c
(F
l
)
×
F
l
)
×
M
c
(F
l
)
×
F
l
[0030]式中,为输入特征图,W
il
为该卷积层对应的卷积权重,f()代表Relu激活函数,M代表输入特征图集合,b
l
为偏置量,F
l
为中间变量,M
c
为通道域注意力函数,M
s
为空间注意力函数,y
l
为每个残差单元的输出。
[0031]优选地,编码层采用两层双向长短期记忆网络对细粒度特征进行编码处理,细粒度特征编码将文本特征按照预测文本的长度划分为K个相邻的子集,对每个子集进行编码;为对子集归一化编码,子集的编码模块共享权重,将K个编码特征连接起来形成一个单独的编码特征;
[0032]为获取上下文特征编码的全局信息,在两个方向上都采用长短期记忆网络,即双向长短期记忆网络,长短期记忆网络包括遗忘门、输入门和输出门,输入门和遗忘门用于更新细胞状态,输出门负责控制输出状态。
[0033]优选地,对文本特征的进行增强与转录,包括:
[0034]采用一维自注意力增强局部特征,通过全连接层计算注意力图,将特征层与注意力图相乘得到注意力特征;
[0035]采用注意力转录网络进行转录,转录的译文的计算公式为:
[0036]S
t
=LSTM(S
t
‑1,[c
t
;y
t
])
[0037]式中,y
t
为t时刻的标签值,c
t
为t时刻的语义向量,LSTM为长短期记忆网络,S
t
‑1为t

1时刻转录的译文,S
t
为t时刻转录的译文;
[0038]c
t
的计算公式为:
[0039][0040]式中,h
j
为Attn转录网络的第j个输入,α
tj
为t时刻第j个输入的注意力权重,n为Attn转录网络输入的总个数;
[0041]α
tj
的计算公式为:
[0042][0043]式中,e
t,j
表示第j个输入与当本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于端到端网络的场景文本识别方法,其特征在于,包括以下步骤:S1:构建深度学习的端到端文本识别网络,端到端文本识别网络包括特征提取层、编码层和解码层;S2:特征提取层添加卷积块注意力模块,并采用基于卷积注意力的残差网络对文本图像进行特征提取;S3:编码层引入细粒度特征编码,采用长短期记忆网络对细粒度特征进行编码,获得上下文特征编码序列;S4:解码层引入自注意力机制,添加自注意力模块加强文本图像的全局特征,对文本特征进行增强与转录;S5:确定端到端文本识别网络的损失函数和网络结构参数,训练网络,将文本图像输入网络获得识别结果。2.根据权利要求1所述的基于端到端网络的场景文本识别方法,其特征在于,端到端文本识别网络直接将文本块作为输入,通过归一化图像,调整弯曲的文本;编码层包括两层双向长短期记忆网络,编码层将提取的特征划分为多个特征子集,采用长短期记忆网络对每个特征子集进行上下文编码;解码层包括自注意力模块和注意力解码器,自注意力模块增强编码层中长短期记忆网络输出的编码信息,注意力解码器对编码信息进行解码输出相应的字符序列。3.根据权利要求1所述的基于端到端网络的场景文本识别方法,其特征在于,卷积块注意力模块包含通道域注意力模块和空间注意力模块;通道域注意力模块包括平均池化层、最大池化层和含有隐藏层的多层感知器,通道域注意力模块结构输出满足以下公式:式中,σ为sigmoid激活函数,W0和W1为线性层,为平均池化层提取的特征,为最大池化层提取的特征;空间注意力模块包括平均池化层、最大池化层和卷积层,空间注意力模块结构输出满足以下公式:式中,7×7表示卷积核为7
×
7的卷积运算,AvgPool为平均池化,MaxPool为最大池化,为平均池化层提取的特征,为最大池化层提取的特征。4.根据权利要求1所述的基于端到端网络的场景文本识别方法,其特征在于,残差网络以固定尺寸文本图像作为输入,在通过两个卷积核为3
×
3的卷积运算后,再通过一个最大池化层,得到64个高和宽皆为原图一半的卷积特征图;在卷积层输出后,通过BN层和Relu激活层对特征图进行批次归一化和非线性激活处理;残差网络在每个Block卷积完成后,再通过一层通道域注意力网络和空间注意力网络;在不同Block之间,特征图的数量逐级递增,后一个Block的数量是前一个Block的两倍;Block的设计是将文本图像与预测的文本长度进行对齐,以便到解码层进行标签预测。5.根据权利要求4所述的基于端到端网络的场景文本识别方法,其特征在于,残差网络
的每个残差单元结构输出满足以下公式:o(x)=x+y式中,x为残差单元的输入,由恒等映射得到;表示经过两层卷积层和卷积块注意力模块的输出;每个残差单元的输出计算公式为:y
l
=M
s
(M
c
(F
l
)
×
F
l
)
×
M
c
(F
l
)
×
F
l
式中,为输入特征图,
il
为该卷积层对应的卷积权重,()代表Relu激活函数,代表输入特征图集合,
l
为偏置量,F
l
为中间变量,M
c
为通道域注意力函数,M
s
为空间注意力函数,
...

【专利技术属性】
技术研发人员:岳洪伟樊亚妮张辉陈艳邢凤闯
申请(专利权)人:广东第二师范学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1