基于端到端网络的场景文本识别方法技术

技术编号：38751010 阅读：33 留言：0更新日期：2023-09-09 11:17

本发明专利技术公开了一种基于端到端网络的场景文本识别方法，包括以下步骤：S1：构建深度学习的端到端文本识别网络，端到端文本识别网络包括特征提取层、编码层和解码层；S2：特征提取层添加卷积块注意力模块，并采用基于卷积注意力的残差网络对文本图像进行特征提取；S3：编码层引入细粒度特征编码，采用长短期记忆网络对细粒度特征进行编码，获得上下文特征编码序列；S4：解码层引入自注意力机制，添加自注意力模块加强文本图像的全局特征，对文本特征进行增强与转录；S5：确定端到端文本识别网络的损失函数和网络结构参数，训练网络，将文本图像输入网络获得识别结果。提高了文本图像特征描述能力及噪声影响下的稳定性，文本识别获得了更高的准确率。更高的准确率。更高的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
基于端到端网络的场景文本识别方法

[0001]本专利技术涉及图像识别
，具体地说，尤其涉及一种提升噪声鲁棒性的场景文本识别方法。

技术介绍

[0002]场景文本识别的目的是从自然场景中的文本图像读取出长短不一的连续字符。一般来说，场景文本识别可以细分为文本检测和文本识别两个步骤。文本检测是识别自然图像中的任意文本区域，文本识别则是将包含一个或者多个单词的文本图像解码为对应内容的字符串。场景文本识别是一个计算机视觉研究的热门领域，在人机交互、自动驾驶、路标识别、工业自动化等领域都有广泛的应用。
[0003]由于自然场景中的文本背景多样和拍摄条件的限制，通常这些文本图像具有对比度低、模糊、低分辨率、光照不足等缺陷，传统的文本识别技术无法获得较好的识别效果。现有的基于深度学习方法引入了整个文本的全局信息，因此，当图像中出现模糊、遮挡和不完整的字符，这些方法的识别效果将会显著下降。除了文本图像的质量以外，待识别文本可能的字体类型以及字体大小也是场景文本识别模型需要解决的难题。对总体来说场景文本识别仍然是一项具有挑战性的任务。
专利本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于端到端网络的场景文本识别方法，其特征在于，包括以下步骤：S1：构建深度学习的端到端文本识别网络，端到端文本识别网络包括特征提取层、编码层和解码层；S2：特征提取层添加卷积块注意力模块，并采用基于卷积注意力的残差网络对文本图像进行特征提取；S3：编码层引入细粒度特征编码，采用长短期记忆网络对细粒度特征进行编码，获得上下文特征编码序列；S4：解码层引入自注意力机制，添加自注意力模块加强文本图像的全局特征，对文本特征进行增强与转录；S5：确定端到端文本识别网络的损失函数和网络结构参数，训练网络，将文本图像输入网络获得识别结果。2.根据权利要求1所述的基于端到端网络的场景文本识别方法，其特征在于，端到端文本识别网络直接将文本块作为输入，通过归一化图像，调整弯曲的文本；编码层包括两层双向长短期记忆网络，编码层将提取的特征划分为多个特征子集，采用长短期记忆网络对每个特征子集进行上下文编码；解码层包括自注意力模块和注意力解码器，自注意力模块增强编码层中长短期记忆网络输出的编码信息，注意力解码器对编码信息进行解码输出相应的字符序列。3.根据权利要求1所述的基于端到端网络的场景文本识别方法，其特征在于，卷积块注意力模块包含通道域注意力模块和空间注意力模块；通道域注意力模块包括平均池化层、最大池化层和含有隐藏层的多层感知器，通道域注意力模块结构输出满足以下公式：式中，σ为sigmoid激活函数，W0和W1为线性层，为平均池化层提取的特征，为最大池化层提取的特征；空间注意力模块包括平均池化层、最大池化层和卷积层，空间注意力模块结构输出满足以下公式：式中，7×7表示卷积核为7
×
7的卷积运算，AvgPool为平均池化，MaxPool为最大池化，为平均池化层提取的特征，为最大池化层提取的特征。4.根据权利要求1所述的基于端到端网络的场景文本识别方法，其特征在于，残差网络以固定尺寸文本图像作为输入，在通过两个卷积核为3
×
3的卷积运算后，再通过一个最大池化层，得到64个高和宽皆为原图一半的卷积特征图；在卷积层输出后，通过BN层和Relu激活层对特征图进行批次归一化和非线性激活处理；残差网络在每个Block卷积完成后，再通过一层通道域注意力网络和空间注意力网络；在不同Block之间，特征图的数量逐级递增，后一个Block的数量是前一个Block的两倍；Block的设计是将文本图像与预测的文本长度进行对齐，以便到解码层进行标签预测。5.根据权利要求4所述的基于端到端网络的场景文本识别方法，其特征在于，残差网络
的每个残差单元结构输出满足以下公式：o(x)＝x+y式中，x为残差单元的输入，由恒等映射得到；表示经过两层卷积层和卷积块注意力模块的输出；每个残差单元的输出计算公式为：y
l
＝M
s
(M
c
(F
l
)
×
F
l
)
×
M
c
(F
l
)
×
F
l
式中，为输入特征图，
il
为该卷积层对应的卷积权重，()代表Relu激活函数,代表输入特征图集合，
l
为偏置量，F
l
为中间变量，M
c
为通道域注意力函数，M
s
为空间注意力函数，
...

【专利技术属性】
技术研发人员：岳洪伟，樊亚妮，张辉，陈艳，邢凤闯，
申请(专利权)人：广东第二师范学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人