基于双注意力机制和内容感知上采样的路边场景OCR方法技术

技术编号:37115578 阅读:14 留言:0更新日期:2023-04-01 05:11
本发明专利技术提供一种基于双注意力机制和内容感知上采样的路边场景OCR方法,包括:将包含路边场景的待检测图像进行预处理;采用基于双注意力机制和内容感知上采样的多任务卷积神经网络模型对预处理后的待检测图像进行文本检测;采用考虑中心损失的文本识别模型对文本检测结果进行文本识别,得到路边场景文字数据。本发明专利技术提升了行驶车辆的路况感知能力,适用于对复杂路边场景文字的识别,可显著降低误检率。率。率。

【技术实现步骤摘要】
基于双注意力机制和内容感知上采样的路边场景OCR方法


[0001]本专利技术涉及自动驾驶与计算机视觉相结合的
,更具体地,涉及一种基于双注意力机制和内容感知上采样的路边场景OCR方法、系统、电子设备及存储介质。

技术介绍

[0002]随着人工智能的发展,计算机视觉在车辆行驶的复杂场景下的感知上得到了广泛的应用,其中对路况场景中文字检测是一种重要的感知内容。常见的OCR(optical character recognition,文字识别)方法包括:根据文本特性进行二值化分割,根据分割结果进行文字检测。由于行驶车辆所处场景复杂,导致获取路边场景文字文本图像在角度、大小方面存在大量差异,影响检测的因素较多,目前这些检测方法在复杂场景使用时具有一定的局限性,误检率高。

技术实现思路

[0003]本专利技术针对现有技术中存在的技术问题,提供一种基于双注意力机制和内容感知上采样的路边场景OCR方法、系统、电子设备及存储介质,有助于提升行驶车辆的路况感知能力,适用复杂路边场景文字的识别,可显著降低误检率。
[0004]根据本专利技术的第一方面,提供了一种基于双注意力机制和内容感知上采样的路边场景OCR方法,包括:
[0005]将包含路边场景的待检测图像进行预处理;
[0006]采用基于双注意力机制和内容感知上采样的多任务卷积神经网络模型对预处理后的待检测图像进行文本检测;
[0007]采用考虑中心损失的文本识别模型对文本检测结果进行文本识别,得到路边场景文字数据。
[0008]在上述技术方案的基础上,本专利技术还可以作出如下改进。
[0009]可选的,所述将包含路边场景的待测图像进行预处理,包括:
[0010]获取车辆路边检测数据,获得检测数据中包含路边场景文字的待检测图像;
[0011]在待检测图像中提取路边场景文字图像并进行校正;
[0012]对校正后的的路边场景文字图像进行亮度增强和/或色彩增强。
[0013]可选的,采用基于特征点匹配的方法提取待检测图像中的路边场景文字图像并进行校正。
[0014]可选的,通过MSRCR算法对图像进行亮度增强,通过ACE算法对图像进行色彩增强。
[0015]可选的,所述采用基于双注意力机制和内容感知上采样的多任务卷积神经网络模型对预处理后的待检测图像进行文本检测;包括:
[0016]将待检测图像输入多任务卷积神经网络模型进行文本检测,得到提纯的特征图;其中,所述多任务卷积神经网络模型采用结合可变形卷积的ResNet残差网络,所述ResNet残差网络的每个残差块中包含通道注意力和空间注意力的双注意力模块;
[0017]对提纯的特征图进行下采样、并采用具有内容感知的上采样算子进行上采样,对ResNet残差网络采样过程中生成的不同尺度的特征图进行融合,将融合后的文本特征图作为文本检测结果。
[0018]可选的,在结合可变形卷积的ResNet残差网络中对检测图像进行文本检测的过程,包括以下步骤:
[0019]将待检测图像输入ResNet残差网络的可变形卷积单元,所述可变形卷积单元包括依次设置的标准卷积单元和尺度不变、通道数为2N的偏移域,其中,所述偏移域由标准卷积单元计算得到,代表卷积视野每层像素点在x轴和y轴的偏移量;在可变形卷积单元中,标准卷积核加上所述偏移量之后,卷积核的大小和位置根据输入特征图的内容进行自适应调整,获得特征图F;
[0020]利用通道注意力模块对特征图F在空间维度上分别进行最大池化得到大小为1
×1×
C的细节特征向量、进行平均池化得到大小为1
×1×
C的背景特征向量;所述细节特征向量和背景特征向量共享一个多层感知机,将所述细节特征向量和背景特征向量逐像素相加并经过sigmoid激活层,得到大小为1
×1×
C的通道注意力M
c
,将通道注意力M
c
作为通道系数和特征图F相乘,得到通道提纯特征图F


[0021]利用空间注意力模块对通道提纯特征图F

在通道维度上分别进行最大池化得到大小为H
×
W
×
1的细节特征向量、进行平均池化得到大小为H
×
W
×
1的背景特征向量,将最大池化和平均池化得到的大小为H
×
W
×
1的细节特征向量和背景特征向量进行拼接后依次通过卷积层和sigmoid激活层,得到大小为H
×
W
×
1的空间注意力M
s
,将空间注意力M
s
作为空间系数与通道提纯特征图F

逐像素相乘,得到更新后的提纯特征图F


[0022]对提纯特征图F

进行多次下采样后,使用具有内容感知的上采样算子对提纯特征图F

进行上采样,将下采样以及上采样过程中得到的不同尺度的提纯特征图F

进行融合,输出文本检测得到的文本框。
[0023]可选的,所述采用考虑中心损失的文本识别模型对文本检测结果进行文本识别,得到路边场景文字数据,包括:
[0024]将文本检测结果输入文本识别模型的关联序列分类层,获得文本转录标签;
[0025]将文本转录标签输入基于卷积循环神经网络的文本识别模型中的时序分类层,以输出文本识别结果,根据文本识别结果读取路边场景文字数据;其中,所述卷积循环神经网络模型的损失模块中加入了中心损失函数。
[0026]可选的,在所述卷积循环神经网络模型的损失模块中加入中心损失函数,包括:
[0027]假设所述卷积循环神经网络模型中全连接分类层的分类损失L
s
如式(1)所示:
[0028][0029]其中,x
i
为输入特征向量,x
i
∈R
d
;W为网络矩阵参数,W∈R
d
,R
d
为网络参数集合,j为网络矩阵W的行序号,n为网络矩阵W的行维度;y
i
为预测类别,i为预测类别的序号,m为预测类别的数量;T表示对此矩阵进行转置操作;
[0030]中心损失L
c
通过式(2)计算:
[0031][0032]其中,C
yi
表示y
i
类别特征分布的中心,x
i
表示输入进全连接分类层的特征,m表示预测类别的数量;
[0033]在模型训练过程中,根据训练过程的反向传播,通过式(3)和式(4)分别对中心损失L
c
和特征分布中心C
yi
进行更新:
[0034][0035][0036]其中,δ(y
i
=k)表示当预测类别为k时,δ(y
i
=k本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于双注意力机制和内容感知上采样的路边场景OCR方法,其特征在于,包括:将包含路边场景的待检测图像进行预处理;采用基于双注意力机制和内容感知上采样的多任务卷积神经网络模型对预处理后的待检测图像进行文本检测;采用考虑中心损失的文本识别模型对文本检测结果进行文本识别,得到路边场景文字数据。2.根据权利要求1所述的一种基于双注意力机制和内容感知上采样的路边场景OCR方法,其特征在于,所述将包含路边场景的待测图像进行预处理,包括:获取车辆路边检测数据,获得检测数据中包含路边场景文字的待检测图像;在待检测图像中提取路边场景文字图像并进行校正;对校正后的的路边场景文字图像进行亮度增强和/或色彩增强。3.根据权利要求2所述的一种基于双注意力机制和内容感知上采样的路边场景OCR方法,其特征在于,采用基于特征点匹配的方法提取待检测图像中的路边场景文字图像并进行校正。4.根据权利要求2或3所述的一种基于双注意力机制和内容感知上采样的路边场景OCR方法,其特征在于,通过MSRCR算法对图像进行亮度增强,通过ACE算法对图像进行色彩增强。5.根据权利要求2所述的一种基于双注意力机制和内容感知上采样的路边场景OCR方法,其特征在于,所述采用基于双注意力机制和内容感知上采样的多任务卷积神经网络模型对预处理后的待检测图像进行文本检测;包括:将待检测图像输入多任务卷积神经网络模型进行文本检测,得到提纯的特征图;其中,所述多任务卷积神经网络模型采用结合可变形卷积的ResNet残差网络,所述ResNet残差网络的每个残差块中包含通道注意力和空间注意力的双注意力模块;对提纯的特征图进行下采样、并采用具有内容感知的上采样算子进行上采样,对ResNet残差网络采样过程中生成的不同尺度的特征图进行融合,将融合后的文本特征图作为文本检测结果。6.根据权利要求5所述的一种基于双注意力机制和内容感知上采样的路边场景OCR方法,其特征在于,在结合可变形卷积的ResNet残差网络中对检测图像进行文本检测的过程,包括以下步骤:将待检测图像输入ResNet残差网络的可变形卷积单元,所述可变形卷积单元包括依次设置的标准卷积单元和尺度不变、通道数为2N的偏移域,其中,所述偏移域由标准卷积单元计算得到,代表卷积视野每层像素点在x轴和y轴的偏移量;在可变形卷积单元中,标准卷积核加上所述偏移量之后,卷积核的大小和位置根据输入特征图的内容进行自适应调整,获得特征图F;利用通道注意力模块对特征图F在空间维度上分别进行最大池化得到大小为1
×1×
C的细节特征向量、进行平均池化得到大小为1
×1×
C的背景特征向量;所述细节特征向量和背景特征向量共享一个多层感知机,将所述细节特征向量和背景特征向量逐像素相加并经过sigmoid激活层,得到大小为1
×1×
C的通道注意力M
c
,将通道注意力M
c
作为通道系数和特征图F相乘,得到通道提纯特征图F


利用空间注意力模块对通道提纯特征图F

在通道维度上分别进行最大池化得到大小为H
×
W
×
1的细节特征向量、进行平均池化得到大小为H
×
W
×
1的背景特征向量,将最大池化和平均池化得到的大小为H
×
W
×
1的细节特征向量和背景特征向量进行拼接后依次通过卷积层和sigmoid激活层,得到大小为H
×
W
×
1的空间注意...

【专利技术属性】
技术研发人员:石宏谢红刚肖进胜侯凯元肖胜华
申请(专利权)人:武汉网华科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1