基于双注意力机制和内容感知上采样的路边场景OCR方法技术

技术编号：37115578 阅读：23 留言：0更新日期：2023-04-01 05:11

本发明专利技术提供一种基于双注意力机制和内容感知上采样的路边场景OCR方法，包括：将包含路边场景的待检测图像进行预处理；采用基于双注意力机制和内容感知上采样的多任务卷积神经网络模型对预处理后的待检测图像进行文本检测；采用考虑中心损失的文本识别模型对文本检测结果进行文本识别，得到路边场景文字数据。本发明专利技术提升了行驶车辆的路况感知能力，适用于对复杂路边场景文字的识别，可显著降低误检率。率。率。

全部详细技术资料下载

【技术实现步骤摘要】
基于双注意力机制和内容感知上采样的路边场景OCR方法

[0001]本专利技术涉及自动驾驶与计算机视觉相结合的
，更具体地，涉及一种基于双注意力机制和内容感知上采样的路边场景OCR方法、系统、电子设备及存储介质。

技术介绍

[0002]随着人工智能的发展，计算机视觉在车辆行驶的复杂场景下的感知上得到了广泛的应用，其中对路况场景中文字检测是一种重要的感知内容。常见的OCR(optical character recognition，文字识别)方法包括：根据文本特性进行二值化分割，根据分割结果进行文字检测。由于行驶车辆所处场景复杂，导致获取路边场景文字文本图像在角度、大小方面存在大量差异，影响检测的因素较多，目前这些检测方法在复杂场景使用时具有一定的局限性，误检率高。

技术实现思路

[0003]本专利技术针对现有技术中存在的技术问题，提供一种基于双注意力机制和内容感知上采样的路边场景OCR方法、系统、电子设备及存储介质，有助于提升行驶车辆的路况感知能力，适用复杂路边场景文字的识别，可显著降低误检率。
[0004]根据本专利技术的第一方面，提供了一种基于双注意力机制和内容感知上采样的路边场景OCR方法，包括：
[0005]将包含路边场景的待检测图像进行预处理；
[0006]采用基于双注意力机制和内容感知上采样的多任务卷积神经网络模型对预处理后的待检测图像进行文本检测；
[0007]采用考虑中心损失的文本识别模型对文本检测结果进行文本识别，得到路边场景文字数据。
[...

【技术保护点】

【技术特征摘要】
1.一种基于双注意力机制和内容感知上采样的路边场景OCR方法，其特征在于，包括：将包含路边场景的待检测图像进行预处理；采用基于双注意力机制和内容感知上采样的多任务卷积神经网络模型对预处理后的待检测图像进行文本检测；采用考虑中心损失的文本识别模型对文本检测结果进行文本识别，得到路边场景文字数据。2.根据权利要求1所述的一种基于双注意力机制和内容感知上采样的路边场景OCR方法，其特征在于，所述将包含路边场景的待测图像进行预处理，包括：获取车辆路边检测数据，获得检测数据中包含路边场景文字的待检测图像；在待检测图像中提取路边场景文字图像并进行校正；对校正后的的路边场景文字图像进行亮度增强和/或色彩增强。3.根据权利要求2所述的一种基于双注意力机制和内容感知上采样的路边场景OCR方法，其特征在于，采用基于特征点匹配的方法提取待检测图像中的路边场景文字图像并进行校正。4.根据权利要求2或3所述的一种基于双注意力机制和内容感知上采样的路边场景OCR方法，其特征在于，通过MSRCR算法对图像进行亮度增强，通过ACE算法对图像进行色彩增强。5.根据权利要求2所述的一种基于双注意力机制和内容感知上采样的路边场景OCR方法，其特征在于，所述采用基于双注意力机制和内容感知上采样的多任务卷积神经网络模型对预处理后的待检测图像进行文本检测；包括：将待检测图像输入多任务卷积神经网络模型进行文本检测，得到提纯的特征图；其中，所述多任务卷积神经网络模型采用结合可变形卷积的ResNet残差网络，所述ResNet残差网络的每个残差块中包含通道注意力和空间注意力的双注意力模块；对提纯的特征图进行下采样、并采用具有内容感知的上采样算子进行上采样，对ResNet残差网络采样过程中生成的不同尺度的特征图进行融合，将融合后的文本特征图作为文本检测结果。6.根据权利要求5所述的一种基于双注意力机制和内容感知上采样的路边场景OCR方法，其特征在于，在结合可变形卷积的ResNet残差网络中对检测图像进行文本检测的过程，包括以下步骤：将待检测图像输入ResNet残差网络的可变形卷积单元，所述可变形卷积单元包括依次设置的标准卷积单元和尺度不变、通道数为2N的偏移域，其中，所述偏移域由标准卷积单元计算得到，代表卷积视野每层像素点在x轴和y轴的偏移量；在可变形卷积单元中，标准卷积核加上所述偏移量之后，卷积核的大小和位置根据输入特征图的内容进行自适应调整，获得特征图F；利用通道注意力模块对特征图F在空间维度上分别进行最大池化得到大小为1
×1×
C的细节特征向量、进行平均池化得到大小为1
×1×
C的背景特征向量；所述细节特征向量和背景特征向量共享一个多层感知机，将所述细节特征向量和背景特征向量逐像素相加并经过sigmoid激活层，得到大小为1
×1×
C的通道注意力M
c
，将通道注意力M
c
作为通道系数和特征图F相乘，得到通道提纯特征图F
′
；
利用空间注意力模块对通道提纯特征图F
’
在通道维度上分别进行最大池化得到大小为H
×
W
×
1的细节特征向量、进行平均池化得到大小为H
×
W
×
1的背景特征向量，将最大池化和平均池化得到的大小为H
×
W
×
1的细节特征向量和背景特征向量进行拼接后依次通过卷积层和sigmoid激活层，得到大小为H
×
W
×
1的空间注意...

【专利技术属性】
技术研发人员：石宏，谢红刚，肖进胜，侯凯元，肖胜华，
申请(专利权)人：武汉网华科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人