一种融合注意力机制的多尺度检测文本的方法及装置制造方法及图纸

技术编号：31166393 阅读：26 留言：0更新日期：2021-12-04 11:13

本发明专利技术提出了一种融合注意力机制的多尺度检测文本的方法及装置，所述方法以Resnet为主干网络，通过将嵌入注意力机制的特征金字塔(FPN)分支和改进的空洞空间金字塔池化(IASPP)分支并行增强特征提取融合；提取融合的特征放入改进的可微二值化模块进行后处理，最后生成精确的文本包围盒。本发明专利技术提供的融合注意力机制的多尺度检测文本的方法能够实现自然场景文本的检测，且在多方向和弯曲文本的检测上有着优异的表现。检测上有着优异的表现。检测上有着优异的表现。

全部详细技术资料下载

【技术实现步骤摘要】
一种融合注意力机制的多尺度检测文本的方法及装置

[0001]本专利技术属于图像识别
，提出一种融合注意力机制的多尺度检测文本的方法及装置。

技术介绍

[0002]文本在日常生活中无处不在，其携带着丰富且精确的信息。自然场景文本检测技术可以广泛地应用到自动驾驶、网络安全、地理定位、智能交通等领域。中文是承载文化的重要工具，因此，研究自然场景中文文本检测有着重要意义。但自然场景图像背景复杂，且文本具有不同尺度和形状，包括水平、多方向和弯曲的文本，因此检测文本实例区域具有一定的挑战性。传统文本检测方法主要基于滑窗和强连通分支，其步骤繁多且鲁棒性和可靠性差。目前基于深度学习的场景文本检测方法大致分为基于回归，基于组件和基于分割三类。
[0003]大多数基于回归的算法是四边形边界框，这对于检测任意形状的文本并不准确。基于组件的方法首先定位单个部分或字符，再后处理将其组合成一个字符或单词。基于分割的方法是在像素级找到文本区域并推断分割图像中的候选文本框。大多数基于分割的算法后处理步骤复杂且无法解决彼此相邻的文本的覆盖问题。为了在文本检测领域，尤其是对复杂场景不规则文本的检测想取得更好的效果，仍需要在技术方面做更细致的改进和优化，因此本文提出一种融合注意力机制的多尺度检测自然场景文本的方法。

技术实现思路

[0004]本专利技术提出一种融合注意力机制的多尺度检测文本的方法，通过将嵌入注意力机制的特征金字塔(FPN)分支和改进的空洞空间金字塔池化(IASPP)分支并行进行特征提取融合；其中，FPN分支融...

【技术保护点】

【技术特征摘要】
1.一种融合注意力机制的多尺度检测文本的方法，其特征在于，包括如下步骤：步骤一：选取包含文本的自然场景图像数据集作为样本，所述文本包含多方向文本和弯曲文本；步骤二：采用Resnet网络作为主干网络，同时将平衡注意力机制嵌入特征金字塔分支形成改进的特征金字塔网络；采用Resnet网络作为主干网络，同时改进空洞空间金字塔池化分支形成改进的空洞空间金字塔池化网络；将样本中的图片输入改进的特征金字塔网络，并按照1/2、1/4、1/8、1/16、1/32的比例分别提取不同尺度的特征图，输出特征D*，同时将样本中的图片输入改进的空洞空间金字塔池化网络，输出特征F*；步骤三：将所述特征金字塔提取的特征D*与空洞空间金字塔池化提取的特征F*通过concat的方式融合，输出融合的特征FD*；步骤四：利用所述融合的特征FD*预测出文本的概率图和阈值图，将概率图和阈值图结合得到近似二值图，自适应地预测输入图像中每个位置的阈值，区分前景和背景中的像素，二值图采用对数化的AC Loss损失函数，精确文本边缘定位，最后对二值图简单后处理得到文本区域包围盒。2.如权利要求1所述的一种融合注意力机制的多尺度检测文本的方法，其特征在于，所述平衡注意力机制由平均池化通道注意力模块和最大池化空间注意力模块组成。3.如权利要求1所述的一种融合注意力机制的多尺度检测文本的方法，其特征在于，所述改进的空洞空间金字塔池化由上方模块与下方模块组成；上方模块用于提取不同尺度的空间信息，得到一个包含抽象化特征信息的输出，而下方模块输出一个包含丰富局部信息和边缘信息的低层特征以补充细节信息再与上方模块联合预测特征图。4.如权利要求3所述的一种融合注意力机制的多尺度检测文本的方法，其特征在于，所述上方模块对主干网络初步输出的特征F分别以1、6、12和18不同采样率的空洞卷积并行采样，上方模块在下采样得到高语义信息的同时，将上方模块ASPP的输...

【专利技术属性】
技术研发人员：贾颖，程艳云，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人