一种融合注意力机制的多尺度检测文本的方法及装置制造方法及图纸

技术编号:31166393 阅读:26 留言:0更新日期:2021-12-04 11:13
本发明专利技术提出了一种融合注意力机制的多尺度检测文本的方法及装置,所述方法以Resnet为主干网络,通过将嵌入注意力机制的特征金字塔(FPN)分支和改进的空洞空间金字塔池化(IASPP)分支并行增强特征提取融合;提取融合的特征放入改进的可微二值化模块进行后处理,最后生成精确的文本包围盒。本发明专利技术提供的融合注意力机制的多尺度检测文本的方法能够实现自然场景文本的检测,且在多方向和弯曲文本的检测上有着优异的表现。检测上有着优异的表现。检测上有着优异的表现。

【技术实现步骤摘要】
一种融合注意力机制的多尺度检测文本的方法及装置


[0001]本专利技术属于图像识别
,提出一种融合注意力机制的多尺度检测文本的方法及装置。

技术介绍

[0002]文本在日常生活中无处不在,其携带着丰富且精确的信息。自然场景文本检测技术可以广泛地应用到自动驾驶、网络安全、地理定位、智能交通等领域。中文是承载文化的重要工具,因此,研究自然场景中文文本检测有着重要意义。但自然场景图像背景复杂,且文本具有不同尺度和形状,包括水平、多方向和弯曲的文本,因此检测文本实例区域具有一定的挑战性。传统文本检测方法主要基于滑窗和强连通分支,其步骤繁多且鲁棒性和可靠性差。目前基于深度学习的场景文本检测方法大致分为基于回归,基于组件和基于分割三类。
[0003]大多数基于回归的算法是四边形边界框,这对于检测任意形状的文本并不准确。基于组件的方法首先定位单个部分或字符,再后处理将其组合成一个字符或单词。基于分割的方法是在像素级找到文本区域并推断分割图像中的候选文本框。大多数基于分割的算法后处理步骤复杂且无法解决彼此相邻的文本的覆盖问题。为了在文本检测领域,尤其是对复杂场景不规则文本的检测想取得更好的效果,仍需要在技术方面做更细致的改进和优化,因此本文提出一种融合注意力机制的多尺度检测自然场景文本的方法。

技术实现思路

[0004]本专利技术提出一种融合注意力机制的多尺度检测文本的方法,通过将嵌入注意力机制的特征金字塔(FPN)分支和改进的空洞空间金字塔池化(IASPP)分支并行进行特征提取融合;其中,FPN分支融合高分辨率的底层特征和高语义信息的高层特征达到预测效果;IASPP分支在提取特征时具有较大感受野并降低特征图分辨率损失;加入平衡注意力机制(BAM)提取有效文本特征,抑制低效特征通道;再者将提取融合的特征放入可微二值化模块简单后处理,最后生成精确的文本包围盒。
[0005]鉴于上述问题,本专利技术提供一种融合注意力机制的多尺度检测文本的方法及装置。
[0006]第一方面,本专利技术提供一种融合注意力机制的多尺度检测文本的方法,所述方法包括以下步骤:
[0007]步骤一:选取包含文本的自然场景图像数据集作为样本,所述文本包含多方向文本和弯曲文本;
[0008]步骤二:采用Resnet网络作为主干网络,同时将平衡注意力机制嵌入特征金字塔分支形成改进的特征金字塔网络;采用Resnet网络作为主干网络,优选采用Resnet18网络,将平衡注意力机制BAM引入Resnet网络中提升检测方法鲁棒性,采用改进的FPN特征金字塔增强有效文本特征的提取,融合高分辨率的底层特征和高语义信息的高层特征达到预测效
果;
[0009]同时改进空洞空间金字塔池化分支形成改进的空洞空间金字塔池化网络;通过改进空洞空间金字塔池化降低特征图的分辨率损失并扩大感受野更好地提取特征;
[0010]将样本中的图片输入改进的特征金字塔网络,并按照1/2、1/4、1/8、1/16、1/32的比例分别提取不同尺度的特征图,输出特征D*,同时将样本中的图片输入改改进的空洞空间金字塔池化网络,输出特征F*;
[0011]步骤三:将所述特征金字塔提取的特征D*与空洞空间金字塔池化提取的特征F*通过concat的方式融合,输出融合的特征FD*;
[0012]步骤四:利用所述融合的特征FD*预测出文本的概率图和阈值图,将概率图和阈值图结合得到近似二值图,自适应地预测输入图像中每个位置的阈值,区分前景和背景中的像素,二值图采用对数化的AC Loss损失函数,精确文本边缘定位,最后对二值图简单后处理得到文本区域包围盒。
[0013]进一步的,步骤一中,所述BAM注意力机制由ACAM平均池化通道注意力模块和MSAM最大池化空间注意力模块组成;嵌入轻量级BAM注意力机制,既考虑不同通道像素的重要性,又考虑同一通道不同位置像素的重要性。调整各个通道的权值,提取有用特征并抑制低效特征通道;两个模块采用并行结构避免误差累积和通道注意力与空间注意力之间的串扰,从而最大化注意机制的效用。
[0014]进一步优选的,所述的通道注意力模块是为输入特征图中更重要的通道分配更大的权重;H
×
W维的通道很可能包含一些异常极值。最大值池化会选择这些点并得到错误的注意力权值;因此,只使用平均池化去提取通道信息,然后使其通过两点式卷积层组成的多层感知机(MLP);所述的空间注意力会为输入特征图的水平部分生成权重,其目标是找到对最终高分辨率重建贡献最大的侧面区域并赋予它们更大权重。
[0015]进一步的,如图3所示,步骤二中所述IASPP由上方模块与下方模块组成;上方模块ASPP对主干网络输出的特征F分别以1、6、12和18不同采样率的空洞卷积并行采样,其中C表示级联;上方模块ASPP在下采样得到高语义信息的同时,由于分辨率的降低会丢失输入图像的细节特征信息。为了精确地从自然场景图像中分割出中文文本,需要低层特征图提供重要的边缘特征信息,所以,设计将上方模块ASPP的输出特征通过一个1
×
1大小的卷积层来降低通道数至需要的数值,然后进行4倍双线性插值上采样得到特征图F2;下方模块从主干网络中输出一张与特征图F分辨率一致的特征图F1,F1经过1
×
1大小的卷积层扩大通道数得到特征图F3,最后将F2与F3融合得到F*;上方模块使用ASPP结构提取不同尺度的空间信息,得到一个包含抽象化特征信息的输出,而下方模块输出一个包含丰富局部信息和边缘信息的低层特征以补充细节信息再与上方模块联合预测特征图。
[0016]进一步的,所述AC Loss损失函数公式如下:
[0017][0018]在上面的公式中,length表示边界曲线C的长度,Area表示包围文本曲线C内部面积,固定参数λ设置为1,Ω表示曲线内的图像区域,其中c1和c2分别代表前景和背景的像素平均值,v和u分别表示预测结果的掩码和groundtruth。
[0019]上述公式离散化为:
[0020][0021]其中length表示边界曲线C的长度,固定参数λ设置为1,Area表示包围文本曲线C内部面积,Ω表示曲线内的图像区域,c1和c2分别代表前景和背景的像素平均值,ε趋于0。v和u分别表示预测结果的掩码和groundtruth。
[0022]第二方面,本专利技术提供一种融合注意力机制的多尺度检测中文文本的装置,具体包括:
[0023]第一单元:用于提取融合高分辨率的底层特征和高语义信息的高层特征;
[0024]第二单元:用于扩大感受野并降低特征图分辨率损失;
[0025]第三单元:用于融合FPN和IASPP并行提取的特征;
[0026]第四单元:用于将融合的特征送入进改进的可微分二值化模块,预测文本概率图和阈值图后再将两者结合得到近似的二值图,自适应地预测图像中每个位置的阈值,区分前景和背景中的像素。最后对二值图简单后处理得到文本区域;
[0027]第三方面,本专利技术还另提供本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合注意力机制的多尺度检测文本的方法,其特征在于,包括如下步骤:步骤一:选取包含文本的自然场景图像数据集作为样本,所述文本包含多方向文本和弯曲文本;步骤二:采用Resnet网络作为主干网络,同时将平衡注意力机制嵌入特征金字塔分支形成改进的特征金字塔网络;采用Resnet网络作为主干网络,同时改进空洞空间金字塔池化分支形成改进的空洞空间金字塔池化网络;将样本中的图片输入改进的特征金字塔网络,并按照1/2、1/4、1/8、1/16、1/32的比例分别提取不同尺度的特征图,输出特征D*,同时将样本中的图片输入改进的空洞空间金字塔池化网络,输出特征F*;步骤三:将所述特征金字塔提取的特征D*与空洞空间金字塔池化提取的特征F*通过concat的方式融合,输出融合的特征FD*;步骤四:利用所述融合的特征FD*预测出文本的概率图和阈值图,将概率图和阈值图结合得到近似二值图,自适应地预测输入图像中每个位置的阈值,区分前景和背景中的像素,二值图采用对数化的AC Loss损失函数,精确文本边缘定位,最后对二值图简单后处理得到文本区域包围盒。2.如权利要求1所述的一种融合注意力机制的多尺度检测文本的方法,其特征在于,所述平衡注意力机制由平均池化通道注意力模块和最大池化空间注意力模块组成。3.如权利要求1所述的一种融合注意力机制的多尺度检测文本的方法,其特征在于,所述改进的空洞空间金字塔池化由上方模块与下方模块组成;上方模块用于提取不同尺度的空间信息,得到一个包含抽象化特征信息的输出,而下方模块输出一个包含丰富局部信息和边缘信息的低层特征以补充细节信息再与上方模块联合预测特征图。4.如权利要求3所述的一种融合注意力机制的多尺度检测文本的方法,其特征在于,所述上方模块对主干网络初步输出的特征F分别以1、6、12和18不同采样率的空洞卷积并行采样,上方模块在下采样得到高语义信息的同时,将上方模块ASPP的输...

【专利技术属性】
技术研发人员:贾颖程艳云
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1