本发明专利技术提供了一种空间自注意力机制及目标检测方法,对特征图F进行自适应平均池化得到特征图F′;对特征图F′进行两次降维映射,得到f(F′)与g(F′)并按行展开,得到矩阵M和矩阵N;将矩阵M和矩阵N进行相乘,得到矩阵Z;对矩阵Z通过行卷积得到特征图Y;再使用sigmoid激活并进行拓展,得到特征图Q;对特征图Q进行反自适应平均池化,得到最终空间每个像素的权重,将所述权重与特征图F进行点乘,以获得最终特征图R作为下一个卷积层的输入。本发明专利技术基于空间自注意力机制,能够更好地提高目标检测方法的精度,本发明专利技术简单高效,且计算量较低,可应用到任意卷积网络的前向过程中,为特征图提供全局信息指导,提高卷积网络的表达能力。
Spatial self attention mechanism and target detection method
【技术实现步骤摘要】
空间自注意力机制及目标检测方法
本专利技术涉及一种空间自注意力机制及目标检测方法,属于计算机视觉领域。
技术介绍
目标检测是计算机视觉任务中最基础,同时也是最具有挑战性的任务。它旨在对图像中的目标进行定位与分类。近年来,随着深度学习技术的迅猛发展,目标检测的技术的效果得到了很大的提高。基于深度学习的目标检测技术主要分为三个步骤:首先,采用卷积网络对目标提取特征;随着卷积网络深度的加深,网络表征能力越强,但同时小目标与位置信息损失越大。然后,采用不同大小比率的滑动窗口对整幅图像进行遍历;一方面,尽管滑窗能够遍历整幅图像,但仍不能保证特殊形状的存在不会影响最终检测效果;另一方面,滑窗遍历整幅图像导致计算量增加以及正负样本的不平衡,影响检测效果。最后,对所提取的特征进行分类并使包围框回归,同时对预测出来的结果进行非极大值抑制操作,以得到最终结果。近年来,通过注意力机制来增强网络的表征能力的方法层出不穷。SENet提出了基于通道间的注意力机制,通过两个全连接层计算通道间的重要程度,再对原特征图进行加权求值。CBAM将基于通道间的注意力机制与基于空间中的注意力机制进行融合,使用最大池化与平均池化对特征图进行压缩,再使用1*1卷积得到每个通道的重要程度,最后对原特征图进行加权求值。这些注意力机制只考虑了特征图中的一阶池化作用,没有考虑全局信息对该位置影响。所以在确定该位置重要程度时,需要添加全局信息的指导,以使得目标检测的精确度提高。专利CN201910738932.9公开了一种基于自注意力机制的多尺度空间自注意力机制及目标检测方法,其中所涉及到的空间注意力模块只是对特征图进行降维压缩,没有考虑到其他像素点对该像素点的位置影响程度,即丢失了全局信息的指导。有鉴于此,确有必要提出一种空间自注意力机制及目标检测方法,以解决上述问题。
技术实现思路
本专利技术的目的在于提供一种空间自注意力机制及目标检测方法,更好地提高网络检测的精度,提高卷积网络的表达能力。为实现上述目的,本专利技术提供了一种空间自注意力机制,主要包括以下步骤:步骤1、对特征图F∈RC×H×W进行自适应平均池化得到特征图F′;步骤2、对特征图F′进行两次降维映射,得到f(F′)与g(F′),将f(F′)与g(F′)按行展开,得到矩阵M和矩阵N;步骤3、将矩阵M和矩阵N进行相乘,得到矩阵Z=MT×N;步骤4、对矩阵Z通过行卷积得到特征图Y;步骤5、对特征图Y使用sigmoid激活并进行拓展,得到特征图Q;步骤6、对特征图Q进行反自适应平均池化,得到最终空间每个像素的权重,将所述权重与特征图F进行点乘,以获得最终特征图R;步骤7、将最终特征图R作为下一个卷积层的输入。可选的,步骤1中,特征图F′=AdaptiveAvgPool2d(F),此时F′的大小为C×H′×W′。可选的,步骤2中,所述矩阵M=reshape(f(F′)),N=reshape(g(F′)),且M,N的大小为C′×H′W′。可选的,步骤3中,所述矩阵Z的大小为H′W′×H′W′,其中,矩阵Z的第i行第j列元素表示j像素对i像素的影响程度。可选的,步骤4中,特征图Y的大小为H′W′×1。可选的,步骤5中,特征图Q的大小为H′×W′。为实现上述目的,本专利技术还提供了一种目标检测方法,应用上述的空间自注意力机制,主要包括以下步骤:步骤S1、获取原始数据集,搭建基础网络框架,以提取图像的卷积特征;步骤S2、构造目标检测模型,并将基础网络框架的上采样层与下采样层进行特征融合,应用空间自注意力机制,作为下一个卷积层的输入;步骤S3、将训练后的原始数据集作为基础网络框架的输入,采用Adam优化器对目标检测模型进行训练优化,以得到最终的目标检测模型。可选的,所述步骤S1具体包括以下步骤:步骤S11、获取原始数据集,将原始数据集通过数据增强进行扩充;步骤S12、选取Hourglass-54作为基础网络框架,用于提取图像的卷积特征。可选的,所述步骤S12具体包括:步骤S121、缩放原始数据集,作为基础网络框架的输入;步骤S122、基础网络框架包含六层下采样层与五层上采样层,将对应的上采样层与下采样层进行特征融合之后,应用空间自注意力机制,作为下一个卷积层的输入;步骤S123、在基础网络框架的最后一层添加检测层,所述检测层采用CenterNet检测层模块。可选的,所述步骤S3具体包括以下步骤:步骤S31、初始化基础网络框架参数,对其余层采用随机初始化;步骤S32、将训练后的原始数据集作为基础网络框架的输入,采用Adam优化器对目标检测模型进行训练优化,并不断更新基础网络框架中的参数。本专利技术的有益效果是:本专利技术基于空间自注意力机制,能够更好地提高网络检测的精度,本专利技术简单高效,且计算量较低,可应用到任意卷积网络的前向过程中,为特征图提供全局信息指导,提高卷积网络的表达能力。附图说明图1是本专利技术空间自注意力机制的步骤流程图。具体实施方式为了使本专利技术的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本专利技术进行详细描述。如图1所示,本专利技术揭示了一种空间自注意力机制,主要包括以下步骤:步骤1、对特征图F∈RC×H×W进行自适应平均池化得到特征图F′;步骤2、对特征图F′进行两次降维映射,得到f(F′)与g(F′),将f(F′)与g(F′)按行展开,得到矩阵M和矩阵N;步骤3、将矩阵M和矩阵N进行相乘,得到矩阵Z=MT×N;步骤4、对矩阵Z通过行卷积得到特征图Y;步骤5、对特征图Y使用sigmoid激活并进行拓展,得到特征图Q;步骤6、对特征图Q进行反自适应平均池化,得到最终空间每个像素的权重,将所述权重与特征图F进行点乘,以获得最终特征图R;步骤7、将最终特征图R作为下一个卷积层的输入。以下将对步骤1-步骤7进行详细说明。步骤1中,特征图F′=AdaptiveAvgPool2d(F),此时F′的大小为C×H′×W′。步骤2中,对特征图F′进行两次降维映射至128维,得到f(F′)与g(F′),此时f(F′)与g(F′)的大小为128×H′×W′,再将f(F′)与g(F′)按行展开,得到128×H′W′大小的矩阵M和矩阵N,其中,M=reshape(f(F′)),N=reshape(g(F′)),且M,N的大小为C′×H′W′。步骤3中,将矩阵M和矩阵N进行相乘,得到H′W′×H′W′大小的矩阵Z=MT×N,其中,矩阵Z的第i行第j列元素表示j像素对i像素的影响程度,矩阵Z的第i行的元素表示特征图上所有像素对i像素的影响。步骤4中,特征图Y的大小为H′W′×1,特征图中的元素表示其在全局信息之中的重要性。步骤5中,特征图Q的大小为H′×W′。步骤7中,最本文档来自技高网...
【技术保护点】
1.一种空间自注意力机制,其特征在于,主要包括以下步骤:/n步骤1、对特征图F∈R
【技术特征摘要】
1.一种空间自注意力机制,其特征在于,主要包括以下步骤:
步骤1、对特征图F∈RC×H×W进行自适应平均池化得到特征图F′;
步骤2、对特征图F′进行两次降维映射,得到f(F′)与g(F′),将f(F′)与g(F′)按行展开,得到矩阵M和矩阵N;
步骤3、将矩阵M和矩阵N进行相乘,得到矩阵Z=MT×N;
步骤4、对矩阵Z通过行卷积得到特征图Y;
步骤5、对特征图Y使用sigmoid激活并进行拓展,得到特征图Q;
步骤6、对特征图Q进行反自适应平均池化,得到最终空间每个像素的权重,将所述权重与特征图F进行点乘,以获得最终特征图R;
步骤7、将最终特征图R作为下一个卷积层的输入。
2.根据权利要求1所述的空间自注意力机制,其特征在于:步骤1中,特征图F′=AdaptiveAvgPool2d(F),此时F′的大小为C×H′×W′。
3.根据权利要求1所述的空间自注意力机制,其特征在于:步骤2中,所述矩阵M=reshape(f(F′)),N=reshape(g(F′)),且M,N的大小为C′×H′W′。
4.根据权利要求1所述的空间自注意力机制,其特征在于:步骤3中,所述矩阵Z的大小为H′W′×H′W′,其中,矩阵Z的第i行第j列元素表示j像素对i像素的影响程度。
5.根据权利要求1所述的空间自注意力机制,其特征在于:步骤4中,特征图Y的大小为H′W′×1。
6.根据权利要求1所述的空间自注意力机制,其特征在于:步骤5中,特征图Q的大小为H′×W′。
...
【专利技术属性】
技术研发人员:张伶俐,陈可佳,周晓萌,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。