一种基于注意力机制的小目标检测方法技术

技术编号:39874961 阅读:6 留言:0更新日期:2023-12-30 12:59
本发明专利技术涉及目标检测领域,公开了一种基于注意力机制的小目标检测方法,包括如下步骤:步骤一,将待检测图像输入网络

【技术实现步骤摘要】
一种基于注意力机制的小目标检测方法


[0001]本专利技术涉及目标检测领域,特别涉及一种基于注意力机制的小目标检测方法


技术介绍

[0002]小目标检测技术在计算机视觉领域中具有广泛的应用前景

近年来,深度学习技术在该领域取得了显著进展

然而,尽管如此,传统的深度学习方法仍然存在一些问题

[0003]首先,这些方法通常采用单一级别的特征提取,这在小目标检测中可能难以充分捕捉到图像中的多尺度和多层次信息,特别是在存在目标尺寸变化和遮挡等复杂情况下,传统方法往往难以适应,可能导致目标的漏检或误检现象

单一级别的特征提取方法往往难以捕捉到目标在不同尺度下的细节特征和整体结构,限制了模型对复杂场景的适应能力

[0004]传统方法还采用固定的卷积核或池化操作来提取特征,难以有效地关注图像中的重要区域,可能导致对目标或关键特征的忽略

与传统方法相比,注意力机制能够根据图像内容自动调整特征权重,更有针对性地聚焦于目标,从而提高检测精度和鲁棒性,弥补了传统方法在小目标检测中的不足

此外,注意力机制还能够改善小目标检测的效率,减少冗余计算

[0005]虽然深度学习技术已经在小目标检测中取得了显著进展,但传统方法的单一级别特征提取和固定卷积核等限制仍然存在问题


技术实现思路

[0006]为解决上述技术问题,本专利技术提供了一种基于注意力机制的小目标检测方法,通过深度而全面的改进,解决小目标检测任务所面临的多重挑战,从而显著提高检测的精确性,以确保在各种复杂情境下均能提供出色的检测性能

[0007]为达到上述目的,本专利技术的技术方案如下:
[0008]一种基于注意力机制的小目标检测方法,包括如下步骤:
[0009]步骤一,将待检测图像输入网络
Darknet53
的主干网络进行特征提取,从图像中抽取包括形状

纹理和上下文信息在内的特征;
[0010]步骤二,将提取到的特征图输入到网络的
"neck"
部分,依次经过
CTB
模块和
AFH
模块,执行多尺度特征融合;
[0011]步骤三,将融合后的特征图输入到网络的
"head"
部分,生成目标检测结果的最终输出,包括目标检测框的生成

目标类别的分类以及目标置信度的估计

[0012]上述方案中,所述网络
Darknet53
包括输入层

卷积层

残差块和池化层;
[0013]所述输入层是整个网络的起点,负责接受输入数据,格式为
RGB
格式的彩色图像,这一层的任务是将原始图像数据调整为神经网络可以处理的格式;
[0014]所述卷积层包括卷积核

激活函数

批量归一化层,所述卷积核是一种小的窗口或滤波器,它们在输入数据上进行滑动,并对局部区域进行卷积运算,在卷积操作中,每个卷
积核将其与输入数据的一个小窗口区域逐元素相乘,然后将结果求和,生成输出特征图中的一个值,这一操作通过卷积核在输入数据上的滑动重复进行,最终形成整个输出特征图;
[0015]所述残差块包括主要分支和跳跃连接分支,主要分支包括多个卷积层

激活函数和批量归一化层;跳跃连接分支直接将输入数据或经过轻量级卷积操作后的输入与主要分支的输出相加;残差块的核心目标是允许梯度在深层网络中更有效地传播;
[0016]所述池化层用于降低特征图的分辨率,从而减小计算负担

[0017]上述方案中,步骤二中,特征图输入到
CTB
模块后,首先经过
CtxConvLayer
模块,计算过程如下:
[0018]首先,将该特征图命名为特征图
X
,通过
(W1,W2,W3)

X
转换为
Q

XW1,K

XW2,V

XW3之后,得到
K

Q
之间的局部相关性矩阵其中,
W1,W2,W3为嵌入矩阵,在空间中通过
1*1
的卷积核来实现;
[0019]接下来,注意力矩阵
T
通过对每个头部的通道维度上的
Softmax
操作对增强的空间感知局部关系矩阵
R^
进行归一化:
T

Softmax(R^)
;将
X
的每个空间位置的特征向量重塑为局部注意力矩阵,大小:
k
×
k
,最终输出特征图计算为每个
k
×
k
网格内所有值与学习到的局部注意力矩阵的聚合:增强的空间感知局部关系矩阵
R^
表示为:其中,
P
为每个
k
×
k
网格内的二维相对位置嵌入;
[0020]经过
CtxConvLayer
模块之后,特征图将进入
E

MHSA
模块,最终输出的特征图为
40*40*512
大小

[0021]上述方案中,步骤二中,特征图进入
AFH
模块后,在该模块中,首先对输入的形状进行调整,对于低层特征图
A
进行卷积操作,调整其大小与通道数;然后使用
view(b,c,

1)
将张量中的宽高和通道数压缩到一个维度得到
A1,其中,
b

batchsize

c
为通道数;对于高层特征
B
,首先转换维度,使用
permute(0,2,3,1)
将原本的维度顺序
0、1、2、3
修改为
0、2、3、1
,调整第二



四维的顺序,然后再使用
view(b,

1,c)
将张量中的宽高和通道数压缩到一个维度得到
B1;随后将
A1乘以
B1,再使用
softmax
函数进行处理,得到低层特征图
A
中的每个位置和高层特征
B
中对应位置的相关性
C
;然后调整
B1维度,使用
view(b,c,

1)
,得到
B2;使用
C

B2进行矩阵乘法得到
D
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于注意力机制的小目标检测方法,其特征在于,包括如下步骤:步骤一,将待检测图像输入网络
Darknet53
的主干网络进行特征提取,从图像中抽取包括形状

纹理和上下文信息在内的特征;步骤二,将提取到的特征图输入到网络的

neck

部分,依次经过
CTB
模块和
AFH
模块,执行多尺度特征融合;步骤三,将融合后的特征图输入到网络的

head

部分,生成目标检测结果的最终输出,包括目标检测框的生成

目标类别的分类以及目标置信度的估计
。2.
根据权利要求1所述的一种基于注意力机制的小目标检测方法,其特征在于,所述网络
Darknet53
包括输入层

卷积层

残差块和池化层;所述输入层是整个网络的起点,负责接受输入数据,格式为
RGB
格式的彩色图像,这一层的任务是将原始图像数据调整为神经网络可以处理的格式;所述卷积层包括卷积核

激活函数

批量归一化层,所述卷积核是一种小的窗口或滤波器,它们在输入数据上进行滑动,并对局部区域进行卷积运算,在卷积操作中,每个卷积核将其与输入数据的一个小窗口区域逐元素相乘,然后将结果求和,生成输出特征图中的一个值,这一操作通过卷积核在输入数据上的滑动重复进行,最终形成整个输出特征图;所述残差块包括主要分支和跳跃连接分支,主要分支包括多个卷积层

激活函数和批量归一化层;跳跃连接分支直接将输入数据或经过轻量级卷积操作后的输入与主要分支的输出相加;残差块的核心目标是允许梯度在深层网络中更有效地传播;所述池化层用于降低特征图的分辨率,从而减小计算负担
。3.
根据权利要求1所述的一种基于注意力机制的小目标检测方法,其特征在于,步骤二中,特征图输入到
CTB
模块后,首先经过
CtxConvLayer
模块,计算过程如下:首先,将该特征图命名为特征图
X
,通过
(W1,
W2,
W3)

X
转换为
Q

XW1,
K

XW2,
V

XW3之后,得到
K

Q
之间的局部相关性矩阵其中,
W1,
W2,
W3为嵌入矩阵,在空间中通过
1*1
的卷积核来实现;接下来,注意力矩阵
T
通过对每个头部的通道维度上的
Softmax
操作对增强的空间感知局部关系矩阵
R^
进行归一化:
T

Softmax(R^)
;将
X
的每个空间位置的特征向量重塑为局部注意力矩阵,大小:
k
×
k
,最终输出特征图计算为每个...

【专利技术属性】
技术研发人员:吴启航
申请(专利权)人:青岛本原微电子有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1