一种基于注意力机制的多尺度目标检测方法技术

技术编号:34952296 阅读:18 留言:0更新日期:2022-09-17 12:29
本发明专利技术公开一种基于注意力机制的多尺度目标检测方法,包括步骤1,获取图像数据集;步骤2,对图像数据集进行预处理,并划分训练集、测试集、验证集;步骤3,建立基于注意力机制的多尺度目标检测的目标检测模型,所述目标检测模型包括CSPdarknet53主干网络、SPP池化模块、RP

【技术实现步骤摘要】
一种基于注意力机制的多尺度目标检测方法


[0001]本专利技术属于目标检测
,特别是涉及一种基于注意力机制的多尺度目标检测方法。

技术介绍

[0002]目标检测负责识别和定位数字图像中的单个或多个目标,是计算机视觉领域的重要研究任务之一,也是许多其他任务(例如目标跟踪、实例分割、图像描述生成等)的重要环节。在过去的二十年内,目标检测的发展历程分为两个时期:传统的目标检测时期以及基于深度学习的目标检测时期。传统的目标检测方法采用滑动窗口技术筛选目标区域,通过人工设计的算法提取图像特征,最后利用分类器判定目标类别。随着深度学习技术的不断发展,基于卷积神经网络的目标检测技术逐渐替代了传统的目标检测算法,在精确度和速度方面都取得了明显提升。
[0003]YOLOv3目标检测模型对于较小的目标、目标分布密集、复杂的背景结构的遥感影像的检测不能满足现有的需求。原始YOLOv4目标检测已经不能有效的以及快速的识别具体物体,不能满足高精确度以及快速的响应时间。现在需要更快速以及精确度更高的目标检测模型来满足物体检测需求。

技术实现思路

[0004]本专利技术针对现有技术的不足,提供一种基于注意力机制的多尺度目标检测方法,对原始YOLOv4网络进行修改,使用CoordAttention注意力机制,有利于主干网络获取图像特征的空间位置信息,对更感兴趣的对象进行特征提取,提高模型对空间特征提取能力。PyConv多尺度卷积能够提高图像特征融合能力,扩大卷积核的感受野,使模型能够处理多尺度的目标,因为卷积核和卷积深度的灵活性,能够灵活处理不同大小的目标物体,对于输入的特征图在不同尺度核上处理时,不会提升计算成本以及模型的参数量。使用Reslayer结构,解决深层网络容易产生梯度消失以及学习退化的问题,增强模型对特征图特征信息的提取能力。
[0005]为了达到上述目的,本专利技术提供的技术方案是,一种基于注意力机制的多尺度目标检测方法,包括如下步骤:
[0006]步骤1,获取图像数据集;
[0007]步骤2,对图像数据集进行预处理,并划分训练集、测试集、验证集;
[0008]步骤3,建立基于注意力机制的多尺度目标检测的目标检测模型,所述目标检测模型包括CSPdarknet53主干网络、SPP池化模块、RP

PANet特征融合模块、检测头部几个部分,其中,在CSPdarknet53主干网络中添加Coordinate Attention注意力机制,有效的提高对于特征图的提取;
[0009]步骤4,训练目标检测模型;
[0010]步骤5,基于训练好的目标检测模型进行目标检测,将待识别数据集图像输入到训
练好的目标检测模型中,模型对图像进行分类、输出物体的名称以及识别的置信度,完成识别。
[0011]进一步的,在主干网络CSPdarknet53的第一层结构中引入Coordinate Attention注意力机制模块;CoordAttention注意力机制分为两个阶段:第一阶段为CoordAttention信息的嵌入,对输入的特征图,先经过一个残差结构,然后使用尺寸为(H,1)和(1,W)的池化核,分别在水平坐标和竖直坐标方向对每个通道进行编码,得到特征和和表示高度为h的第c个通道的输出特征,x
c
(h,i)表示在第c个通道上,高度为h,宽为i位置的特征层;表示宽度为w的第c个通道的输出特征,x
c
(j,w)表示在第c个通道上,宽为w,高为j位置的特征层,W和H分别表示输入特征图的宽和高;上述获取的特征,分别沿着水平和竖直两个空间方向进行特征的聚合,得到一对具有方向感知的注意力图,使得注意力模块能够捕捉到图像特征的空间位置信息和精确的位置信息,使网络更准确的定位感兴趣的对象;
[0012]第二个阶段为Coordinate Attention生成,通过第一个阶段获取的信息,将x
c
(h,i)和x
c
(j,w)进行concatenate操作得到特征图x
c
(i,j),使用一个共享的1
×
1卷积进行F1变换操作:f=δ(F1([Z
h
,Z
w
])),式中,[.,.]为沿着空间维数的concatenate操作,δ为非线性激活函数,f是空间信息在水平和垂直方向上进行编码的中间特征映射,Z
h
表示在高这个维度上的输出特征,Z
w
表示在宽这个维度上的输出特征;然后沿着空间维数将f分解为2个单独的张量f
h
∈R
C/r
×
H
和f
w
∈R
C/r
×
W
,其中f
h
表示垂直方向空间信息的中间特征图,f
w
表示水平方向空间信息的中间特征图,r表示缩减因子;g
w
=σ(F
w
(f
w
)),g
h
=σ(F
h
(f
h
)),式中,g
w
表示水平方向的权重矩阵,g
h
表示垂直方向的权重矩阵,F
w
表示在水平方向使用卷积变换函数F,F
h
表示在垂直方向使用进行卷积变函数F,σ是sigmoid激活函数,对于分解的两个空间方向的张量,通过F
h
和F
w
这2个1
×
1的卷积操作将f
h
和f
w
的通道数变为一致,通过r的大小,适当调节f的通道数,达到降低模型复杂性和计算开销的目的,最后分别给g
w
和g
h
,作为注意力的权重;最终CA模块的输出特征为:y
c
(i,j)表示最终输出的特征图,表示在垂直方向第c个通道的注意力权重,表示在水平方向第c个通道的注意力权重。
[0013]进一步的,在RP

PANet特征融合模块中引入pyconv卷积模块,pyconv卷积模块的处理过程如下;
[0014]设置FMi为输入的特征图,PyConv的层次为{level1,level2,

,leveln},提供的多尺度卷积核为k
n
是指卷积核的大小;每个卷积核对应的深度为不同层次的卷积核输出的特征图为{FM
o1
,FM
o2


,FM
on
},输出的特征图的宽度和高度是不变的,PyConv的参数量为:
[0015][0016]PyConv的计算量为:
[0017][0018]最后各个层次特征图组成最后的输出特征图表示为:FM
o
=FM
o1
+FM
o1
+...+FM
on
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于注意力机制的多尺度目标检测方法,其特征在于,包括以下步骤:步骤1,获取图像数据集;步骤2,对图像数据集进行预处理,并划分训练集、测试集、验证集;步骤3,建立基于注意力机制的多尺度目标检测的目标检测模型,所述目标检测模型包括CSPdarknet53主干网络、SPP池化模块、RP

PANet特征融合模块、检测头部几个部分,其中,在CSPdarknet53主干网络中添加Coordinate Attention注意力机制,有效的提高对于特征图的提取;步骤4,训练目标检测模型;步骤5,基于训练好的目标检测模型进行目标检测,将待识别数据集图像输入到训练好的目标检测模型中,模型对图像进行分类、输出物体的名称以及识别的置信度,完成识别。2.如权利要求1所述的一种基于注意力机制的多尺度目标检测方法,其特征在于:在主干网络CSPdarknet53的第一层结构中引入Coordinate Attention注意力机制模块;CoordAttention注意力机制分为两个阶段:第一阶段为CoordAttention信息的嵌入,对输入的特征图,先经过一个残差结构,然后使用尺寸为(H,1)和(1,W)的池化核,分别在水平坐标和竖直坐标方向对每个通道进行编码,得到特征和和表示高度为h的第c个通道的输出特征,x
c
(h,i)表示在第c个通道上,高度为h,宽为i位置的特征层;表示宽度为w的第c个通道的输出特征,x
c
(j,w)表示在第c个通道上,宽为w,高为j位置的特征层,W和H分别表示输入特征图的宽和高;上述获取的特征,分别沿着水平和竖直两个空间方向进行特征的聚合,得到一对具有方向感知的注意力图,使得注意力模块能够捕捉到图像特征的空间位置信息和精确的位置信息,使网络更准确的定位感兴趣的对象;第二个阶段为Coordinate Attention生成,通过第一个阶段获取的信息,将x
c
(h,i)和x
c
(j,w)进行concatenate操作得到特征图x
c
(i,j),使用一个共享的1
×
1卷积进行F1变换操作:f=δ(F1([Z
h
,Z
w
])),式中,[.,.]为沿着空间维数的concatenate操作,δ为非线性激活函数,f是空间信息在水平和垂直方向上进行编码的中间特征映射,Z
h
表示在高这个维度上的输出特征,Z
w
表示在宽这个维度上的输出特征;然后沿着空间维数将f分解为2个单独的张量f
h
∈R
C/r
×
H
和f
w
∈R
C/r
×
W
,其中f
h
表示垂直方向空间信息的中间特征图,f
w
表示水平方向空间信息的中间特征图,r表示缩减因子;g
w
=σ(F
w
(f
w
)),g
h
=σ(F
h
(f
h
)),式中,g
w
表示水平方向的权重矩阵,g
h
表示垂直方向的权重矩阵,F
w
表示在水平方向使用卷积变换函数F,F
h
表示在垂直方向使用进行卷积变函数F,σ是sigmoid激活函数,对于分解的两个空间方向的张量,通过F
h
和F
w
这2个1
×
1的卷积操作将f
h
和f
w
的通道数变为一致,通过r的大小,适当调节f的通道数,达到降低模型复杂性和计算开销的目的,最后分别给g
w
和g
h
,作为注意力的权重;最终CA模块的输出特征为:y
c
(i,j)表示最终输出的特征图,表示在垂直方向第c个通道的注意力权重,表示在水平方向第c个通道的注意力权重。3.如权利要求1所述的一种基于注意力机制的多尺度目标检测方法,其特征在于:在RP

PANet特征融合模块中引入pyconv卷积模块,即多尺度卷积操作,pyconv卷积模块的处
理过程如下;设置FMi为输入的特征图,PyConv的层次为{level1,level2,

,leveln},提供的多尺度卷积核为k
n
是指卷积核的大小;每个卷积核对应的深度为不同层次的卷积核输出的特征图为{FM
o1
,FM
o2


,FM
on
},输出的特征图的宽度和高度是不变的,PyConv的参数量为:PyConv的计算量为:最后各个层次特征图组成最后的输出特征图表示为:FM
o
=FM
o1
+FM
o1
+...+FM
on
,其中W表示输入特征图的的宽,H表示输入特征图的的高。4.如权利要求1所述的一种基于注意力机制的多尺度目标检测方法,其特征在于:在RP

PANet特征融合模块中引入Reslayer结构,对于输入的特征图,经过Reslayer结构后会分成左右两个分支进行卷积运算,右边的分支,只进行卷积操作,左边的分支,首先...

【专利技术属性】
技术研发人员:吴珺朱嘉辉董佳明聂万宇吴一帆王春枝
申请(专利权)人:湖北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1