【技术实现步骤摘要】
一种基于特征自适应聚合的目标检测方法
[0001]本专利技术涉及图像识别目标检测领域,具体涉及一种优化目标检测精度的基于特征自适应聚合的目标检测方法。
技术介绍
[0002]目标检测是计算机视觉的重要任务之一,拥有如智能安防、智能机器人、智能交通等众多应用。随着人工智能和深度学习的发展,目标检测技术的性能得到了显著的提升。目标检测方法的性能评价一般有精确性和实时性两个方面,前者反映方法的检测准确度,后者反映方法的处理速度。对于如人脸检测、车辆检测、行人检测等任务来说,实时性也是衡量目标检测方法性能的重要指标。在现实应用中,需要在较短的时间内,完成对输入图像的检测,否则就会造成延迟过高的情况,轻则使用户体验欠佳,重则导致出现如车祸等严重交通事故。
[0003]现有的实时目标检测方法一般分为两大类:anchor
‑
base方法和anchor
‑
free方法。Anchor
‑
base方法生成预定义遍布全图的先验框,并提取先验框特征完成分类和回归任务。但因anchorr/>‑
b本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于特征自适应聚合的目标检测方法,其特征在于包括以下步骤:第一步,构建基于特征自适应聚合的目标检测系统;目标检测系统由主特征提取模块、特征自适应聚合模块、辅助任务模块、主任务模块和后处理模块构成;主特征提取模块与特征自适应聚合模块相连,主特征提取模块从输入图像提取多尺度特征,将包含多尺度特征的多尺度特征图发送给特征自适应聚合模块;主特征提取模块由一个DarkNet
‑
53卷积神经网络和一个特征金字塔网络组成;DarkNet
‑
53卷积神经网络是一个含有53层神经网络的轻量级主干网络,这53层神经网络分为5个串行子网络,用于提取图像的主干网络特征;特征金字塔网络从DarkNet
‑
53卷积神经网络接收主干网络特征,经过上采样、特征提取、特征融合操作,得到包含多尺度特征的多尺度特征图,将多尺度特征图发送给特征自适应聚合模块;特征自适应聚合模块与主特征提取模块、辅助任务模块和主任务模块相连,特征自适应聚合模块的功能是为辅助任务模块提供多尺度感知的高像素特征图,为主任务模块提供边界区域感知的高像素特征图和显著性区域感知的高像素特征图,提升目标检测系统的检测精度;特征自适应聚合模块由自适应多尺度特征聚合网络、自适应空间特征聚合网络和粗略框预测网络构成;自适应多尺度特征聚合网络由4个权重不共享的SE网络组成,4个SE网络分别记为第一、第二、第三、第四SE网络;从主特征提取模块的特征金字塔网络接收多尺度特征图,采用自适应多尺度特征聚合方法,对多尺度特征图进行通道自注意力增强、双线性插值上采样和尺度级别软权重聚合操作,得到多尺度感知的高像素特征图,将多尺度感知的高像素特征图发送给自适应空间特征聚合网络、粗略框预测网络和辅助任务模块;粗略框预测网络由两层3
×
3卷积和一层1
×
1卷积构成,从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图,对多尺度感知的高像素特征图进行预测,得到粗略框预测位置,将粗略框预测位置发送给自适应空间特征聚合网络;自适应空间特征聚合网络由分类偏移量转换函数和回归偏移量转换函数的区域受限可形变卷积组成,从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图,从粗略框预测网络接收粗略框预测位置,生成边界区域感知的高像素特征图和显著性区域感知的高像素特征图,将边界区域感知的高像素特征图和显著性区域感知的高像素特征图发送给主任务模块;辅助任务模块与特征自适应聚合模块中的自适应多尺度特征聚合网络相连,辅助任务模块是一个角点预测网络,角点预测网络由两层3
×
3卷积、一层1
×
1卷积和sigmoid激活层组成,辅助任务模块从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图,角点预测网络对多尺度感知的高像素特征图进行预测,得到角点预测热力图,用于目标检测系统训练中计算角点预测损失,辅助目标检测系统对角点区域的感知;辅助任务模块只在训练目标检测系统时使用,用于增强目标检测系统对物体角点位置的感知,使预测物体框的位置更准确;在训练后的目标检测系统对用户输入图像进行检测时,该模块直接丢弃;主任务模块与自适应空间特征聚合网络、后处理模块相连,由精细框预测网络和中心点预测网络构成;精细框预测网络是一个一层1
×
1卷积层,从自适应空间特征聚合网络接收边界区域感知的高像素特征图,对边界区域感知的高像素特征图进行1
×
1卷积,得到精细框预测位置,将精细框预测位置发送给后处理模块;中心点预测网络由一个一层1
×
1卷积层和sigmoid激活层组成,从自适应空间特征聚合网络接收显著性区域感知的高像素特征图,对显著性区域感知的高像素特征图进行1
×
1卷积和激活,得到中心点预测热力图,将
中心点预测热力图发送给后处理模块;后处理模块是一个3
×
3池化层,与主任务模块中的精细框预测网络和中心点预测网络相连,从精细框预测网络接收精细框预测位置,从中心点预测网络接收中心点预测热力图,采用步长为1的3
×
3最大池化操作保留中心点预测热力图3
×
3范围内的预测最大值,提取出保留的预测最大值的位置,即峰值点,作为物体中心区域点位置;通过中心区域点位置找出精细框预测位置中对应的上、下、左、右四个方向距离,生成预测物体框位置,且该中心区域点位置所在的中心点类别即为物体预测的类别;后处理模块通过提取3
×
3范围内的峰值点抑制重叠伪框,减少假阳性预测框;第二步,构建训练集、验证集和测试集,方法是:2.1收集目标检测场景图像作为目标检测数据集,并对目标检测数据集中的每个目标检测场景图像进行人工标注,方法是:使用MS COCO公开的通用场景数据集或Cityscapes无人驾驶场景数据集作为目标检测数据集;即采用MS COCO数据集或Cityscapes数据集中的训练图像作为训练集、验证图像作为验证集、测试图像作为测试集;令训练集中图像总数为S,令测试集中图像总数为T,令验证集中图像总数为V,MS COCO和Cityscapes数据集的每张图像都进行了人工标注,即每张图像都以矩形框的形式标注了物体位置,并标注了物体的类别;2.2对训练集中S张图像进行优化处理,包括翻转、裁剪、平移、亮度变换、对比度变换、饱和度变换、缩放、标准化,得到优化后的训练集D
t
;2.3根据优化后的训练集D
t
,制作用于模型训练的任务真值标签;一共分为四个任务,分别是中心点预测任务、角点预测任务、粗略框预测任务和精细框预测任务,方法是:2.3.1令变量s=1;令优化后的训练集中的第s张图像有N
s
个标注框,令N
s
个标注框中的第i个标注框为令第i个标注框的标注类别为c
i
,代表第i个标注框的左上角点坐标,代表第i个标注框的右下角点坐标,N
s
为正整数,1≤i≤N
s
;2.3.2构建中心点预测任务的中心点预测真实值方法是:2.3.2.1构建一个大小为的全零矩阵图H
zeros
,C表示优化后的训练集的分类类别数量,该类别数量为目标检测数据集标注目标的类别数量,H是第s张图像的高,W是第s张图像的宽;2.3.2.2令i=1,表示第i个下采样4倍的标注框;2.3.2.3将标注坐标除以4,记为下采样4倍的标注框标注坐标除以4,记为下采样4倍的标注框标注坐标除以4,记为下采样4倍的标注框代表B
si
′
的左上、右上、左下、右下角点位置;2.3.2.4采用二维高斯核生成方法,计算以B
si
′
的中心点为二维高斯核的基点,方差为(σ
x
,σ
y
)的二维高斯核范围内的全部像素点的高斯值,得到第一高斯值集合S
ctr
;具体方法为:2.3.2.4.1令二维高斯核内像素点数量为N
pixel
,N
pixel
为正整数,令第一高斯值集合S
ctr
为空;
2.3.2.4.2令p=1,表示二维高斯核内像素点编号,1≤p≤N
pixel
;2.3.2.4.3第s张图像中以(x0,y0)为基点的高斯核范围内任意一个像素点(x
p
,y
p
)的二维高斯值K(x
p
,y
p
)为:其中(x0,y0)是二维高斯核的基点,即二维高斯核中心,x0为基点的宽方向的坐标值,y0为基点的高方向的坐标值;(x
p
,y
p
)为基点(x0,y0)高斯核范围内的像素点,x
p
为该像素点的宽方向的坐标值,y
p
为该像素点的高方向的坐标;(x0,y0)和(x
p
,y
p
)均位于下采样4倍后的图像坐标系;表示二维高斯核在宽方向的方差,表示二维高斯核在高方向的方差,通过控制二维高斯核的宽、高方向的方差控制高斯核范围内点的数量;w表示B
si
′
在特征图尺度下的宽,h表示B
si
′
在特征图尺度下的高,α是决定中心区域位置占B
si
′
比例的参数;将(x
p
,y
p
)和计算得出的K(x
p
,y
p
)存入第一高斯值集合S
ctr
中;2.3.2.4.4令p=p+1;若p≤N
pixel
,转2.3.2.4.3;若p>N
pixel
,B
si
′
的高斯核内的坐标和二维高斯值已全部存入S
ctr
中,S
ctr
中有N
pixel
个像素点及其对应的二维高斯值,转2.3.2.5;2.3.2.5将S
ctr
中的值赋值到H
zeros
中;将S
ctr
中的元素(x
p
,y
p
)和K(x
p
,y
p
)按照H
zeros
[x
p
,y
p
,c
i
]=K(x
p
,y
p
)的规则赋值,c
i
代表B
si
′
的类别编号,1≤c
i
≤C且c
i
为正整数;2.3.2.6令i=i+1;若i≤N
s
,转2.3.2.3;若i>N
s
,说明第s张图像的N
s
个下采样4倍的标注框生成的二维高斯值均已赋值到H
zeros
中,转2.3.2.7;2.3.2.7令第s张图像的中心点预测真实值2.3.3构建角点预测任务的角点预测真实值方法是:2.3.3.1构建一个大小为的全零矩阵“4”表示下采样4倍的标注框的角点数量4,也表示矩阵的4个通道;2.3.3.2令i=1,表示第i个下采样4倍的标注框;2.3.3.3令二维高斯核的基点为B
si
′
的左上角点,坐标为采用2.3.2.4所述二维高斯核生成方法,计算以为二维高斯核的基点,方差为(σ
x
,σ
y
)的二维高斯核范围内的内全部像素点的高斯值,得到第二高斯值集合S
tl
;2.3.3.4将S
tl
中的元素坐标和高斯值赋值到的第1个通道中,即按照的规则赋值;2.3.3.5令二维高斯核的基点为B
si
′
的右上角点,坐标为采用2.3.2.4所述二维高斯核生成方法,计算以为二维高斯核的基点,方差为(σ
x
,σ
y
)的二维高斯核范围内的内全部像素点的高斯值,得到第三高斯值集合S
tr
;2.3.3.6将S
tr
中的元素坐标和高斯值赋值到的第2个通道中,即按照的规则赋值;2.3.3.7令二维高斯核的基点为B
si
′
的左下角点,坐标为采用2.3.2.4所述二维高斯核生成方法,计算以为二维高斯核的基点,方差为(σ
x
,σ
y
)的二维高斯核范围内的内全部像素点的高斯值,得到第四高斯值集合S
dl
;
2.3.3.8将S
al
中的元素坐标和高斯值赋值到的第3个通道中,按照的规则赋值;2.3.3.9令二维高斯核的基点为B
′
si
的右下角点,坐标为采用2.3.2.4所述二维高斯核生成方法,计算以为二维高斯核的基点,方差为(σ
x
,σ
y
)的二维高斯核范围内的内全部像素点的高斯值,得到第五高斯值集合S
dr
;2.3.3.10将S
dr
中的元素坐标和高斯值赋值到的第4个通道中,即按照的规则赋值;2.3.3.11令i=i+1,若i≤N
s
,转2.3.3.3;若i>N
s
,说明第s张图像的N
s
个下采样4倍的标注框生成的二维高斯值均已赋值到中,转2.3.3.12;2.3.3.12令第s张图像的角点预测真实值2.3.4根据第s张图像的N
s
个下采样4倍的标注框构建粗略框预测任务的第s张图像的粗略框真实值2.3.5根据构建精细框预测任务的精细框真实值构建精细框预测任务的精细框真实值值与相等,即2.3.6令s=s+1,若s≤S,转2.3.2;若s>S,转2.3.7;2.3.7得到S张图像用于模型训练的任务真实标签,并将其和S张图像组成一个集合,构成用于模型训练的训练集D
M
;2.4采用图像缩放标准化方法对验证集中V张图像进行优化处理,即对V张图像进行缩放、标准化,得到由V张缩放标准化后的图像组成的新的验证集D
V
;2.5采用2.4步所述图像缩放标准化方法对测试集中T张图像进行优化处理,得到由T张缩放标准化后的图像组成的新的测试集D
T
;第三步,利用梯度反向传播方法对第一步构建的目标检测系统进行训练,得到N
m
个模型参数;方法是:3.1初始化目标检测系统中各模块的网络权重参数;采用ImageNet数据集上训练的预训练模型初始化主特征提取模块中的DarkNet
‑
53卷积神经网络的参数;初始化主特征模块中的特征金字塔网络、特征自适应聚合模块、辅助任务模块、主任务模块网络权重参数;3.2设置目标检测系统训练参数;包括初始化初始学习率learning_rate衰减系数,选用随机梯度下降作为模型训练优化器,初始化优化器的超参数“动量”,初始化“权重衰减”;初始化网络训练的批次大小mini_batch_size为正整数;初始化最大训练步长maxepoch为正整数。3.3训练目标检测系统,方法是将一次训练时目标检测系统输出的粗略框预测位置、精细框预测位置、角点预测热力图和中心点预测热力图与真实值之间的差异作为损失值loss,利用梯度反向传播更新网络权重参数,直到损失值达到阈值或训练步长达到maxepoch结束;在最后N
m
个训练步,每训练一个训练步,保存一次网络权重参数;方法如下:3.3.1令训练步epoch=1,训练集所有数据训练一个周期为一个epoch;初始化批次序号N
b
=1;3.3.2主特征提取模块从D
M
读取第N
b
批次,共B=64个图像,将这B个图像记为矩阵形式
I
train
,I
train
中包含B个H
×
W
×
3的图像;H表示输入图像的高,W表示输入图像的宽,“3”代表图像的RGB三个通道;3.3.3主特征提取模块采用主特征提取方法提取I
train
的多尺度特征,得到I
train
的多尺度特征,将包含I
train
的多尺度特征的多尺度特征图发送给自适应特征聚合模块;方法为:3.3.3.1主特征提取模块的DarkNet
‑
53卷积神经网络提取I
train
的图像特征,得到主干网络特征图集合,方法是:DarkNet
‑
53卷积神经网络的5个串行子网络对I
train
的B个图像进行下采样、特征提取,得到主干网络特征,即后四个串行子网络的输出的4个特征图,发送给特征金字塔网络;3.3.3.2特征金字塔网络从DarkNet
‑
53卷积神经网络接收4个特征图,特征金字塔网络对4个特征图进行上采样、特征提取和特征融合,得到3个多尺度特征图,令为将多尺度特征图发送给特征自适应聚合模块;3.3.4特征自适应聚合模块从特征金字塔网络接收多尺度特征图生成多尺度感知的高像素特征图F
H
,将F
H
发送给辅助任务模块;并生成边界区域感知的高像素特征图和显著性区域感知的高像素特征图,将边界区域感知的高像素特征图和显著性区域感知的高像素特征图发送给主任务模块;方法是:3.3.4.1自适应多尺度特征聚合网络从特征金字塔网络接收采用自适应多尺度特征聚合方法对进行通道自注意力增强、双线性插值上采样和尺度级别软权重聚合操作,得到多尺度感知的高像素特征图F
H
;F
H
的特征图分辨率为F
H
的特征图通道数为64;具体方法如下:3.3.4.1.1自适应多尺度特征聚合网络使用第一、第二、第三SE网络并行对进行并行通道自注意力增强,即第一SE网络对施加在通道上的加权求和,得到第一通道表征增强后的图像同时第二SE网络对施加在通道上的加权求和,得到第二通道表征增强后的图像同时第三SE网络对施加在通道上的加权求和,得到第三通道表征增强后的图像3.3.4.1.2自适应多尺度特征聚合网络的第一、第二、第三SE网络并行采用双线性插值将上采样到相同的分辨率大小得到上采样后的特征图成为上采样后的特征图集合具体计算过程如公式(2)所示:其中SE
n
表示第n个SE网络,表示第l个多尺度特征图,Upsample表示双线性插值上采样,1≤l≤3,1≤n≤3;3.3.4.1.3自适应多尺度特征聚合网络对采用1
×
1卷积计算权重,将通道数从64减少为1,再在尺度维度上执行Softmax操作,得到大小为的软权重图软权重图的像素点的数值大小表明应更关注这3个尺度中的哪一
个,即中哪一个所占权重更大,从而让不同尺寸的物体响应不同尺度的特征图;3.3.4.1.4自适应多尺度特征聚合网络将第l个尺度的权重图与对应的第l个上采样后的特征图逐元素乘,即将与对应逐元素乘,将与对应逐元素乘,与分别逐元素乘,得到3个乘积,然后对这3个乘积进行加权求和,融合为一个特征图,得到融合后的特征图;接着采用第四SE网络增强融合后的特征图的通道表征,得到多尺度感知的高像素特征图F
H
;具体过程如公式(3)所示:其中SE4为第四SE网络,表示同一位置元素在不同尺度中所占权重,
“×”
表示对应位置元素乘积,Conv表示1
×
1卷积;自适应多尺度特征聚合网络将F
H
发送给辅助任务模块、粗略框预测网络和自适应空间特征聚合网络;3.3.4.2粗略框预测网络从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图F
H
,采用粗略框预测方法对F
H
中每一个特征点位置进行粗略框位置预测,生成粗略框预测位置B
coarse
,将B
coarse
发送给自适应空间特征聚合网络,B
coarse
也是的矩阵,分辨率大小为通道数为4;通道数4表示从像素点出发到上、下、左、右四个方向的距离,每一个像素点形成一个粗略框;B
coarse
用于限制自适应空间特征聚合网络中的可形变卷积采样范围;并且,对B
coarse
与2.2.5.4构建的粗略框真实值计算损失计算损失其中S
b
是回归样本集合,由不为0的像素集合组成;N
b
是回归样本集合的数量,W
ij
是对应不为0的(i,j)位置权重值;3.3.4.3自适应空间特征聚合网络从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图F
H
,从粗略框预测网络接收粗略框预测位置B
coarse
,生成边界区域感知的高像素特征图F
HR
和显著性区域感知的高像素特征图F
HS
;方法是:3.3.4.3.1设计区域受限的可形变卷积R
‑
Dconv,方法是:3.3.4.3.1.1设计偏移量转换函数对可形变卷积的偏移量Δp进行变换,得到变换后的偏移量;限制可形变卷积的空间采样点的偏移范围在B
coarse
内,同时也使可形变卷积的偏移量Δp可微分;采用Sigmoid函数对B
coarse
内的偏移量Δp进行归一化,使Δp在[0,1]区间内;将Δp拆分为h
Δp
和w
Δp
,h
Δp
表示Δp在垂直方向的偏移,w
Δp
表示Δp在水平方向的偏移;如公式(5)所示:如公式(5)所示:
其中表示在垂直方向的偏移量转换函数,表示在水平方向的偏移量转换函数,总体的偏移量转换函数(t,l,r,d)是卷积核位置p与B
coarse
的上下左右四个方向的距离;3.3.4.3.1.2利用限制可形变卷积采样区域;给定一个3
×
3卷积核,其拥有K=9个空间采样位置点,w
k
表示第k个位置的卷积核权重,P
k
表示第k个位置的预定义位置偏移量;P
k
∈{(
‑
1,
‑
1),(
‑
1,0),...,(1,1)}表示以(0,0)为中心的3
×
3范围;令x(p)表示卷积核...
【专利技术属性】
技术研发人员:陈微,何玉麟,罗馨,李晨,姚泽欢,汤明鑫,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。