图像金字塔特征指导的多尺度目标检测方法技术

技术编号:33773838 阅读:12 留言:0更新日期:2022-06-12 14:26
本发明专利技术公开了一种图像金字塔特征指导的多尺度目标检测方法,包括步骤:S1,以彩色图像作为网络输入,以FPN作为目标检测的框架,采用排序下采样方法提取图像特征;S2,以同一幅彩色图像作为输入,采用构建的双瓶颈子卷积网络提取图像金字塔中每层级的位置信息和细节特征;S3,将步骤S2中提取的每层级的图像特征和主干网络对应的深层特征输入到构建的分层式特征融合模块中,完成高分辨率、弱语义特征与低分辨率、强语义特征的融合;S4,引入Focal loss重构损失函数,完成目标检测。本发明专利技术不仅能加强空间位置信息,而且能避免在下采样中丢失大量细节信息,从而增加了目标检测网络对小目标和邻近目标的辨识度。目标和邻近目标的辨识度。目标和邻近目标的辨识度。

【技术实现步骤摘要】
图像金字塔特征指导的多尺度目标检测方法


[0001]本专利技术涉及多尺度目标检测方法,尤其涉及一种图像金字塔特征指导的多尺度目标检测方法。

技术介绍

[0002]目标检测任务是为自然图像中每个目标精准预测一个类别和坐标位置。广泛应用在很多领域,从无人驾驶、智能社区到视频监控,具有极大的研究价值。但是,不同类别的物体可能具有相似的外观和尺寸,相同类别的物体的外观和尺寸也可能会有很大的差别。背景复杂多样,物体间又存在相互遮挡的现象,这些因素导致目标检测成为计算机视觉领域中最具挑战性的任务之一。传统的目标检测方法是通过人工设计特征提取算子获取图像的特征,这些特征的表征能力低、泛化性差,这限制了传统目标检测方法的进一步发展。
[0003]近年来,深度学习的出现极大地促进了计算机视觉的发展。基于卷积神经网络(CNNs)的目标检测算法通过卷积运算从图像中提取目标特征,这使网络能够获得更加有利、更加深层次的特征,能够较好地处理复杂情况,例如遮挡、形变和光照变化。目前以卷积神经网络为基础的目标检测算法可分为两大类:一类是基于区域候选框的两步目标检测算法和基于回归的一步目标检测算法。
[0004]但是,目标检测算法仍存在许多不足,尤其是在多尺度目标检测中。现有的方法不能够很好的检测出不同尺度的相同目标,尤其是小目标和邻近目标,其语义信息会随着网络的加深而消失。

技术实现思路

[0005]专利技术目的:本专利技术的目的是提供一种能提高对小目标和邻近目标的辨识度的图像金字塔特征指导的多尺度目标检测方法,用于解决多尺度目标检测中高层特征图容易混淆邻近目标特征、忽略小目标的问题。
[0006]技术方案:本专利技术的多尺度目标检测方法,包括步骤如下:
[0007]S1,以彩色图像作为网络输入,以基于ResNet

101主干网络的FPN作为目标检测的框架,采用排序下采样方法提取图像特征;
[0008]S2,以步骤S1中的同一幅彩色图像作为输入,采用构建的双瓶颈子卷积网络提取图像金字塔中每层级的位置信息和细节特征;
[0009]S3,将步骤S2中提取的每层级的图像特征和主干网络对应的深层特征输入到构建的分层式特征融合模块中,完成高分辨率、弱语义特征与低分辨率、强语义特征的融合;
[0010]S4,引入Focal loss重构损失函数,对多任务进行训练,完成目标检测。
[0011]所述步骤S1中,所述排序下采样方法的实现过程如下:
[0012]S11,在卷积神经网络的特征采样层的特征图上,滑动一个设定步长的滑窗,将滑窗内数值按升序排序,依次提取该滑窗内的四个值,生成四个新特征图;每个新特征图的宽度和高度都是原特征图的一半,则有排序下采样方法的输出为:
[0013][0014]其中,表示卷积神经网络每个采样层的特征图,W、H和D分别表示特征图的宽度、高度与通道数,l是卷积神经网络采样层的层级索引;M
j
(
·
)表示提取滑窗内第j个值的过程,每个滑窗内被依次提取四个值;表示第l个下采样层中第j个输出的新特征图,每个下采样层生成四个新特征图;
[0015]S12,将四个新特征图并置,然后输入到小型卷积网络进行特征精修和通道调整;将输出的最终特征图作为主干网络下一层的输入,其中,W

、H

和D

分别表示最终特征图的宽度、高度与通道数。
[0016]所述步骤S2中,构建双瓶颈子卷积网络的过程如下:
[0017]S21,定义双瓶颈子卷积网络的输入为:
[0018][0019]其中,表示高度为H
*
、宽度为W
*
的图像,该图像同时是目标检测模型的输入图像;i同为图像金字塔和主干网络的层级索引;
[0020]S22,将图像金字塔中的第i层图像输入双瓶颈子卷积网络,通过一个5
×
5卷积核和一个3
×
3卷积核提取图像表层的边缘特征;
[0021]S23,将被提取的边缘特征输入到具有2个瓶颈结构的残差网络单元中提取细节特征,使用带有1
×
1卷积核的侧边连接,将准确定位的边缘信息传输给提取的纹理细节特征;
[0022]所述瓶颈结构由2个分别用于特征图通道降维与升维的1
×
1卷积核和2个用于学习浅层特征的3
×
3卷积核构成;
[0023]S24,得到与对应主干网络层级尺度相同的特征图,为残差网络单元的输出;
[0024]S25,以不同尺度的图像作为输入,定义双瓶颈子卷积网络的输出为:
[0025][0026][0027]其中,表示图像金字塔第i层图像被提取的特征;表示图像金字塔中所有层级图像被提取的特征的集合。
[0028]所述步骤S3中,所述分层式特征融合模块采用基于逐元素相加的特征融合模块;定义逐元素相加的输出为:
[0029][0030]其中,和分别表示两个3
×
3卷积单元,用作特征图的参数化特征映射,为1
×
1卷积单元,用作特征图的线性变换;BN[
·
]为卷积特征的批量归一化操作;T(
·
)表示通道维数双线性插值操作,用作调整两种不同类型特征的通道维度;h(
·
)与g(
·
)分别是双瓶颈子卷积网络的输出特征图与主干网络的特征图,i同为图像金字塔与主干网络的层
级索引;I0与I
i
分别表示图像金字塔中的原始图像和第i层的图像。
[0031]所述步骤S4中,所述分类损失函数如下:
[0032][0033]其中,p与p
*
分别为样本预测值和样本真值;α
t
∈(0,1)是为类1引入的一个权重因子,1

α
t
是为类

1引入一个权重因子;(1

p)γ是调制系数;
[0034]位置回归损失项表示为:
[0035][0036]其中,L
reg
(t,t
*
)由平滑的L1损失表示;t={x,y,w,h}表示样本预测的边界框位置信息,其中,{x,y}表示边界框的中心坐标,{w,h}表示边界框的宽和高;t
*
为t的样本标签;
[0037]目标检测损失函数表示为:
[0038][0039]其中,为分类的样本数量,为回归的样本数量;w为训练图像的批次数;k为每批次训练样本中单个样本的索引;λ为损失平衡项。
[0040]本专利技术与现有技术相比,其显著效果如下:
[0041]1、本专利技术利用双瓶颈子卷积网络,提取多尺度图像金字塔每层的浅层特征;利用分层式特征融合模块,为目标检测模型引入富含细节和位置信息的高分辨率浅层特征;利用新的排序下采样方法,保存了原本下采样过程本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像金字塔特征指导的多尺度目标检测方法,其特征在于,包括步骤如下:S1,以彩色图像作为网络输入,以基于ResNet

101主干网络的FPN作为目标检测的框架,采用排序下采样方法提取图像特征;S2,以步骤S1中的同一幅彩色图像作为输入,采用构建的双瓶颈子卷积网络提取图像金字塔中每层级的位置信息和细节特征;S3,将步骤S2中提取的每层级的图像特征和主干网络对应的深层特征输入到构建的分层式特征融合模块中,完成高分辨率、弱语义特征与低分辨率、强语义特征的融合;S4,引入Focal loss重构损失函数,对多任务进行训练,完成目标检测。2.根据权利要求1所述的图像金字塔特征指导的多尺度目标检测方法,其特征在于,所述步骤S1中,所述排序下采样方法的实现过程如下:S11,在卷积神经网络的特征采样层的特征图上,滑动一个设定步长的滑窗,将滑窗内数值按升序排序,依次提取该滑窗内的四个值,生成四个新特征图;每个新特征图的宽度和高度都是原特征图的一半,则有排序下采样方法的输出为:其中,表示卷积神经网络每个采样层的特征图,W、H和D分别表示特征图的宽度、高度与通道数,l是卷积神经网络采样层的层级索引;M
j
(
·
)表示提取滑窗内第j个值的过程,每个滑窗内被依次提取四个值;表示第l个下采样层中第j个输出的新特征图,每个下采样层生成四个新特征图;S12,将四个新特征图并置,然后输入到小型卷积网络进行特征精修和通道调整;将输出的最终特征图作为主干网络下一层的输入,其中,W

、H

和D

分别表示最终特征图的宽度、高度与通道数。3.根据权利要求1所述的图像金字塔特征指导的多尺度目标检测方法,其特征在于,所述步骤S2中,构建双瓶颈子卷积网络的过程如下:S21,定义双瓶颈子卷积网络的输入为:其中,表示高度为H
*
、宽度为W
*
的图像,该图像同时是目标检测模型的输入图像;i为图像金字塔和主干网络的层级索引;S22,将图像金字塔中的第i层图像输入双瓶颈子卷积网络,通过一个5
×
5卷积核和一个3
×
3卷积核提取图像表层的边缘特征;S23,将被提取的边缘特征输入到具有2个瓶颈结构的残差网络单元中提取细节特征,使用带有1
×
1...

【专利技术属性】
技术研发人员:陈苏婷马文妍张艳艳张闯
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1