当前位置: 首页 > 专利查询>吉林大学专利>正文

一种基于深度学习的小目标检测方法技术

技术编号:38572481 阅读:11 留言:0更新日期:2023-08-22 21:06
本发明专利技术公开了一种基于深度学习的小目标检测方法,其方法为:第一步、获取图像样本,构建训练集;第二步、小目标检测模型的构建;第三步:将待检测的图像,利用上述第二步得到的小目标检测模型实现目标检测,有益效果:通过训练得到用于检测的改进版YOLO模型,使得整体网络结构不再臃肿,不仅压缩了网络模型,有效减少了计算量,并且更有效地利用了浅层次网络中提取的特征信息,在识别小目标物体上达到了理想的效果。采用基于双参数加权的完全交并比损失函数能让网络模型更加关注高交并比值目标,并有效提升小目标物体的检测准确度。并有效提升小目标物体的检测准确度。并有效提升小目标物体的检测准确度。

【技术实现步骤摘要】
一种基于深度学习的小目标检测方法


[0001]本专利技术涉及一种小目标检测方法,特别涉及一种基于深度学习的小目标检测方法。

技术介绍

[0002]目前,深度学习技术在计算机视觉领域取得了长足的进步。目标检测在输入图像中检测出所有感兴趣的目标,并确定这些目标出现的位置及对应的类别。传统的目标检测算法先通过滑动窗口获得大量候选区域,再对初步定位的区域提取特征,最后根据提取的特征使用训练的分类器进行检测。传统目标检测算法运算量大,并且识别效果和准确率并不理想。基于深度学习的目标检测方法主要分为两类,即两阶段目标检测和一阶段目标检测。YOLOv5作为一阶段目标检测算法,将对象检测重新定义为一个回归问题,使用CSPDarkNet

53作为主干网络对输入图像进行特征提取,并采用特征金字塔网络(Feature Pyramid Network,FPN)和路径聚合网络(Path Aggregation Network,PAN)进行多尺度特征融合,得到三个不同尺度的输出特征层,最终经过预测部分检测出物体类别和位置。当前的方法虽然对目标检测的速度和精度都有了一定程度的提高,但无法兼顾较小的局部特征,不足以在一些应用场景下应对小目标检测任务的精度要求,因此需要改进多尺度特征融合结构,优化损失函数计算,以便提升基于深度学习的目标检测模型对于小目标的检测性能。

技术实现思路

[0003]本专利技术的目的是为了解决现有的小目标检测方法中存在的无法兼顾较小的局部特征,不足以在一些应用场景下应对小目标检测任务的精度要求的问题,而提供的一种基于深度学习的小目标检测方法。
[0004]本专利技术提供的基于深度学习的小目标检测方法,其方法包括的步骤如下:
[0005]第一步、获取图像样本,构建训练集;
[0006]第二步、小目标检测模型的构建,具体步骤如下:
[0007]步骤1、在输入端对输入图像采用马赛克增强的方式进行数据预处理;
[0008]步骤2、通过主干网络来提取图像的特征;
[0009]步骤3、通过基于特征金字塔的结构将提取的特征进行处理得到多尺度融合特征;
[0010]在输入图像上进行深度卷积,不断进行下采样操作,再对高层特征进行上采样,对具有相同尺寸的特征图在通道维度上进行拼接操作,达到特征融合目的,即通过结合自上而下和自下而上方法获得较强的语义特征,运用浅层的细节信息提升模型对于小目标的检测性能;
[0011]步骤4、采用综合矩形框损失、分类损失和置信度损失的损失函数,其中矩形框损失是通过基于双参数加权的完全交并比损失来计算的,对深度网络进行训练,得到小目标检测模型,矩形框损失等同于基于双参数加权的完全交并比损失Loss
αβ

CIoU
,具体公式如
下:
[0012][0013]其中b和bgt分别表示预测框和真实框的中心点,ρ表示两个中心点之间的欧式距离,c表示预测框和真实框的最小闭包区域的对角线距离,δ是权重参数,v用来衡量预测框宽高比和真实框宽高比的相似度,IoU是预测框与真实框的交并比,其中:
[0014][0015]第三步:将待检测的图像,利用上述第二步得到的小目标检测模型实现目标检测,具体步骤如下:
[0016]在输入端对待检测的图像进行自适应黑边填充预处理;通过主干网络对输入图像进行特征提取;通过基于特征金字塔的网络结构将提取到的特征进行处理,得到多尺度的融合特征;通过预测端对于得到的多尺度融合特征图进行网格化预测,由预测出来的物体目标框和置信度获得图像的目标检测效果。
[0017]第二步的步骤2中的主干网络包括CBS卷积模块、CSP1_x模块和SPPF模块,在CBS模块中,Conv为卷积层,用于提取特征,通过对输入图像进行采样从而获得更加丰富的特征信息;BN为批量归一化,利用优化方差大小和均值分布,加速模型训练;SiLU为Swish激活函数,是Sigmoid加权线性组合。
[0018]第二步的步骤3中包含CBS模块、Upsample、Concat和CSP2_x模块,特征金字塔浅层的特征图语义信息较少,主要反映细节信息,其所携带的位置信息更强,深层的特征所携带的语义信息较丰富,而位置信息更弱,特征金字塔结构的思想就是通过特征融合把深层的语义信息与浅层的细节信息相结合,兼顾了细节和整体,基于FPN结构进行改进的具体实现过程如下:
[0019]网络主干部分的快速空间金字塔池化模块的输出经过1个卷积核大小为1
×
1的CBS模块,再通过采用最近邻差值方式的2倍上采样后与第6层的CSP1_x模块的输出执行拼接操作,将特征图在通道维度上进行拼接形成融合特征图,经过1个CSP2_x模块后,作为预测端的其中一个输入;在CSP2_x模块后继续通过1个卷积核大小为1
×
1的CBS模块和最近邻差值方式的2倍上采样,与第4层的CSP1_x模块的输出执行拼接操作,将特征图在通道维度上进行拼接形成融合特征图,再经过1个CSP2_x模块后,作为预测端的第二个输入;继续通过1个卷积核大小为1
×
1的CBS模块和最近邻差值方式的2倍上采样,与第2层的CSP1_x模块的输出执行拼接操作,将特征图在通道维度上进行拼接形成融合特征图,再经过CSP2_x模块后,作为预测端的第三个输入,此时获得3个不同尺寸的融合特征图。
[0020]第二步步骤4中得到小目标检测模型的具体步骤如下:
[0021]1)、网络模型的预测部分中,在3个不同尺寸的特征图上划分网格,每个网格都预设3个不同宽高比的锚框,用来预测和回归目标,预测时采取跨网格扩充的策略,即当1个GT的中心点落在某个检测层上的某个网格中,除了中心点所在的网格之外,其左、上、右、下4个邻域的网格中,靠近GT中心点的两个网格中的锚框也会参与预测和回归,具体公式如下所示:
[0022]b
x
=2σ(t
x
)

0.5+c
x
[0023]b
y
=2σ(t
y
)

0.5+c
y
[0024]b
w
=p
w
×
(2σ(t
w
))2[0025]b
h
=p
h
×
(2σ(t
h
))2ꢀꢀꢀꢀ
(1)
[0026]其中bx、by、bw、bh表分别示预测框的中心点坐标、宽度和高度,cx、cy分别表示预测框中心点所在网格的左上角坐标,tx、ty分别控制预测框的中心点相对于网格左上角坐标的偏移量大小,tw、th分别控制预测框的宽高相对于锚框宽高的缩放比例,pw、ph分别表示先验锚框的宽和高,公式中使用Sigmoid函数处理偏移量,使预测的偏移值保持在(0,1)范围内,从而使得预测框中心点坐标的偏移量保持在(

0.5,1.5)本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的小目标检测方法,其特征在于:其方法包括的步骤如下:第一步、获取图像样本,构建训练集;第二步、小目标检测模型的构建,具体步骤如下:步骤1、在输入端对输入图像采用马赛克增强的方式进行数据预处理;步骤2、通过主干网络来提取图像的特征;步骤3、通过基于特征金字塔的结构将提取的特征进行处理得到多尺度融合特征;在输入图像上进行深度卷积,不断进行下采样操作,再对高层特征进行上采样,对具有相同尺寸的特征图在通道维度上进行拼接操作,达到特征融合目的,即通过结合自上而下和自下而上方法获得较强的语义特征,运用浅层的细节信息提升模型对于小目标的检测性能;步骤4、采用综合矩形框损失、分类损失和置信度损失的损失函数,其中矩形框损失是通过基于双参数加权的完全交并比损失来计算的,对深度网络进行训练,得到小目标检测模型,矩形框损失等同于基于双参数加权的完全交并比损失Loss
αβ

CIoU
,具体公式如下:其中b和bgt分别表示预测框和真实框的中心点,ρ表示两个中心点之间的欧式距离,c表示预测框和真实框的最小闭包区域的对角线距离,δ是权重参数,v用来衡量预测框宽高比和真实框宽高比的相似度,IoU是预测框与真实框的交并比,其中:第三步:将待检测的图像,利用上述第二步得到的小目标检测模型实现目标检测,具体步骤如下:在输入端对待检测的图像进行自适应黑边填充预处理;通过主干网络对输入图像进行特征提取;通过基于特征金字塔的网络结构将提取到的特征进行处理,得到多尺度的融合特征;通过预测端对于得到的多尺度融合特征图进行网格化预测,由预测出来的物体目标框和置信度获得图像的目标检测效果。2.根据权利要求1所述的一种基于深度学习的小目标检测方法,其特征在于:所述的第二步的步骤2中的主干网络包括CBS卷积模块、CSP1_x模块和SPPF模块,在CBS模块中,Conv为卷积层,用于提取特征,通过对输入图像进行采样从而获得更加丰富的特征信息;BN为批量归一化,利用优化方差大小和均值分布,加速模型训练;SiLU为Swish激活函数,是Sigmoid加权线性组合。3.根据权利要求1所述的一种基于深度学习的小目标检测方法,其特征在于:所述的第二步的步骤3中包含CBS模块、Upsample、Concat和CSP2_x模块,特征金字塔浅层的特征图语义信息较少,主要反映细节信息,其所携带的位置信息更强,深层的特征所携带的语义信息较丰富,而位置信息更弱,特征金字塔结构的思想就是通过特征融合把深层的语义信息与浅层的细节信息相结合,兼顾了细节和整体,基于FPN结构进行改进的具体实现过程如下:网络主干部分的快速空间金字塔池化模块的输出经过1个卷积核大小为1
×
1的CBS模块,再通过采用最近邻差值方式的2倍上采样后与第6层的CSP1_x模块的输出执行拼接操
作,将特征图在通道维度上进行拼接形成融合特征图,经过1个CSP2_x模块后,作为预测端的其中一个输入;在CSP2_x模块后继续通过1个卷积核大小为1
×
1的CBS模块和最近邻差值方式的2倍上采样,与第4层的CSP1_x模块的输出执行拼接操作,将特征图在通道维度上进行拼接形成融合特征图,再经过1个CSP2_x模块后,作为预测端的第二个输入;继续通过1个卷积核大小为1
×
1的CBS模块和最近邻差值方式的2倍上采样,与第2层的CSP1_x模块的输出执行拼接操作,将特征图在通道维度上进行拼接形成融合特征图,再经过CSP2_x模块后,作为预测端的第三个输入,此时获得3个不同尺寸的融合特征图。4.根据权利要求1所述的一种基于深度学习的小目标检测方法,其特征在于:所述的第二步的步骤4中得到小目标检测模型的具体步骤如下:1)、网络模型的预测部分中,在3个不同尺寸的特征图上划分网格,每个网格都预设3个不同宽高比的锚框,用来预测和回归目标,预测时采取跨网格扩充的策略,即当1个GT的中心点落在某个检测层上的某个网格中,除了中心点所在的网格之外,其左、上、右、下4个邻域的网格中,靠近GT中心点的两个网格中的锚框也会参与预测和回归,具体公式如下所示:b

【专利技术属性】
技术研发人员:卢奕南赵浩权赵柯贤
申请(专利权)人:吉林大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1