本发明专利技术公开了一种基于深度学习的无人机场景下小目标检测的方法,所述方法包括:将无人机拍摄的画面输入预先训练的基于Unet型网络结构的生成器中,输出正常光线的图像;将正常光照的图像输入目标检测网络中,输出多个多维矩阵特征图,所述目标检测网络以卷积块Self
【技术实现步骤摘要】
一种基于深度学习的无人机场景下小目标检测的方法
[0001]本专利技术涉及一种基于深度学习的无人机场景下小目标检测的方法,属于计算机视觉的目标检测领域。
技术介绍
[0002]无人机产业迅速发展,在工业、农业、军事等行业都发挥着重要作用。无人机传输的画面也可以提供地面拍摄所不能给予的信息。目前无人机场景下小目标检测方法存在以下两种问题:无人机画面易受到光线或机身角度的影响,导致图像灰暗从而损失小目标的细节信息;目前的检测网络对小目标的检测性能不佳。
[0003]如果直接将无人机画面用于检测而不进行预处理,经常会出现自然光线不好或者无人机位置不合适导致曝光问题,这会损失小目标的部分细节并对后续检测造成不好的影响。
[0004]传统的弱光增强方法一般是基于直方图均衡或Retinex模型等方法,处理速度慢,自适应力低,不能满足后续检测对精度以及实时性的要求;而基于深度学习的弱光增强方法则大部分依赖成对的数据集进行训练,训练复杂其次无人机拍摄目标普遍较小,由于小目标本身具有尺寸有限,外观和几何线索较少以及和背景区分度不高等特点,所以一般方法对小目标检测的精度并不高,导致将其运用在无人机场景下的效果并不理想,而如何优化小目标的检测是计算机视觉领域的一个挑战性任务。
技术实现思路
[0005]本专利技术的目的在于提供本专利技术是一种基于深度学习的无人机场景下小目标检测的方法,该方法在增强和检测部分均采样深度学习的方法,解决了传统方法速度慢,精度低的缺点。同时对现有目标检测网络进行改进,使方法适用于无人机场景,解决了弱光图像的小目标检测问题,提升了小目标检测的性能。
[0006]一种基于深度学习的无人机场景下小目标检测的方法,所述方法包括:
[0007]将无人机拍摄的画面输入预先训练的基于Unet型网络结构的生成器中,输出正常光线的图像;
[0008]将正常光照的图像输入目标检测主干网络中,输出多个多维矩阵特征图,所述目标检测网络以卷积块Self
‑
Block为基础融合了通道注意力机制和空间注意力机制,采用7*7的大卷积核;
[0009]将多个多维矩阵特征图输入特征金字塔BiFPN
‑
S模块进行特征融合,输出相应的多个特征图用于预测不同尺寸的目标。
[0010]进一步地,所述生成器的训练方法包括:
[0011]选择弱光图像和正常光照的图像;
[0012]将弱光图像和正常光照的图像输入鉴别器与生成器中,通过鉴别器指导生成器生成更加真实的图像;
[0013]生成器与相对鉴别器采用交替训练使得生成的图像无限逼近正常光照图像,将生成器部分作为训练好的生成器。
[0014]进一步地,所述鉴别器的结构公式如下:
[0015][0016][0017]其中x
r
表示从正常图像中采样,而x
f
表示从生成器生成的图像中采样,σ表示sigmoid函数,C(x)表示图像是真实正常光照图像的概率,E()表示数学期望。
[0018]进一步地,所述生成器损失函数Loss
G
如下:
[0019][0020]E()表示数学期望,D()表示鉴别器的输出。
[0021]进一步地,所述鉴别器的损失函数Loss
D
如下:
[0022][0023]E()表示数学期望,D()表示鉴别器的输出。
[0024]进一步地,所述通道注意力机制等价的公式如下所示:
[0025]w=σ(C1D[AugPool(y);MaxPool(x)])
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0026]其中AugPool()代表全局平均池化后的1*1*C矩阵,MaxPool()代表最大池化后的1*1*C矩阵,C1D代表一维卷积运算,σ表示sigmoid函数。
[0027]进一步地,所述空间注意力机制等价的公式如下所示:
[0028]W=σ(Conv7*7[AugPool(y);MaxPool(x)])
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0029]AugPool()代表全局平均池化后的H*W*C矩阵,MaxPool()代表最大池化后的H*W*C矩阵,Conv
7*7
()表示卷积核大小为7*7的卷积运算,σ表示sigmoid函数。
[0030]进一步地,所述方法还包括:
[0031]将无人机拍摄的画面用K
‑
means聚类算法对检测目标重新聚类。
[0032]与现有技术相比,本专利技术所达到的有益效果:
[0033](1)本专利技术在预处理阶段采用深度学习的方法,通过生成对抗网络训练出一种Unet型网络结构的生成器,能够自适应地处理由于自然光线不好或者无人机位置不合适导致图像灰暗问题。克服了传统弱光增强模型处理速度慢,自适应力低等缺点,与此同时,也避免了目前深度学习方法大部分依赖成对的数据集进行训练的问题。除此之外,还可以通过筛选不同情况下的训练图片增强网络适应力,提升小目标检测性能。
[0034](2)本专利技术通过融合注意力机制提出了一种新的卷积块Self
‑
Block用于目标检测的主干网络,能够以很小的代价增加检测的性能。相比于现在普遍使用的3*3小卷积块,Self
‑
Block具有更大感受野和关注重点目标的能力,有助于小目标的检测。
[0035](3)本专利技术以BiFPN为基础提出了一种简化版特征金字塔(BiFPN
‑
S)用于特征融合。现代特征金字塔一般有计算量大(如:PANet)或者融合不充分的缺点(如:FPN)。而BiFPN
‑
S通过添加残差结构与减少不必要的融合点实现了一种高效、融合充分的特征金字塔结构,可以提高小目标检测的性能。
[0036]本专利技术的优点是全部采用深度学习的方式进行小目标检测,搭配计算机成熟的卷积运算技术以及GPU的高效计算性能,做到了检测速度快、精度高;通过Unet型网络结构的生成器对无人机图像进行预处理,可以自适应地处理不同条件下的弱光场景,减少对小目标检测的干扰;用Self
‑
Block作为Backbone的卷积块提高网络性能;使用BiFPN
‑
S进行特征融合,做到了同时保留大感受野、丰富语义信息以及小目标的特征线索,极大程度地提升小目标检测的性能。
附图说明
[0037]图1为本专利技术方法流程图;
[0038]图2为本专利技术整体网络框架示意图;
[0039]图3为本专利技术生成器训练过程示意图;
[0040]图4为本专利技术Self
‑
Block结构示意图;
[0041]图5为本专利技术通道注意力结构示意图;
[0042]图6为本专利技术空间注意力结构示意图;
[0043]图7为本专利技术BiFPN
‑
S结构示本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于深度学习的无人机场景下小目标检测的方法,其特征在于,所述方法包括:将无人机拍摄的画面输入预先训练的基于Unet型网络结构的生成器中,输出正常光线的图像;将正常光照的图像输入目标检测主干网络中,输出多个多维矩阵特征图,所述目标检测网络以卷积块Self
‑
Block为基础融合了通道注意力机制和空间注意力机制,采用7*7的大卷积核;将多个多维矩阵特征图输入特征金字塔BiFPN
‑
S模块进行特征融合,输出相应的多个特征图用于预测不同尺寸的目标。2.根据权利要求1所述的基于深度学习的无人机场景下小目标检测的方法,其特征在于,所述生成器的训练方法包括:选择弱光图像和正常光照的图像;将弱光图像和正常光照的图像输入鉴别器与生成器中,通过鉴别器指导生成器生成更加真实的图像;生成器与相对鉴别器采用交替训练使得生成的图像无限逼近正常光照图像,将生成器部分作为训练好的生成器。3.根据权利要求2所述的基于深度学习的无人机场景下小目标检测的方法,其特征在于,所述鉴别器的结构公式如下:于,所述鉴别器的结构公式如下:其中x
r
表示从正常图像中采样,而x
f
表示从生成器生成的图像中采样,σ表示sigmoid函数,C(x)表示图像是真实正常光照图像的概率,E()表示数学期望。4.根据权利要求2所述的基于深度学习的无人机场景下小目标检测的方法,其特征在于,所述生成器损失函数Loss
G
...
【专利技术属性】
技术研发人员:张登银,邱宇,冯莹莹,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。