当前位置: 首页 > 专利查询>河南大学专利>正文

一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法技术

技术编号:38761521 阅读:14 留言:0更新日期:2023-09-10 10:34
本发明专利技术公开一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法,包括:构建目标检测网络;目标检测网络由主干网络、多重特征融合网络和预测头三部分组成;主干网络由坐标和全局信息聚合模块组成;坐标和全局信息聚合模块包括坐标信息提取分支和全局信息提取分支;对构建的目标检测网络进行训练,得到目标检测模型,并采用Focal

【技术实现步骤摘要】
一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法


[0001]本专利技术涉及无人机图像目标检测
,尤其涉及一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法。

技术介绍

[0002]无人机应用技术在近年来也取得了很大的进展。由于无人机具有成本较低、机动性好、方便使用的优势,无论是对于军事还是民用领域都有很大的应用价值。无人机图像目标检测也因此成为了近年来的研究热点。然而,大多目标检测方法在无人机图像上的特征提取能力有限,检测性能受限,无法达到较高检测精度的要求。因此一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法是一项有意义的课题。
[0003]许多基于卷积神经网络的检测模型都取得了良好的效果,然而,由于无人机图像的特殊性,普通目标检测框架无法很好地适用于无人机图像,相比于在自然图像上进行目标检测工作,无人机图像上的目标检测工作通常面临以下几点挑战:
[0004](1)无人机图像中,通常会有很多目标被遮挡的情况,同时由于光线的原因导致目标的边界和特征变得不明显,模型很难提取出具有判别性特征。
[0005](2)因为无人机拍摄视角的问题,无论是同一类别的目标还是不同类别的目标,其尺度存在很大差距,且小目标居多,非常考验模型对多尺度目标和小目标的特征提取能力。
[0006](3)现有模型的边界框回归损失函数存在缺陷,不能很好的对边界框进行回归,从而降低检测器的性能。

技术实现思路

[0007]本专利技术针对上述问题,提出一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法,可以对拍摄角度复杂多变的无人机图像进行精确的检测工作。本专利技术通过结合坐标信息和全局信息来缓解特征提取过程中背景因素的干扰,增强网络提取鲁棒性特征的能力。为了提高模型对多尺度目标的检测能力,本专利技术通过对特征融合网络进行改进,设计出了一种名为多重特征融合网络(Multi

Feature Fusion Pyramid Network,MF

FPN)的结构,可以更好地融合多尺度特征,改善多尺度目标的检测性能。为了提高模型边界框回归的能力,本专利技术使用Focal

EIOU损失函数来替换模型原本的边界框回归损失,改善模型的检测性能。本专利技术使用具有挑战性的VisDrone数据集进行实验,以验证所提出模型的有效性。
[0008]为了实现上述目的,本专利技术采用以下技术方案:
[0009]一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法,包括:
[0010]步骤1:构建目标检测网络;所述目标检测网络由主干网络、多重特征融合网络和预测头三部分组成;所述主干网络用于提取输入无人机图像的特征信息,并输出不同大小的特征图;所述多重特征融合网络用于对不同大小的特征图进行特征融合;所述预测头用
于基于融合后特征进行检测,来获得最终的检测结果;所述主干网络由坐标和全局信息聚合模块组成;所述坐标和全局信息聚合模块包括坐标信息提取分支和全局信息提取分支,坐标信息提取分支通过引入注意力机制,令其在使用卷积进行特征提取的同时时刻关注坐标信息,全局信息提取分支通过池化操作来获得特征图全局信息,最终通过将两个分支提取的特征进行融合来获得具有更丰富上下文信息的特征;
[0011]步骤2:对构建的目标检测网络进行训练,得到目标检测模型,并采用Focal

EIOU loss作为模型的边界框损失;
[0012]步骤3:基于目标检测模型对无人机航拍图像进行多尺度目标检测。
[0013]进一步地,所述坐标信息提取分支的处理流程包括:
[0014]首先使用1
×
1卷积将输入特征图的通道数减半,获得第一个中间特征图M1;
[0015]然后使用3
×
3卷积和注意力机制来提取目标特征,获得第二个和第三个中间输出特征图M2,M3:
[0016]M2=CA(Conv3×3(CA(Conv3×3(M1))))
[0017]M3=CA(Conv3×3(CA(Conv3×3(M2))))
[0018]式中,CA表示注意力机制。
[0019]进一步地,所述注意力机制的处理流程包括:
[0020]首先对输入特征图F∈R
C
×
H
×
W
进行水平方向和垂直方向上的池化操作,获得两个具有方向感知的特征图f
h
∈R
C
×
H
×1和f
w
∈R
C
×1×
W

[0021][0022][0023]其中f
c
和F
c
分别表示输出和输入特征图的第c个通道,H和W分别表示输入特征图的高和宽;
[0024]然后,将f
h
和f
w
在空间维度上进行Concat操作,之后使用1
×
1卷积减少通道数,再通过批归一化和激活函数来获得特征其中r是用来降低通道数的缩放因子;
[0025]M=δ(BN(Conv1×1([f
h
,f
w
])))
[0026]其中[
·
]表示通道Concat操作,BN表示批归一化,δ表示非线性激活函数;然后,将M从空间维度进行分割,获得两个特征张量和将这两个特征张量分别进行1
×
1卷积操作,来将通道数提升到与输入特征图的通道数相同,再通过Sigmoid函数得到注意力权重g
h
和g
w

[0027]g
h
=σ(Conv1×1(y
h
))
[0028]g
w
=σ(Conv1×1(y
w
))
[0029]其中σ表示sigmoid函数;
[0030]最后将g
h
和g
w
与输入特征图F进行相乘,得到最后的输出特征图Y∈R
C
×
H
×
W

[0031][0032]进一步地,所述全局信息提取分支的处理流程包括:
[0033]先使用全局池化操作来增加骨干网的全局上下文信息,对于输入特征X∈R
C
×
H
×
W
,首先进行全局平均池化操作和全局最大池化操作,然后将二者结果相加,再通过一个全连接层和Sigmoid函数来为每个通道分配权重,令模型关注高响应的通道信息:
[0034][0035]其中GAP和GMP分别表示全局平均池化和全局最大池化。FC表示全连接层。
[0036]σ表示sigmoid函数;
[0037]然后,将结果与输入特征X相乘,再经过一个1
×
1卷积将通道数减半,得到全本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法,其特征在于,包括:步骤1:构建目标检测网络;所述目标检测网络由主干网络、多重特征融合网络和预测头三部分组成;所述主干网络用于提取输入无人机图像的特征信息,并输出不同大小的特征图;所述多重特征融合网络用于对不同大小的特征图进行特征融合;所述预测头用于基于融合后特征进行检测,来获得最终的检测结果;所述主干网络由坐标和全局信息聚合模块组成;所述坐标和全局信息聚合模块包括坐标信息提取分支和全局信息提取分支,坐标信息提取分支通过引入注意力机制,令其在使用卷积进行特征提取的同时时刻关注坐标信息,全局信息提取分支通过池化操作来获得特征图全局信息,最终通过将两个分支提取的特征进行融合来获得具有更丰富上下文信息的特征;步骤2:对构建的目标检测网络进行训练,得到目标检测模型,并采用Focal

EIOU loss作为模型的边界框损失;步骤3:基于目标检测模型对无人机航拍图像进行多尺度目标检测。2.根据权利要求1所述的一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法,其特征在于,所述坐标信息提取分支的处理流程包括:首先使用1
×
1卷积将输入特征图的通道数减半,获得第一个中间特征图M1;然后使用3
×
3卷积和注意力机制来提取目标特征,获得第二个和第三个中间输出特征图M2,M3:M2=CA(Conv3×3(CA(Conv3×3(M1))))M3=CA(Conv3×3(CA(Conv3×3(M2))))式中,CA表示注意力机制。3.根据权利要求2所述的一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法,其特征在于,所述注意力机制的处理流程包括:首先对输入特征图F∈R
C
×
H
×
W
进行水平方向和垂直方向上的池化操作,获得两个具有方向感知的特征图f
h
∈R
C
×
H
×1和fw∈R
C
×1×
W
::其中f
c
和F
c
分别表示输出和输入特征图的第c个通道,H和W分别表示输入特征图的高和宽;然后,将f
h
和f
w
在空间维度上进行Concat操作,之后使用1
×
1卷积减少通道数,再通过批归一化和激活函数来获得特征其中r是用来降低通道数的缩放因子;其中[
·
]表示通道Concat操作,BN表示批归一化,δ表示非线性激活函数;然后,将M从空间维度进行分割,获得两个...

【专利技术属性】
技术研发人员:周黎鸣刘哲昊赵航左宪禹葛强刘扬党兰学侯艳娥
申请(专利权)人:河南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1