当前位置: 首页 > 专利查询>燕山大学专利>正文

一种基于深度学习的无人机目标跟踪系统技术方案

技术编号:34642266 阅读:45 留言:0更新日期:2022-08-24 15:17
本发明专利技术公开了一种基于深度学习的无人机目标跟踪系统,通过设计一个基于Anchor

【技术实现步骤摘要】
一种基于深度学习的无人机目标跟踪系统


[0001]本专利技术涉及一种基于深度学习的无人机目标跟踪系统,属于计算机视觉和图像处理


技术介绍

[0002]视觉目标跟踪是计算机视觉的一项基础的、具有挑战性的任务。它是针对给定视频或者图像序列,以初始帧目标的位置和大小进行初始化,逐帧跟踪所指示的目标。近年来空中跟踪因其应用广泛,如室内避障、灾难响应和安装传感器而受到广泛的关注。空中跟踪的目标是根据目标的初始状态从而预测目标在后续帧中的位置。
[0003]空中跟踪与常规跟踪最显著的区别是,由于空中平台资源有限,空中跟踪在实时速度、低分辨率、严重遮挡和长期跟踪方面需要投入更多的关注。此外由于无人机(UAV)强大的灵活性,无人机跟踪已经引起相当大的关注,如航空摄影、路径规划等。由于嵌入式平台上的计算资源有限,尽管付出了巨大的努力,为无人机设计高效、准确、稳定的跟踪器仍然是一项具有挑战性的任务。
[0004]一般来说,无人机跟踪领域有两种主流方法,即基于相关滤波(CF)的方法和基于深度学习(DL)的方法。基于相关滤波方法的在线跟踪器因为计算复杂度低而被广泛的采用。尽管效率很高,但是基于相关滤波的跟踪器在精确度和鲁棒性方面很难满足无人机在复杂场景下的跟踪需求。而基于深度学习的方法通过利用深度特征提取在跟踪性能方面取得了显著的进步。因此高效的基于深度学习的算法是平衡性能和速度的一种很有前景的方法。在基于深度学习方法的跟踪器中,具有孪生网络的跟踪器因为其在目标跟踪方面的巨大潜力而存在较大的优越性。
专利技术内容
[0005]本专利技术需要解决的技术问题是提供一种基于深度学习的无人机目标跟踪系统,基于Anchor

free的聚合多尺度的目标跟踪系统,使其在无人机跟踪领域的各种复杂场景下均能展现出良好的性能;采用一个图注意力模块(GAM)来替代传统的互相关,更加有效地将目标信息从模板区域传递到搜索区域;针对目标跟踪中尺度变化等问题,采用了融合多尺度感受野结构;针对目标跟踪中计算复杂等问题,采用了自适应锚点的结构,大大减少了超参数。
[0006]为解决上述技术问题,本专利技术所采用的技术方案是:
[0007]一种基于深度学习的无人机目标跟踪系统,包括如下模块:
[0008]特征提取网络,包括一个孪生网络,该网络有两个共享结构的分支,即模板分支和搜索分支。
[0009]图注意力模块(GAM),给定模板帧图像T和搜索帧图像S,通过特征提取网络获得相对应的特征图F
t
和F
s
。我们将特征图的每个1
×1×
c网格视为一个节点,其中c表示特征通道的数量。设V
t
为包含F
t
所有节点的节点集,V
s
为包含F
s
所有节点的节点集。用一个完全二部
图G=(V,E)来建模目标区域和搜索区域之间的部分级连关系,其中V=V
s
∪V
t
,G的子图分别是G
t
=(V
t
,φ)、G
s
=(V
s
,φ)。
[0010]令e
ij
表示节点i∈V
s
和j∈V
t
之间的相关分数:
[0011][0012]其中是节点i和节点j的特征向量。最后我们将聚合特征与节点特征结合起来得到更强的特征:
[0013][0014]其中||表示向量拼接,W
v
是线性变换矩阵。所有并行计算,为后续任务生成响应图。
[0015]Encoder模块,是一个单入多出的结构,主要包含一个投影层和两个剩余块这两部分。投影层首先应用1
×
1卷积层来减少通道维数,然后通过3
×
3卷积层来细化上下文语义信息。与FPN中相同,剩余块由三个连续的卷积块组成:第一个1
×
1卷积进行信道缩减,缩减率为4,然后用一个3
×
3扩张卷积来扩大接收域,最后用一个1
×
1卷积来恢复通道数量。我们在3
×
3卷积层中依次叠加4个不同扩张速率的残差块,生成具有多个接收域的输出特征,以此来覆盖所有对象的尺度。
[0016]Decoder模块,包括锚点建议网络(APN)和一个多分类回归网络。
[0017]锚点建议网络(APN):为了在不影响跟踪性能的前提下提高跟踪效率,本文提出了减少锚点数量,充分利用锚点的方法。为此,构建了锚点建议网络。特征提取网络中φ5(x)和φ5(z)与核函数进行卷积,然后传入Encoder,APN利用Encoder提取到的特征作为建议锚点。不同于Anchor

based的算法,本文采用Anchor

free的思想,针对不同的场景,不需要设置过多的超参数,采用自适应锚的方式,自动的选择正负训练样本。
[0018]经过运算得到了自适应锚,APN为每个相似映射中的点生成了一个锚点,对于建议锚点映射D(i,j:)上的每个位置,都可以映射到搜索补丁上。例如,将建议锚点在图上的位置(i,j)设为(p
i
,p
j
),它是(i,j)接收域的中心,APN的损失函数为:
[0019][0020]Decoder模块中分类分支输出三个分类特征图第一个分支通过计算锚点与真实框之间的重叠来对正锚点进行分类。第二个分支将锚点的中心点考虑在内。第三个分支计算最终中心点与真实框之间的距离,以实现精确的分类。综合这三个分支,总体的损失函数为:
[0021]L
cls
=λ
cls1
L
cls1

cls2
L
cls2

cls3
L
cls3
ꢀꢀꢀꢀꢀꢀꢀꢀ
(4),
[0022]其中L
cls1
和L
cls2
为交叉熵损失函数,L
cls3
代表二元交叉熵损失函数,λ
cls1
λ
cls2
λ
cls3
分别是这三个分支的权重系数。中每个点都包含二维向量,表示每个锚点的质量演化。估计对应位置的前景分数和背景分数。
[0023]回归分支输出回归特征其中w和h代表Encoder输出响应图的宽和高。
用4D向量来表示回归标签,让g
x
,g
y
,g
w
,g
h
分别表示真实框的中心点、高度和宽度。那么间隔为:
[0024][0025][0026]考虑到不同损失函数的优点,我们采用smooth L1loss和IoUloss进行回归,因此回归的损失计算公式为:
[0027][0028]由于采用了上述技术方案,本专利技术取得的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的无人机目标跟踪系统,其特征在于:包括如下模块:特征提取网络,包括一个孪生网络,用于提取目标特征;图注意力模块GAM,替代传统的互相关,更加有效地将目标信息从模板区域传递到搜索区域;Encoder模块,包括投影层和剩余块两部分,融合多尺度感受野;Decoder模块,包括锚点建议网络APN和一个多分类回归网络;采用自适应锚点,减少了超参数,降低了计算量;采用多分类回归分支,能够精确的实现分类,提高该系统的鲁棒性。2.根据权利要求1所述的一种基于深度学习的无人机目标跟踪系统,其特征在于:所述特征提取网络,有两个共享结构的分支,即模板分支和搜索分支。3.根据权利要求1所述的一种基于深度学习的无人机目标跟踪系统,其特征在于:所述图注意力模块GAM,给定模板帧图像T和搜索帧图像S,通过特征提取网络获得相对应的特征图F
t
和F
s
,将特征图的每个1
×1×
c网格视为一个节点,其中c表示特征通道的数量;设V
t
为包含F
t
所有节点的节点集,V
s
为包含F
s
所有节点的节点集;用一个完全二部图G=(V,E)来建模目标区域和搜索区域之间的部分级连关系,其中V=V
s
∪V
t
,G的子图分别是G
t
=(V
t
,φ)、G
s
=(V
s
,φ);令e
ij
表示节点i∈V
s
和j∈V
t
之间的相关分数:其中是节点i和节点j的特征向量;最后将聚合特征与节点特征结合起来得到更强的特征:其中||表示向量拼接,W
v
是线性变换矩阵,所有并行计算,为后续任务生成响应图。4.根据权利要求1所述的一种基于深度学习的无人机目标跟踪系统,其特征在于:所述Encoder模块,是一个单入多出的结构,包括一个投影层和两个剩余块;投影层首先应用1
×
1卷积层来减少通道维数,然后通过3
×
3卷积层来细化语义上下文信息;剩余块包括三个连续的卷积块:第一个1
×
1卷积进行信道缩减,缩减率为4,然后用一个3
×
3扩张卷积来扩大接收域,最后用一个1
...

【专利技术属性】
技术研发人员:胡硕姚美玉
申请(专利权)人:燕山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1