一种基于目标感知ViT的无人机跟踪方法技术

技术编号:39003077 阅读:10 留言:0更新日期:2023-10-07 10:34
本发明专利技术公开了基于目标感知的无人机跟踪方法,涉及无人机跟踪技术领域。采用的跟踪框架是一个单流的跟踪框架,包含主干网络和预测头两部分。主干网络使用DeiT

【技术实现步骤摘要】
一种基于目标感知ViT的无人机跟踪方法


[0001]本专利技术涉及目标跟踪领域,尤其涉及一种针对无人机的目标跟踪方法。

技术介绍

[0002]随着人工智能的发展,很多行业都受到影响,其中有些发生着巨大的变化。对于无人机来说,许多公司都致力于利用深度学习的技术让无人机更加智能,其中之一就是无人机跟踪技术。无人机跟踪在灾害救援、交通监视、环境监测和电力巡检等方面有着广泛的应用。无人机不同于无人车、无人船等,无人机由于其起飞重量的限制,所搭载的处理器以及电池都要尽可能的轻,因此无人机的处理器性能和电池电量都受到制约。
[0003]无人机跟踪器应该具备两个基本素质:1)要能够应对一些极端的挑战,如极端视角、运动模糊和严重遮挡等;2)满足有限电池容量和计算资源约束的情况下高效率低功耗的要求。
[0004]目前无人机中使用最广泛的跟踪器仍是基于判别式滤波器(DCF)的跟踪器,最近也有些使用滤波器剪枝的基于卷积神经网络(CNN)的轻量级跟踪器。基于DCF的跟踪器因其效率高而受到青睐,然而它们往往难以实现高跟踪精度。另一方面,基于CNN的跟踪器以其高精度而闻名,但它们对计算资源的要求很高,因此不太适合高效的需求。为解决此问题,权衡之下,研究人员为无人机跟踪引入基于CNN的轻量级跟踪器。这些跟踪器采用滤波器剪枝技术来减少网络中的参数数量,从而显著提高了精度和效率。
[0005]在通用视觉跟踪领域,新兴的基于ViT(Vision Transformer)的跟踪器通过使用注意力机制而获得了巨大的成功,能够更有效地捕捉目标位置。而无人机跟踪领域尚未有人提出基于ViT的跟踪器,可能是因为基于ViT的通用视觉跟踪器具有庞大的模型参数数量和较低的运行速率,这些原因阻止了许多有益的探索。

技术实现思路

[0006]本专利技术的目的是提供一种基于目标感知ViT的无人机跟踪方法以进行实时高效的无人机跟踪。
[0007]本专利技术的技术方案是设计并训练所提出的无人机跟踪模型,将该模型部署到无人机平台上进行目标跟踪以满足用户需求。
[0008]基于ViT的无人机跟踪框架如图1所示。该框架由基于目标感知ViT的主干网络以及预测头部组成。
[0009](1)主干网络
[0010]主干网络承载着同时输出特征学习和模板

搜索图像耦合的任务,允许两个过程交互。该框架的输入包含目标模板Z和搜索图像X,它们首先被按相同大小(16
×
16)切割并按顺序展平为一个序列,然后通过可训练的线性投影层标记化,并产生K个向量,其表示为:
[0011](1)
[0012]其中d表示每个向量的嵌入维度,向量序列和分别表示模板和搜索图
像,其中。用表示第层的transformer 块,向量从第层到第层通过来转换。整个转换过程可表示为:
[0013](2)
[0014]其中表示组合操作,是的参数,共有层transformer 块。
[0015]本框架的核心思想是模板图像与其特征之间的互信息极大化。
[0016]设是两个随机变量,则之间的互信息可以表示为:
[0017](3)
[0018]其中表示联合概率分布,表示边缘概率分布,表示Kullback

Leibler散度(通常简称为KL散度)。但在实际情况中,估计互信息非常困难,因为我们可以得到样本,但是无法得到总体分布。因此我们使用Deep InfoMax(DIM)学习用于无人机跟踪的目标感知ViT,它基于Jensen

Shannon散度(JSD)而不是KL散度。其表示为:
[0019](4)
[0020]其中是由参数化的神经网络,是Softplus激活函数。在本框架中,我们的具体做法如下:
[0021](5)
[0022]=表示从主干网络输出中截取的模板特征。互信息极大化损失函数定义如下:
[0023](6)
[0024](2)预测头和损失函数
[0025]使用基于全卷积网络的预测头,包含三个分支,每个分支包括4个堆叠在一起的卷积

批量归一化

ReLU层,用于估计目标的边界框。从主干网络输出的向量中截取搜索图像的部分并重新解释为2维空间特征图输入到预测头中。其结果为目标分类得分,局部偏移量,以及归一化边界框大小(其中分别表示搜索图像的高和宽,表示将图像切成的小块的边长)。位置的初始估计由最大分类得分确定,表示为。然后基于这个粗略位置计算出预测的目标边界框为:
[0026](7)
[0027]对于跟踪任务我们采用加权的focal loss进行分类、并将IoU损失和L1损失的组合用于边界框回归。最后总的损失函数为:
[0028](8)
[0029]其中常数、、。在加载用于图像分类的ViT预训练权重之后,我们的框架使用整体损失函数进行端到端训练。
附图说明
[0030]图1 基于目标感知ViT的无人机跟踪框架
[0031]图2 使用和未使用目标感知的注意力图对比
[0032]图3 预测框可视化
[0033]图4 无人机跟踪测试
具体实施方式
[0034]本专利技术是一种基于目标感知ViT的无人机跟踪方法,具体步骤如下:
[0035](1) 首先准备训练数据集,训练集包括GOT

10k、LaSOT、COCO和TrackingNet,这四个数据集都是目标跟踪领域非常著名的数据集。
[0036](2) 创建无人机跟踪框架,本框架中主干网络使用DeiT

Tiny,它是一种基于ViT的网络模型,预测头为4个堆叠在一起的卷积

批量归一化

ReLU层。
[0037](3) 本框架包括两个输入分别是模板和搜索图像,它们的大小分别为128
×
128和256
×
256,将输入图片缩放至指定尺寸。批量大小设置为32。使用AdamW优化器来训练模型,并将权重衰减设置为,初始学习率为。共进行300轮训练,每轮输入60000图像对,并且在240轮以后将学习率降低10倍。经过我们的目标感知训练以后,模型对于目标的识别更加精确。可视化的注意力图(attention map)如图2所示,左边为原图,中间是训练过程中未使用目标感知的注意力图,右边是训练过程中加入目标感知的注意力图,从图中也可以看出加入目标感知后模型对目标产生的注意力更加突出。
[0038](4) 准备测试数据集,测试集包括DTB70、UAVDT、VisDrone2018、UAV123和UAV123@10fps。这五个数据集为现有的具有挑战性的无人机测试基准,包括无人机剧烈运动下拍摄的视频、各种杂乱的场景和物体、各种天气条件、飞行高度和相机视角等,用于评估无人机跟踪算法。将测试集每个视频的第一帧图片作为模板,之后的每一帧本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于目标感知ViT的无人机跟踪方法,其特征在于:S1:该框架的输入包括需要跟踪的目标模板和搜索图像;S2:该框架包括主干网络和预测头;S3:主干网络使用一种基于ViT的网络模型DeiT

Tiny,输入为由目标模板分割并展平的个向量和由搜索图像分割并展平的个向量,输出为8
×
8的特征图;S4: 预测头部有三个分支,分别用于预测分类得分、预测下采样偏移值以及预测归一化边界框大小,每个分支由四个堆叠在一起的卷积

批量归一化

ReLU组成;S5: 对送入主干网络之前的模板图像和经过主干网络之后的模板特征进行互信息极大化处理以实现目标感知;S6:该模型训练时采用的损失函数由公式(1)计算;
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其...

【专利技术属性】
技术研发人员:李水旺杨向阳叶恒舟
申请(专利权)人:桂林理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1