基于SwinTransformer的无人机目标跟踪方法技术

技术编号:35153869 阅读:54 留言:0更新日期:2022-10-05 10:33
基于Swin Transformer的无人机跟踪目标方法,本发明专利技术涉及无人机自动驾驶过程中,现有的目标追踪算法对目标追踪效果不好的问题。传统的目标追踪算法存在着目标丢失再检测无法算作同一单位,目标遮挡无法识别,数据整体时序性能利用不强等问题;为解决上述问题,本发明专利技术提出了基于Swin Transformer的无人机目标追方法;该方法将语音领域的算法应用到目标追踪算法上,首先利用Swin Transformer将数据进行特征的提取,将图像特征进行两两拼接,之后使用改进的Transformer进行目标追踪算法特征的增强,之后在自注意力模块中输入上述两两拼接的特征,增强帧与帧之间的特征学习;经过充分的实验验证得知,该方法在无人机目标追踪上取得了很好的效果。本发明专利技术应用于无人机自动驾驶的目标追踪领域。驶的目标追踪领域。

【技术实现步骤摘要】
基于Swin Transformer的无人机目标跟踪方法


[0001]本专利技术涉及无人机自动驾驶技术中的目标追踪。

技术介绍

[0002]进入二十一世纪,由于无人机具有不需要人员驾驶等突出优点,被广泛地应用在军事和民用的多个领域,实践证明,无人机是一种很好的空中作业平台,因而越来越为人们所关注,无人机自动驾驶过程中目标追踪方法的准确性直接影响到无人机驾驶控制的准确性。在目标追踪的过程中出现的目标被遮挡,相似目标干扰等因素极易造成无人机驾驶控制不精确的问题,从而引发事故,甚至对无人机造成毁灭性的破坏。所以,对目标追踪准确性进行提高可以大幅度的提高无人机自动驾驶系统的准确性。但是由于无人机机载重量有限,且无人机功率限制机载计算设备的计算性能,同时在无人机运行过程中,不同的天气对无人机检测摄像头所采集的图像具有很大的影响,无人机的抖动会造成图像的模糊,周围复杂的环境同样也会对目标造成遮挡等影响。现在急需一款轻量级且鲁棒性高的目标追踪方法来满足行业需求。
[0003]无人机自动驾驶使用的目标追踪方法必须要具备轻量级以及鲁棒性高等特点,且能够长时间运行,这是针对无人机自动驾驶目标追踪长期以来的研究方向。现有的主流目标追踪研究主要是基于LaSOT、GOT

10K等大型数据集进行研究,然而在实际工作环境中,外界的光照条件和图像的呈现是在不断的变化的,无人机在高速运动的情况下造成的图像模糊,物体被遮挡物遮挡等情况均在数据集中体现。总体而言数据集难度较高,国内外现有的方法无法解决上述问题。
[0004]针对上述问题,提出一种基于Swin Transformer的无人机目标追踪方法,如图1所示:该方法使用Swin Transformer对检测数据的模板帧和搜索帧进行特征提取;之后将特征图进行两两拼接,利用经过改进的Transformer进行特征增强;最后,使用经过改进的IoU

Aware等操作得到结果;改进的Transformer网络为TMC

Transformer,TMC

Transformer是针对Transformer在目标追踪领域的缺陷而改进的方法,该方法增强了算法整体的准确性,通过大量学习来确定目标的特征来实现在视频流中追踪目标,经过大量的实验验证,本专利技术所提出的方法在经过筛选的LaSOT和GOT

10K等数据集上均取得了最好的结果,准确率分别为80.7%和65.4%。

技术实现思路

[0005]本专利技术的目的是为了解决现有的智能检测方法无法实现无人机对所拍摄的目标进行有效追踪的问题,而提出的基于Swin Transformer的无人机目标追踪方法。
[0006]上述专利技术目的主要是通过以下技术方案实现的:基于Swin Transformer的无人机目标追踪方法,其特征在于首先对无人机拍摄到的视频图像进行特征提取,生成拍摄视频图像的特征续流,然后使用神经网络进行目标追踪;所述方法包含以下步骤:

S1、搭建基于Swin Transformer的特征提取网络利用Swin Transformer进行特征提取,该算法分别进行了4倍,8倍和16倍的下采样,算法分为4个Stage,每个Stage包含两个部分,分别是Patch Merging (第一个块是线性层) 和Swin Transformer模块,每个Swin Transformer模块中将多头自注意力替换为窗口多头自注意力和移动窗口多头自注意力,之后将特征进行两两拼接传递到下一步骤。
[0007]S2、利用改进的Transformer进行特征增强Transformer本身应用于语音识别处理方向的神经网络,应用与目标追踪网络中主要用于增强特征同时突出时序关系,但在时序特征增强方面仍有提升的空间;我们将前馈神经网络分为两层放置在多头自注意力前后,同时在前一层前馈神经网络多头自注意力之间加入卷积模块层;最后将多头自注意力修改为拼接多头自注意力,将输入变为上下两帧图像特征的拼接;整体改进旨在更好针对时序特征进行增强,减少计算过程中的截断误差,同时弥补Transformer增强局部特征方面的劣势。
[0008]S3、基于IoU

Aware的预测头部预测头部主要是用来对目标追踪结果进行预测,主要包括两个分支,分别为分类分支和包围盒回归分支,每个分支都是一个三层感知器,这两个分支一个负责前景背景分类,另一个负责边界框回归。
[0009]S4、制作数据集以及数据集增强这里直接引用LaSOT和GOT

10K数据集,通过数据增强出晴天,雨天,阴天等天气的效果,用于数据训练。
[0010]S5、训练模型,实现对目标的追踪专利技术效果本专利技术主要针对无人机自动驾驶情况下,现有目标追踪定位不准确的问题,提出一种基于Swin Transformer的无人机跟踪目标方法,如图1所示:即通过Swin Transformer这一强大的骨干网络进行特征提取,后经过改进后的Transformer进行特征增强,最后将特征输入到头部网络获得结果,供自动驾驶控制系统使用。模型分别在LaSOT和GOT

10K数据集上进行了多次实验;实验结果如图2所示;从准确率来看我们的数据集在LaSOT和GOT

10k上均取得了最好的效果,与其他的方法拉开较大差距,在GOT

10K数据集上准确率达到了80.7%,领先其他方法11.9

18.5个百分点,在LaSOT数据集上取得了65.4%的准确率,相比于其他方法提升0.8

9.9个百分点。在GOT

10K数据集上,我们同样比较了SR0.5和SR0.75这两个参数,SR为成功跟踪重叠超过阈值的帧的百分比,0.5和0.75是实验中所取得阈值,在SR0.5上我们取得了91.6%的准确率优于其他方法13.5

19个百分点,同样在SR0.75上我们得到了最好的76.1%的准确率且优于其他方法22

27.3个百分点;我们同样在LaSOT数据集上的精度和标准化精度进行对比试验,这两个参数是现阶段目标追踪领域常用的评价参数,在精度上我们取得了77.6%的准确率优于其他方法0.6

24.6个百分点,同样在标准精度上我们得到了最好的80.4%的准确率相比于其他方法高出0.8

20.3个百分点;通过上面的分析得出:本专利技术提出的基于Swin Transformer的无人机跟踪目标算法在上述数据集上都获得了很不错的效果。
附图说明
[0011]图1基于Swin Transformer的无人机跟踪目标方法示意图;图2模型在各个数据集上的准确率汇总图;具体实施方法为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于Swin Transformer的无人机目标追踪方法,如图1所示:该方法使用Swin Transformer对检测数据的模板帧和搜索帧进行特征提取;之后得到两两图片的拼接特征图,然后利用经过改进的Transformer进行特征增强;最后,使用经过改进的IoU

Aware等对图像进行操作,得到结果;改进的Transformer网络为TMC

Transformer (TM

Mac

Conv

Transformer),TMC

Transformer是针对Transformer在目标追踪领域的缺陷而改进的算法,该算法首先将Transformer的前馈神经网络层分为上下两部分,每部分为原来的一半,之后将提出的时序增强自注意力加入两层前馈神经网络之间,最后在前半层前馈神经网络和时序增强自注意力之间加入卷积模块增强局部特征的提取,该算法增强了算法整体的准确性,通过大量学习来确定目标的特征来实现在视频流中追踪目标;所述方法包含以下步骤:S1、搭建基于Swin Transformer的特征提取网络;S2、将传统的Transformer改进为马卡龙格式,并加入卷积模块;S3、修改自注意力机制加入相邻帧特征拼接;S4、基于IoU

...

【专利技术属性】
技术研发人员:张瑞麟何勇军王健丁博
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1