System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种无人机多模态跟踪方法技术_技高网
当前位置: 首页 > 专利查询>临沂大学专利>正文

一种无人机多模态跟踪方法技术

技术编号:41211102 阅读:3 留言:0更新日期:2024-05-09 23:33
本申请涉及一种无人机多模态跟踪方法,本方法通过模板图像、搜索区域图像和文本的组合特征,基于Transformer编码层进行特征提取和模态交互,通过截取搜索区域部分的特征输入至前馈神经网络进行分类和回归,基于得到的分类响应图、偏移量和尺度大小计算追踪目标的最终边界框;本申请,解决了当前目标追踪技术无法适配无人机视角变化快、视野高的问题。本申请能够提升目标追踪的性能,优化追踪效果。

【技术实现步骤摘要】

本申请属于计算机视觉,具体涉及一种无人机多模态跟踪方法


技术介绍

1、视觉追踪是无人机领域的核心技术。

2、传统的无人机视觉跟踪方法以给定的单一输入图像作为目标,从其视野范围内寻找匹配的目标区域。上述跟踪方式及其优化方案对于低像素目标或相似目标的描述信息不足。近年来新兴的以自然语言描述目标信息的追踪方法能够精确地描述目标特征,并且可以通过描述目标的长期变化从而消除歧义。

3、当前,在视觉跟踪数据集中添加自然语言描述的先进跟踪方法大大推动了无人机跟踪领域的发展,但视觉-语言跟踪数据集多借由及地面摄像头获取,导致目标占据的视野范围过大而视角变化过小,加之语言描述的目标与环境之间没有交互信息,最终导致此类数据集的训练模型无法适配于无人机视角变化快、视野较高的应用场景。


技术实现思路

1、本专利技术提供了一种无人机多模态跟踪方法,解决了当前目标追踪技术无法适配无人机视角变化快、视野高的问题。

2、一种无人机多模态跟踪方法,包括以下步骤:

3、s1)对模板图像和搜索区域图像进行卷积操作,分别获取模板图像表示元和搜索区域图像表示元;使用bert模型对文本进行分词和向量化,获取文本表示元;

4、s2)向各表示元添加一维可学习的位置编码;

5、s3)拼接各表示元,并将拼接后的表示元输入至共m层的transformer编码器中进行特征提取和模态交互;

6、s4)过滤transformer编码器提取的特征,截取搜索区域部分的特征输入至前馈神经网络进行分类和回归,基于所得到的分类响应图、偏移量以及尺度大小计算追踪目标的最终边界框。

7、进一步地,所述步骤s1)中,对模版图像表示元、搜索区域图像表示元以及文本表示元的获取具体包括以下步骤:

8、a)在对模板图像和搜索区域图像进行卷积中,使用p×p的卷积核以步长为p,编码维度为d的方式进行卷积操作,同步实现图像切块和线性映射,其中p为块的大小,d为线性映射维度;

9、b)在使用bert模型对文本进行分词和向量化,获取文本表示元中,分别使用cls和sep指示文本序列的开始和边界。

10、进一步地,所述步骤s3)中,使用混合专家模式进行特征提取和模态交互,具体包括以下步骤:

11、c)拼接模板图像表示元与搜索区域图像表示元,以得到的二元组作为视觉部分输入,以文本表示元作为文本部分输入;

12、d)在前k层编码器设置视觉前馈网络v-ffn和文本前馈网络l-ffn,设层数为i层,归一化上层特征ti并进行多头自注意力处理,截取视觉部分输入输入至视觉前馈神经网络得到视觉特征,截取文本部分输入输入至文本前馈神经网络得到文本特征;

13、e)在后(m-k)层通过添加多头自注意力机制融合视觉前馈网络v-ffn与文本前馈网络l-ffn,得到视觉-语言融合前馈神经网络vl-ffn。

14、进一步地,所述步骤s3)中,使用单流编码器交互模式进行特征提取和模态交互,具体包括以下步骤:

15、f)拼接模板图像表示元、搜索区域图像表示元以及文本表示元,以得到的三元组作为transformer编码器输入;

16、g)采用多头自注意力机制进行各表示元融合,自注意力过程中的权重矩阵如下:

17、;

18、其中,σ代表每类表示元对自身的注意建模,τ代表用于搜索区域跟踪的表示元建模,ϕ代表视觉边界框特征和文本标签表示元融合的注意力建模。

19、进一步地,所述步骤s4)中的分类过程采用加权的focal损失作为分类损失;

20、所述步骤s4)中的回归过程采用l1损失和giou损失作为回归损失。

21、由于采用了上述技术方案,本申请的有益效果如下:

22、1.本申请可以在不同的模态特征实现交互融合,从而提成模型对目标的跟踪性能。通过多模态跟踪模型,有效规避了在不良成像条件下单一模态图像模型跟踪的劣势,多种模态图像模型相互弥补,发挥优势,能显著提升目标追踪的性能。

23、2.本申请为多模态特征的交互建立了新的交互机制,利用简约的模块设计和网络结构,通过优化网络结构参数,能给出更鲁棒和更灵活的特征提取方法,进而提升多模态目标跟踪效果。

本文档来自技高网...

【技术保护点】

1.一种无人机多模态跟踪方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种无人机多模态跟踪方法,其特征在于,

3.根据权利要求1所述的一种无人机多模态跟踪方法,其特征在于,

4.根据权利要求1所述的一种无人机多模态跟踪方法,其特征在于,

5.根据权利要求3或4任一项所述的一种无人机多模态跟踪方法,其特征在于,

【技术特征摘要】

1.一种无人机多模态跟踪方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种无人机多模态跟踪方法,其特征在于,

3.根据权利要求1所述的一种无人机多模态...

【专利技术属性】
技术研发人员:朱鹏飞张敬林王星张问银王九如王兴华
申请(专利权)人:临沂大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1