基于时序-视觉融合的大小模型协同跟踪方法技术

技术编号:43485276 阅读:16 留言:0更新日期:2024-11-29 16:56
本发明专利技术提供了基于时序‑视觉融合的大小模型协同跟踪方法,属于机器学习、计算机视觉、目标跟踪领域。通过设计一个即插即用的轻量化时序小模型,嵌入现有基于Transformer的跟踪方法中,从而编码目标的时序运动信息与视觉外观特征进行自适应交互,实现复杂场景下的鲁棒目标跟踪。本发明专利技术从视频数据特有的时序连贯性出发,自适应融合时序与视觉线索,有效弥补了单一视觉线索固有的局限性,使模型能够在复杂的真实场景中有效对抗背景干扰、遮挡等挑战,获得鲁棒跟踪性能。本发明专利技术的核心内容包括时序运动编码模块、视觉与运动特征自适应融合模块,以及提示学习训练策略。

【技术实现步骤摘要】

本专利技术属于机器学习、计算机视觉、目标跟踪领域,涉及运动轨迹建模算法、自适应特征融合算法,以及大小模型协同提示学习算法;具体为基于时序-视觉融合的大小模型协同跟踪方法


技术介绍

1、给定一段视频序列,以及初始帧中某个特定目标的目标框标注,目标跟踪算法通过对目标及背景的视觉与时序信息建模,实现对后续每一帧中该目标的位置及尺度估计。作为计算机视觉的基础任务之一,目标跟踪是许多计算机视觉相关问题的应用基础,例如动作识别、事件检测、行为理解以及视频对象检测等。此外,视觉跟踪在医疗、交通和娱乐等诸多领域都具有极为广泛的现实应用前景。

2、随着深度学习技术的发展,目标跟踪算法逐步从传统方法、相关滤波方法等过渡到基于深度网络的方法。近两年来,得益于transformer网络的全局性与强大编码能力,目前绝大多数主流目标跟踪算法基于transformer模型。例如,transt方法利用注意力机制对模板与搜索区域进行特征融合,取代了过去方法中的互相关操作。stark方法提出了一个基于编码-解码transformer网络的时空跟踪框架。卷积网络提取出的模板与搜索本文档来自技高网...

【技术保护点】

1.基于时序-视觉融合的大小模型协同跟踪方法,其特征在于,步骤如下:

2.根据权利要求1所述的基于时序-视觉融合的大小模型协同跟踪方法,其特征在于,所述的步骤1中,所述的角点编码用于识别两种不同类型的角点词向量;所述的空间位置编码能够使运动词向量与视觉特征中的空间像素一一对应;所述的时序位置编码则使时序-视觉融合跟踪模型能够理解T帧历史轨迹的时序关系。

3.根据权利要求1所述的基于时序-视觉融合的大小模型协同跟踪方法,其特征在于,所述的步骤1中,采用非线性初始化方式来初始化时序位置编码:

4.根据权利要求1所述的基于时序-视觉融合的大小模型协同跟踪方法...

【技术特征摘要】

1.基于时序-视觉融合的大小模型协同跟踪方法,其特征在于,步骤如下:

2.根据权利要求1所述的基于时序-视觉融合的大小模型协同跟踪方法,其特征在于,所述的步骤1中,所述的角点编码用于识别两种不同类型的角点词向量;所述的空间位置编码能够使运动词向量与视觉特征中的空间像素一一对应;所述的时序位置编码则使时序-视觉融合跟踪模型能够理解t帧历史轨迹的时序关系。

3.根据权利要求1所述的基于时序-视觉融合的大小模型协同跟踪方法,其特征在于,所述的步骤1中,采用非线性初始化方式来初始化时序位置编码:

4.根据权利要求1所述的基于时序-视觉融合的大小模型协同跟踪方法,其特征在于,所述的步骤1中,采用与空间位置编码相同的坐标映射机制来为视觉特征图生成密集的空间位置编码图;如此,当视觉特征与时序运动特征进行交叉注意力计算时,能够逐像素点地匹配对应它们的空间位置。

5.根据权利要求1所述的基于时序-视觉融合的大小模型协同跟踪方法,其特征在于,所述的步骤2中,所述的融合解码器用于实现视觉特征与时序运动特征的融合与交互;其中,b表示批次大小,h、w和c分别表示视觉特征图的高、宽与通道数,而时序运动特征将由步骤1提取的若干运动词向量与三个代表词向量联合表示,因此其数量维度为;

6.根据权利要求1所述的基于时序-视觉融合的大小模型协同跟踪方法,其特征在于,所述的步骤2中,加权平均值的动态权重通过一个权重网络输出获得;所述的权重网络由一个全连接感知器mlp实现,输入是最后一层融合解码器中的全连接感知器所输出的更新后的代表词向量;此外,...

【专利技术属性】
技术研发人员:赵洁王栋刘洋卢湖川
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1