【技术实现步骤摘要】
本专利技术属于机器学习、计算机视觉、目标跟踪领域,涉及运动轨迹建模算法、自适应特征融合算法,以及大小模型协同提示学习算法;具体为基于时序-视觉融合的大小模型协同跟踪方法。
技术介绍
1、给定一段视频序列,以及初始帧中某个特定目标的目标框标注,目标跟踪算法通过对目标及背景的视觉与时序信息建模,实现对后续每一帧中该目标的位置及尺度估计。作为计算机视觉的基础任务之一,目标跟踪是许多计算机视觉相关问题的应用基础,例如动作识别、事件检测、行为理解以及视频对象检测等。此外,视觉跟踪在医疗、交通和娱乐等诸多领域都具有极为广泛的现实应用前景。
2、随着深度学习技术的发展,目标跟踪算法逐步从传统方法、相关滤波方法等过渡到基于深度网络的方法。近两年来,得益于transformer网络的全局性与强大编码能力,目前绝大多数主流目标跟踪算法基于transformer模型。例如,transt方法利用注意力机制对模板与搜索区域进行特征融合,取代了过去方法中的互相关操作。stark方法提出了一个基于编码-解码transformer网络的时空跟踪框架。卷积网
...【技术保护点】
1.基于时序-视觉融合的大小模型协同跟踪方法,其特征在于,步骤如下:
2.根据权利要求1所述的基于时序-视觉融合的大小模型协同跟踪方法,其特征在于,所述的步骤1中,所述的角点编码用于识别两种不同类型的角点词向量;所述的空间位置编码能够使运动词向量与视觉特征中的空间像素一一对应;所述的时序位置编码则使时序-视觉融合跟踪模型能够理解T帧历史轨迹的时序关系。
3.根据权利要求1所述的基于时序-视觉融合的大小模型协同跟踪方法,其特征在于,所述的步骤1中,采用非线性初始化方式来初始化时序位置编码:
4.根据权利要求1所述的基于时序-视觉融合的
...【技术特征摘要】
1.基于时序-视觉融合的大小模型协同跟踪方法,其特征在于,步骤如下:
2.根据权利要求1所述的基于时序-视觉融合的大小模型协同跟踪方法,其特征在于,所述的步骤1中,所述的角点编码用于识别两种不同类型的角点词向量;所述的空间位置编码能够使运动词向量与视觉特征中的空间像素一一对应;所述的时序位置编码则使时序-视觉融合跟踪模型能够理解t帧历史轨迹的时序关系。
3.根据权利要求1所述的基于时序-视觉融合的大小模型协同跟踪方法,其特征在于,所述的步骤1中,采用非线性初始化方式来初始化时序位置编码:
4.根据权利要求1所述的基于时序-视觉融合的大小模型协同跟踪方法,其特征在于,所述的步骤1中,采用与空间位置编码相同的坐标映射机制来为视觉特征图生成密集的空间位置编码图;如此,当视觉特征与时序运动特征进行交叉注意力计算时,能够逐像素点地匹配对应它们的空间位置。
5.根据权利要求1所述的基于时序-视觉融合的大小模型协同跟踪方法,其特征在于,所述的步骤2中,所述的融合解码器用于实现视觉特征与时序运动特征的融合与交互;其中,b表示批次大小,h、w和c分别表示视觉特征图的高、宽与通道数,而时序运动特征将由步骤1提取的若干运动词向量与三个代表词向量联合表示,因此其数量维度为;
6.根据权利要求1所述的基于时序-视觉融合的大小模型协同跟踪方法,其特征在于,所述的步骤2中,加权平均值的动态权重通过一个权重网络输出获得;所述的权重网络由一个全连接感知器mlp实现,输入是最后一层融合解码器中的全连接感知器所输出的更新后的代表词向量;此外,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。