基于长短时上下文解耦和自然语言查询的目标跟踪方法技术

技术编号：39938250 阅读：5 留言：0更新日期：2024-01-08 22:21

一种基于长短时上下文解耦和自然语言查询的目标跟踪方法，所述方法包括如下步骤：步骤一、使用在ImageNet数据集上预训练的ResNet网络和Transfomer结构的编码器提取视频帧级特征；步骤二、拼接视频帧级特征获得视频级特征；步骤三、使用文本编码器获得文本查询特征；步骤四、通过短时上下文匹配分支捕捉动态上下文信息；步骤五、通过长时上下文感知分支捕捉静态上下文信息；步骤六、通过长短时调制模块自适应地调控所需的长时或短时上下文信息；步骤七、通过预测模块估计目标的位置；步骤八、模型优化。较现有的基于自然语言查询的目标跟踪方法，本发明专利技术的目标定位的准确度取得了显著提高，展现了良好的跟踪鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种目标跟踪方法，具体涉及一种基于长短时上下文解耦和自然语言查询的目标跟踪方法。

技术介绍

1、基于自然语言查询的目标跟踪方法的挑战主要来自于通过融合两种异构信息来预测目标的位移变化。对于这两种异构信息，一种是文本查询中包含的视频主要特征的静态描述，即长时上下文，另一种是从当前视频帧裁剪获得的包含目标与其附近环境的图像块，即搜索区域。目前，大多数方法仅仅是将二者进行简单的融合并未考虑融合方式的合理性。原因在于，自然语言查询中的文本信息和搜索区域中的视觉信息有时可能是不一致的，在这种情况下直接将二者融合可能会引起冲突，从而导致对于目标跟踪位置的错误估计。

技术实现思路

1、为了应对文本信息与视觉信息不一致的情况，本专利技术提供了一种基于长短时上下文解耦和自然语言查询的目标跟踪方法。

2、本专利技术的目的是通过以下技术方案实现的：

3、一种基于长短时上下文解耦和自然语言查询的目标跟踪方法，包括如下步骤：

4、步骤一、使用在imagenet数据集上预训练的resnet网络和transfomer编码器提取视频帧级特征，具体步骤如下：

5、步骤一一、通过利用1×1卷积模块分别将resnet的res4f的输出维度由1024维降至256维；

6、步骤一二、将视频帧输入resnet网络，利用transfomer结构的编码器提取resnet的res4f卷积模块的特征，记为其中：transformer结构的编码器包含一个多头自注

7、步骤一三、通过拉伸操作将f'变形得到视频帧tokens其中：ns＝w×h；

8、步骤二、拼接视频帧级特征获得视频级特征，具体步骤如下：

9、步骤二一、给定时间长度在t范围内的多个视频帧级特征，沿tokens数量轴将以上多个视频帧级特征串联，获得视频级特征；

10、步骤二二、使用一个前馈神经网络来获得精细化的视频级特征

11、步骤三、使用文本编码器获得文本查询特征，具体步骤如下：

12、步骤三一、使用文本编码器将文本查询中的每一个单词转换成一个one-hot向量，其中：文本编码器包括一个token嵌入层和一个文本transformer，文本transformer中依次堆叠了12个transformer编码层；

13、步骤三二、针对每一个one-hot向量生成与之对应的文本tokens其中：cl和nl分别表示文本tokens的通道维度和数量；

14、步骤四、通过短时上下文匹配分支捕捉动态上下文信息，具体步骤如下：

15、步骤四一、通过一个全连接层和一个relu激活层，将的大小调整到用以匹配视频帧级tokens的大小，是视频级特征fv的压缩表示；

16、步骤四二、将fs和分别记为z和x，上下文匹配任务通过infonce损失lshort进行优化：

17、

18、其中：lshort是短时上下文匹配损失，n是一个训练批次的样本数量，cos(·)用于计算fs和之间的余弦相似度，τ是超参数；

19、步骤五、通过长时上下文感知分支捕捉静态上下文信息，具体步骤如下：

20、步骤五一、在上下文感知任务中，使用从文本查询中提取的语言tokens作为监督；

21、步骤五二、将文本tokens fl压缩到fl'以匹配fs的大小，通过一个全连接层和一个relu激活层，将的大小调整到

22、步骤五三、将fl'和分别记为z和x，通过infonce损失llong来优化上下文感知任务：

23、

24、其中：llong是长时上下文感知损失；

25、步骤六、通过长短时调制模块自适应地调控所需的长时或短时上下文信息，具体步骤如下：

26、步骤六一、给定上下文匹配分支的短时tokens和上下文感知分支的长时tokens利用长短时调制模块增强fs中的上下文相关的特征；

27、步骤六二、为了自适应地调控所需的长时和短时的信息量，分别对和进行编码，即通过缩放和移位两种方式调制视频帧级tokens；

28、步骤六三、将存储在中的静态上下文信息投影到一个缩放向量，将中包含的动态上下文信息投影到一个移位向量：

29、

30、

31、其中：wγ、wβ、bγ和bβ表示可学习参数；

32、步骤六四、利用调控向量γ、β调整fs的表示：

33、fs'＝f(fs)⊙γ+β

34、其中：⊙表示点乘操作，f中包含一个1×1卷积层和一个实例归一化层；

35、步骤六五、将多个长短时调制模块堆叠在一起，以这种方式进一步优化帧表示，将最后的输出记为

36、步骤七、通过预测模块估计目标的位置，其中：预测模块包含2个分支，其中一个分支用于估计候选属于前景或背景的概率，另一个分支用于回归目标的矩形框：

37、

38、

39、其中：和分别表示用于分类和回归任务的前馈神经网络，pcls的输出是一个2维向量，表示相应位置属于前景或背景分类分数，preg输出一个4维向量，表示从对应位置到边界框四边的距离；

40、步骤八、模型优化，具体步骤如下：

41、步骤八一、对于上下文匹配和上下文感知任务，将llong与lshort两种损失线性结合：

42、lcontext＝(1-λ)lshort+λllong

43、其中：λ为超参数；

44、步骤八二、对于预测模块中的分类和回归分支，分别使用交叉熵损失lcls和交并比损失lgiou，模型的总体损失表示为：

45、l＝α·lcontext+(lcls+lgiou)

46、其中：α是正则化参数。

47、相比于现有技术，本专利技术具有如下优点：

48、本专利技术将基于自然语言查询的目标跟踪涉及的上下文信息解耦为长时上下文和短时上下文两种形式。其中，短时上下文信息由上下文匹配任务获得，而长时信息由上下文感知任务捕获。本专利技术将这两种类型的上下文信息嵌入到视觉跟踪框架中，并自适应地调控所需的上下文信息以获得更好的跟踪性能。较现有的基于自然语言查询的目标跟踪方法，目标定位的准确度取得了显著提高，展现了良好的跟踪鲁棒性。

本文档来自技高网...

【技术保护点】

1.一种基于长短时上下文解耦和自然语言查询的目标跟踪方法，其特征在于所述方法包括如下步骤：

2.根据权利要求1所述的基于长短时上下文解耦和自然语言查询的目标跟踪方法，其特征在于所述Transformer结构的编码器包含一个多头自注意力层和一个前馈神经网络，多头自注意力层包含8个头，前馈神经网络包含2个全连接层和一个ReLU激活层。

3.根据权利要求1所述的基于长短时上下文解耦和自然语言查询的目标跟踪方法，其特征在于所述文本编码器包括一个token嵌入层和一个文本transformer，文本transformer中依次堆叠了12个transformer编码层。

4.根据权利要求1所述的基于长短时上下文解耦和自然语言查询的目标跟踪方法，其特征在于所述长短时调制模块包含短时长时tokens以及视频帧级三个输入，其中，以视频帧级token作为多头交叉注意力模块的query(Q)嵌入，以对称的方式，将短时tokens和长时tokens作为多头交叉注意力模块的key(K)和value|(V)嵌入，输出与视频帧级token具有高度关联性的短时和长时token

...

【技术特征摘要】

1.一种基于长短时上下文解耦和自然语言查询的目标跟踪方法，其特征在于所述方法包括如下步骤：

2.根据权利要求1所述的基于长短时上下文解耦和自然语言查询的目标跟踪方法，其特征在于所述transformer结构的编码器包含一个多头自注意力层和一个前馈神经网络，多头自注意力层包含8个头，前馈神经网络包含2个全连接层和一个relu激活层。

4.根据权利要求1所...

【专利技术属性】
技术研发人员：邬向前，卜巍，马丁，
申请(专利权)人：哈尔滨工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人