基于Transformer的孪生多模态目标跟踪方法技术

技术编号:35840883 阅读:36 留言:0更新日期:2022-12-03 14:13
本发明专利技术提出一种基于Transformer的孪生多模态目标跟踪方法,获取场景中的RGB图像信息和热力图像信息;通过预训练的ResNet网络提取不同模态的高级特征,同时基于孪生网络的跨模态特征融合网络以获得不同模态的共同特征;然后将对应模态的高级特征输入到针对多模态设计的Transformer模块中进行跨模态信息融合,再输入到基于全连接卷积神经网络的回归网络中进行最终检测框的回归,在此过程中产生的误差将会反向传播到前序各个网络中,根据最终权重网络构建目标跟踪网络,以对多模态情况下的目标进行跟踪。本发明专利技术可准确预测物体在各模态的位置信息,提高目标跟踪与定位准确度,可广泛应用于多种场景。泛应用于多种场景。泛应用于多种场景。

【技术实现步骤摘要】
基于Transformer的孪生多模态目标跟踪方法


[0001]本专利技术涉及计算机目标跟踪
,特别涉及一种基于Transformer的孪生多模态目标跟踪方法。

技术介绍

[0002]利用RGB与热红外(TIR)光谱进行视觉目标跟踪,简称RGBT跟踪,可以有效解决传统跟踪任务中目标容易丢失以及在极端光照条件下表现差的缺点。目前,常见的多模态目标跟踪方法包括基于传统图形学的数学跟踪方法以及基于孪生网络的特征匹配方法两大类。
[0003]基于传统图形学的数学跟踪方法一般是构造核函数,在目标检测区域f和滤波模板h做卷积运算,然后再通过相应的算法进行寻优,获取全局最优回归框。然而,此类方法中,如基于相关滤波算法、线性回归滤波算法以及多特征算法等目标跟踪方法,很难对于具有复杂前景的物体进行跟踪,导致容易发生易跟丢或无法精确回归目标框的问题。

技术实现思路

[0004]为此,本专利技术的实施例提出一种基于Transformer的孪生多模态目标跟踪方法,以解决上述技术问题。
[0005]本专利技术提出一种基于Transformer的孪生多模态目标跟踪方法,其中,所述方法包括如下步骤:步骤一、通过摄像头与热成像装置采集当前场景下的RGB图像信息与热力图像信息;步骤二、利用经过预训练的ResNet特征提取网络对RGB图像信息与热力图像信息分别进行特征提取以对应得到RGB图像特征与热力图像特征;基于线性假设的方法将RGB图像信息与热力图像信息进行对齐,使用基于ResNet的孪生网络对RGB图像信息与热力图像信息共同进行特征提取以得到RGB

热力图像特征;步骤三、利用基于Transformer编码器的特征融合网络,将所述RGB图像特征、热力图像特征以及RGB

热力图像特征两两配合进行复合编码以得到编码后的特征图;步骤四、将所述编码后的特征图输入至基于Transformer的特征匹配网络中进行扩充与匹配,以得到模板特征图与背景特征图的匹配结果,并利用基于循环窗口注意力的匹配机制对所述模板特征图与背景特征图的匹配结果进行扩充再匹配以得到第一特征图;步骤五、将所述第一特征图输入至基于多层感知机模型的回归器中进行回归框的回归,并基于设计的损失函数返回误差计算值并进行反向传播;步骤六、通过快速梯度下降法确认当前回归框的损失,当回归框损失最小时,结束训练并输出各网络权重文件;步骤七、根据最终得到的各网络权重文件,构建多模态目标跟踪器并实时确定所跟踪的目标在图像中的位置。
[0006]本专利技术提出一种基于Transformer的孪生多模态目标跟踪方法,获取场景中的RGB图像信息和热力图像信息;通过预训练的ResNet网络提取不同模态的高级特征,同时基于孪生网络的跨模态特征融合网络以获得不同模态的共同特征;然后将对应模态的高级特征输入到针对多模态设计的Transformer模块中进行跨模态信息融合,再输入到基于全连接卷积神经网络的回归网络中进行最终检测框的回归,在此过程中产生的误差将会反向传播到前序各个网络中,根据最终权重网络构建目标跟踪网络,以对多模态情况下的目标进行跟踪。本专利技术可准确预测物体在各模态的位置信息,提高目标跟踪与定位准确度,可广泛应用于多种场景。
[0007]本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实施例了解到。
附图说明
[0008]本专利技术实施例的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:图1为本专利技术提出的基于Transformer的孪生多模态目标跟踪方法的流程图;图2为本专利技术提出的基于Transformer的孪生多模态目标跟踪方法的原理框图;图3为本专利技术提出的基于Transformer的孪生多模态目标跟踪方法的执行示意图。
具体实施方式
[0009]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0010]请参阅图1至图3,本专利技术提出一种基于Transformer的孪生多模态目标跟踪方法,其中,所述方法包括如下步骤:S101、通过摄像头与热成像装置采集当前场景下的RGB图像信息与热力图像信息。
[0011]S102、利用经过预训练的ResNet特征提取网络对RGB图像信息与热力图像信息分别进行特征提取以对应得到RGB图像特征与热力图像特征;基于线性假设的方法将RGB图像信息与热力图像信息进行对齐,使用基于ResNet的孪生网络对RGB图像信息与热力图像信息共同进行特征提取以得到RGB

热力图像特征。
[0012]在本专利技术中,上述的ResNet特征提取网络为ResNet50特征提取网络,具体的,在上述的步骤S102中,所述方法还包括:S1021、利用ResNet50特征提取网络在ImageNet10k数据集上的预训练数据,对RGB图像信息与热力图像信息分别进行特征提取。
[0013]S1022、根据设定图像大小与给定的第一帧框图数据,对RGB图像信息中的RGB图像进行调整。
[0014]具体的,对RGB图像信息中的RGB图像进行调整的步骤中,对应的表达式为:
其中,表示处理后的RGB图像的输出,表示当前RGB图像的输入,表示当前热力图像的大小,表示当前RGB图像的大小,表示图像中心点的偏移量。
[0015]S1023、利用KL散度对所述ResNet50特征提取网络进行约束计算以得到当前输出的损失值。
[0016]具体的,利用KL散度对所述ResNet50特征提取网络进行约束计算以得到当前输出的损失值的步骤中,对应的表达式为:其中,表示当前输出的损失值,表示输出特征向量的维度,表示RGB图像经过ResNet50特征提取网络所输出的特征向量中的第列,表示热力图像经过ResNet50特征提取网络所输出的特征向量中的第列,表示输出的特征向量中的列数。
[0017]S1024、根据当前输出的损失值计算得到整体网络对应的最终网络损失值。
[0018]其中,所述整体网络由ResNet特征提取网络(相当于图2中的RGB特征提取网络与热力特征提取网络)、基于ResNet的孪生网络(相当于图2中的热力

RGB融合特征提取网络)、基于Transformer编码器的特征融合网络(相当于图2中的特征融合模块)以及基于Transformer的特征匹配网络(相当于图2中的基于Transformer的特征匹配

扩充网络)组成。在此还需要说明的是,在图2中,L表示当前特征的数量,r表示模板的大小,d表示当前特征的维度。此外,图2中,Q表示经过Query向量生成网络的操作,K表示经过Key向量生成网络的操作,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Transformer的孪生多模态目标跟踪方法,其特征在于,所述方法包括如下步骤:步骤一、通过摄像头与热成像装置采集当前场景下的RGB图像信息与热力图像信息;步骤二、利用经过预训练的ResNet特征提取网络对RGB图像信息与热力图像信息分别进行特征提取以对应得到RGB图像特征与热力图像特征;基于线性假设的方法将RGB图像信息与热力图像信息进行对齐,使用基于ResNet的孪生网络对RGB图像信息与热力图像信息共同进行特征提取以得到RGB

热力图像特征;步骤三、利用基于Transformer编码器的特征融合网络,将所述RGB图像特征、热力图像特征以及RGB

热力图像特征两两配合进行复合编码以得到编码后的特征图;步骤四、将所述编码后的特征图输入至基于Transformer的特征匹配网络中进行扩充与匹配,以得到模板特征图与背景特征图的匹配结果,并利用基于循环窗口注意力的匹配机制对所述模板特征图与背景特征图的匹配结果进行扩充再匹配以得到第一特征图;步骤五、将所述第一特征图输入至基于多层感知机模型的回归器中进行回归框的回归,并基于设计的损失函数返回误差计算值并进行反向传播;步骤六、通过快速梯度下降法确认当前回归框的损失,当回归框损失最小时,结束训练并输出各网络权重文件;步骤七、根据最终得到的各网络权重文件,构建多模态目标跟踪器并实时确定所跟踪的目标在图像中的位置。2.根据权利要求1所述的基于Transformer的孪生多模态目标跟踪方法,其特征在于,所述ResNet特征提取网络为ResNet50特征提取网络,在所述步骤二中,所述方法还包括:利用ResNet50特征提取网络在ImageNet10k数据集上的预训练数据,对RGB图像信息与热力图像信息分别进行特征提取;根据设定图像大小与给定的第一帧框图数据,对RGB图像信息中的RGB图像进行调整;利用KL散度对所述ResNet50特征提取网络进行约束计算以得到当前输出的损失值;根据当前输出的损失值计算得到整体网络对应的最终网络损失值,其中所述整体网络由ResNet特征提取网络、基于ResNet的孪生网络、基于Transformer编码器的特征融合网络以及基于Transformer的特征匹配网络组成。3.根据权利要求2所述的基于Transformer的孪生多模态目标跟踪方法,其特征在于,对RGB图像信息中的RGB图像进行调整的步骤中,对应的表达式为:其中,表示处理后的RGB图像的输出,表示当前RGB图像的输入,表示当前热力图像的大小,表示当前RGB图像的大小,表示图像中心点的偏移量;利用KL散度对所述ResNet50特征提取网络进行约束计算以得到当前输出的损失值的步骤中,对应的表达式为:
其中,表示当前输出的损失值,表示输出特征向量的维度,表示RGB图像经过ResNet50特征提取网络所输出的特征向量中的第列,表示热力图像经过ResNet50特征提取网络所输出的特征向量中的第列,表示输出的特征向量中的列数;在根据当前输出的损失值计算得到整体网络对应的最终网络损失值的步骤中,整体网络对应的最终网络损失值表示为:其中,表示整体网络对应的最终网络损失值,表示后续网络反向传播回的损失值,表示超参数。4.根据权利要求3所述的基于Transformer的孪生多模态目标跟踪方法,其特征在于,在所述步骤三中,将所述RGB图像特征、热力图像特征以及RGB

热力图像特征两两配合进行复合编码以得到编码后的特征...

【专利技术属性】
技术研发人员:王辉韩星宇范自柱杨辉
申请(专利权)人:华东交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1