基于多模态交互和多阶段优化的实时RGBT目标跟踪方法技术

技术编号：35183395 阅读：31 留言：0更新日期：2022-10-12 17:53

本发明专利技术提出了一种基于多模态交互和多阶段优化的实时RGBT目标跟踪方法，跟踪模型包括特征提取模块、多模态交互模块、目标分类器以及结果优化模块；利用公开的RGBT数据集对跟踪模型进行训练，包括离线训练和在线训练两个阶段。本发明专利技术构建多模态交互模块学习鲁棒的特征表达，改善跨模态特征之间的注意力计算方式，实现两种模态的互补增强，通过引入门控函数，有效去除冗余噪声的影响；构建多阶段优化模块结合光流算法和优化模型实现跟踪结目标的精确重定位，有效缓解相机抖动、局部遮挡等因素造成的影响，提升跟踪模型的鲁棒性和实时性。提升跟踪模型的鲁棒性和实时性。提升跟踪模型的鲁棒性和实时性。

全部详细技术资料下载

【技术实现步骤摘要】
基于多模态交互和多阶段优化的实时RGBT目标跟踪方法

[0001]本专利技术属于计算机视觉目标跟踪
，具体涉及一种基于多模态交互和多阶段优化的实时RGBT目标跟踪方法。

技术介绍

[0002]可见光传感器广泛用于各个领域，但是由于夜晚光线较弱、雨雾天气可视距离受限，导致可见光摄像头无法正常工作，为了满足全天候运行需求，现有研究工作将结合多模态光电传感器，即可见光和热红外设备，实现热源信息和环境细节信息互补，构建鲁棒特征，提升模型性能。
[0003]RGBT跟踪任务是通过整合可见光谱和热光谱的互补特征来设计一个强大的全天候跟踪器，可以广泛应用于安防巡检、辅助驾驶、人群测温等领域。RGBT目标跟踪在抑制噪声的同时充分融合双模态互补线索，并根据初始帧的标签预测目标在后续帧中的包围框。许多方法利用模态的互补性，在多个领域提升了算法性能，但是在光照不断变化的环境中可见光模态不稳定；热红外模态在目标与背景温度接近时形成热交叉，分辨力也会下降，如果不进行动态特征选择，反而会增加噪声，削弱判别力的特征比表达，导致跟踪目标丢失。因此，需要进一步探索多模态之间的内在关联，实现特征互补、冗余噪声去除。
[0004]现有一类方法致力于研究多层特征的提取，生成一个可靠的特征表达，从而提升跟踪精度，另一类方法研究模态融合权重，实现特征的选择。但是，在光照变化和动态干扰等具有挑战性的场景下，这些现有跟踪方法性能会下降。此外，视觉跟踪中常见的挑战也需要更多的关注。通过观察，摄像机的运动和缩放变化会导致目标丢失，在这种情况下，许...

【技术保护点】

【技术特征摘要】
1.基于多模态交互和多阶段优化的实时RGBT目标跟踪方法，其特征在于基于红外光和可见光两种模态交互，构建一个目标跟踪模型，首先利用已有RGBT目标跟踪数据进行离线训练，在线跟踪时，根据首帧确定的跟踪目标在线微调跟踪目标模型参数，然后对视频序列进行实时目标跟踪；所述目标跟踪模型包括特征提取模块、多模态交互模块、目标分类器以及结果优化模块，实现如下：步骤1)：将经过时空配准的热红外和可见光图像作为目标跟踪模型的输入；步骤2)：构建共享权重的双流特征提取模块，所述双流特征提取模块利用轻量化VGG
‑
M的前三层卷积对输入的热红外及可见光图像提取红外和可见光的深度特征；步骤3)：构建多模态交互融合模块，对提取的红外和可见光的深度特征，计算多头跨模态注意力生成特征残差图，以双向增强的方式提升模态质量：单一跨模态注意的从红外到可见光模式的判别特征转换表示为公式如下：上式中，表示一对从步骤2)中获取的可见光和红外深度特征，R表示可见光，T表示红外，公式(1)中Q，K和V分别表示查询、键和值，均经过1
×
1卷积操作进行变维，d
k
表示尺度因子，首先，建立Q
R
和K
T
之间的交叉模态关联，然后通过softmax函数生成注意矩阵，最后，交叉模态特征由注意力矩阵和V
T
加权生成，为了兼顾不同空间的注意力分布，将单一跨模态注意扩展到多头结构，公式如下：MultiHead(Q
R
，K
T
，V
T
)＝Concat(H1，...，H
n
)W
O
ꢀꢀꢀꢀ
(2)H
i
＝Attention(Q
R
W
iQ
，K
T
W
iK
，V
T
W
iV
)
ꢀꢀꢀꢀ
(3)上式中，表示第i个注意力头下Q，K和V的权重矩阵，W
O
表示多头注意力拼接的权重矩阵，n表示注意力头的个数，i＝1，...，n，Concat表示级联操作；得到多头跨模态注意力的特征残差图F
T
‑
R
＝MultiHead(Q
R
，K
T
，V
T
)，根据双向增强的特性，根据上述公式反之计算得F
R
‑
T
＝MultiHead(Q
T
，K
R
，V
R
)，F
R
‑
T
表示多头跨模态注意力的可见光模式转移到红外模式的判别力特征，即得到两个特征互补残差图F
R
‑
T
和F
T
‑
R
；步骤4)：使用门控函数去除步骤3)所得结果中的冗余特征信息，再利用级联的方式将增强的多模态特征聚合；步骤5)：利用ROIAlign在步骤4)所生成的融合特征图上进行目标与背景采样，以目标为正例，背景为负例构建训练样本，用于训练目标分类器...

【专利技术属性】
技术研发人员：任桐炜，武港山，侯瑞超，许博约，
申请(专利权)人：南京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人