一种基于动态适配的多模态视觉目标跟踪方法技术

技术编号：46069404 阅读：20 留言：0更新日期：2025-08-11 15:58

本发明专利技术公开一种基于动态适配的多模态视觉目标跟踪方法，包括构建动态适配的多模态特征提取与融合网络；构建动态桥接融合模块；构建基于低秩适配的参数高效适配机制；构建完整的多模态视觉目标跟踪模型；在服务器等计算设备上对所述模型进行训练，通过降低网络损失函数的总体损失值，优化网络参数，直至网络收敛；利用训练好的视觉目标跟踪模型对待跟踪的视频序列中指定的单个目标进行跟踪；对所述训练好的模型进行性能评估。所述方法通过动态模态融合与高效参数适配机制，实现不同视觉模态信息的自适应集成与统一目标跟踪。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于动态适配的多模态视觉目标跟踪方法，属于计算机视觉与图像处理，属于多模态感知、目标检测与跟踪等相关领域，适用于多种复杂环境下的视觉目标跟踪应用。

技术介绍

1、随着计算机视觉技术的快速发展，视觉目标跟踪作为一种关键的基础任务，已广泛应用于智能监控、自动驾驶、行为分析等多个领域。传统的目标跟踪方法多数依赖于单一模态的视觉信息(如rgb图像)，在面对复杂环境中的快速运动、光照变化、目标遮挡和背景干扰等情况时，容易出现跟踪丢失或误跟等问题，难以保证系统的鲁棒性和适应性。

2、为克服单一模态的局限性，多模态视觉目标跟踪技术逐渐兴起。该技术融合了多种视觉感知模态(如rgb、深度图、热红外、事件相机等)，利用各模态间的互补性提升目标跟踪的性能和稳定性。例如，深度图模态能够提供场景的几何结构信息，对解决遮挡问题有帮助；热红外模态在低光照或夜间条件下表现更稳定；事件相机模态具有高时间分辨率和低延迟优势，可在高速运动场景下提供更丰富的动态信息。

3、现有多模态视觉目标跟踪方法主要采用静态模态融合策略，如特征拼接...

【技术保护点】

1.一种基于动态适配的多模态视觉目标跟踪方法，其特征在于，所述方法通过动态模态融合与高效参数适配机制，实现不同视觉模态信息的自适应集成与统一目标跟踪；具体包括如下内容：

2.根据权利要求1所述的基于动态适配的多模态视觉目标跟踪方法，其特征在于，所述多模态组合的图像包括RGB图像和热红外图像RGB-T，RGB图像和深度图像RGB-D，以及RGB图像和事件相机图像RGB-E。

3.根据权利要求1所述的基于动态适配的多模态视觉目标跟踪方法，其特征在于，在Transformer编码器的自注意力层和前馈网络中引入了基于低秩分解的参数适配机制，该机制仅对认定的关键参数子集进行...

【技术特征摘要】

2.根据权利要求1所述的基于动态适配的多模态视觉目标跟踪方法，其特征在于，所述多模态组合的图像包括rgb图像和热红外图像rgb-t，rgb图像和深度图像rgb-d，以及rgb图像和事件相机图像rgb-e。

3.根据权利要求1所述的基于动态适配的多模态视觉目标跟踪方法，其特征在于，在transformer编码器的自注意力层和前馈网络中引入了基于低秩分解的参数适配机制，该机制仅对认定的关键参数子集进行低秩调整，主干网络参数保持冻结；针对不同的多模态任务，通过网格搜索优化lora参数配置；具体而言，在推理和任务切换过程中，仅需加载对应任务的lora适配参数，无需重新加载或微调全部模型参数。

4.根据权利要求1所述的基于动态适配的多模态视觉目标跟踪方法，其特征在于，对于多模态组合的图，每一帧数据根据目标跟踪任务要求分为模板帧和搜索帧；对各模态图像进行归一化、尺寸调整、去噪预处理操作，将每种模态的模板帧和搜索帧分别划分为若干固定大小的非重叠patch，对每个patch，采用独立的线性映射层将其像素数据投影至高维特征空间，获得patch token表示；向每个patch token叠加可学习的位置编码；针对不同模态，嵌入层参数采用差异化训练策略：rgb模态的补丁嵌入层参数采用冻结策略，保持与预训练模型一致；其他模态的嵌入层参数允许在训练过程中更新；每种模态的模板帧和搜索帧均被映射为包含n个patch token的高维特征序列，作...

【专利技术属性】
技术研发人员：杨万扣，许溢鑫，全志斌，马云飞，付冲，
申请(专利权)人：东南大学南通海洋高等研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人