当前位置: 首页 > 专利查询>中国科学院长春光学精密机械与物理研究所专利>正文

多模态图像融合目标跟踪方法技术

技术编号：38819195 阅读：16 留言：0更新日期：2023-09-15 19:58

本发明专利技术涉及目标跟踪技术领域，具体提供一种多模态图像融合目标跟踪方法，采用孪生卷积神经网络对多模态图像数据进行特征提取，通过部分卷积层的比例共享获取各模态的共有特征，并将网络的层级深度与卷积层的共享模式充分结合，在网络层级由浅至深的过程中配以逐渐变化的卷积层共享比例，提升网络性能和计算效率；为了提升融合策略的自适应能力，建立了基于注意力机制的多模态特征融合网络，能够自适应地对多模态特征的权重和可靠性进行准确评估，从而使融合特征更加可靠；利用非对称卷积层和特征张量计算中的广播加法将两个分支网络中的融合特征进行结合，并将最终特征进行回归与分类计算，从而得到最终的目标信息。从而得到最终的目标信息。从而得到最终的目标信息。

全部详细技术资料下载

【技术实现步骤摘要】
多模态图像融合目标跟踪方法

[0001]本专利技术涉及目标跟踪
，具体提供一种多模态图像融合目标跟踪方法。

技术介绍

[0002]在传统的多模态图像融合目标跟踪方法中，中端特征级融合方法多采用基于稀疏表示的方法和基于图的方法进行多模态图像数据的特征提取与融合。这些传统方法虽然能够在一些简单场景获得较好的跟踪效果，但在应对复杂场景中遮挡、光照变化、相似目标干扰和尺度变化等干扰因素时，跟踪性能会出现明显的下降趋势。
[0003]近些年，随着深度学习的发展，基于深度特征的特征级融合方法已经成功引入到视觉目标跟踪中，该种方法主要采用深度神经网络对多模态图像数据进行特征提取，所提取的深度特征较比人工设计的浅层特征更加有效、鲁棒性更好，更易于提升复杂场景下视觉目标跟踪的整体性能。Zhang等在一种平行结构中分别利用卷积神经网络对可见光图像和红外图像进行特征提取，然后将提取的特征直接进行拼接并传入到特定层级中完成分类与定位。Li和Wu等采用双流卷积神经网络分别对可见光图像和红外图像进行特征提取，并提出一种融合网络对特征进行自适应融合。虽然，上述两种方法能够从不同角度利用多模态深度特征进行融合并提升跟踪效果，但融合过程中没有对各模态数据的融合权重和可靠性进行分析与解决。Zhang和Ye等在已有方法的基础上引入孪生卷积神经网络来解决多模态图像数据融合的问题，通过在各分支中采用相同的基础网络来实现特征的独立提取，并在融合后进行互相关计算，从而实现目标的判别与定位。由于孪生卷积神经网络结构能够在少样本学习中发挥重要作用，并且...

【技术保护点】

【技术特征摘要】
1.一种多模态图像融合目标跟踪方法，其特征在于，包括以下步骤：S1、利用孪生卷积神经网络对多模态图像数据进行特征提取，获得多模态特征；S2、计算孪生卷积神经网络的两个分支网络中Block层级在不同模态特征间的相似性，并确定Block层级间的共享比例；S3、将多模态特征输入多模态特征融合网络，对多模态特征进行特征融合，获得多模态融合特征；S4、将多模态融合特征输入非对称卷积层进行计算，获得最终特征；S5、将最终特征进行分类与回归，并作为孪生卷积神经网络的损失函数的数据输入，通过迭代优化损失函数，完成孪生卷积神经网络的训练；S6、将待跟踪目标的多模态图像数据输入已完成训练的孪生卷积神经网络，获得待跟踪目标的定位信息。2.如权利要求1所述的多模态图像融合目标跟踪方法，其特征在于，孪生卷积神经网络包括两个结构相同的分支网络，即目标模板分支网络和搜索区域分支网络，分支网络均采用改进的ResNet
‑
18网络，其拓扑结构为：第一卷积层Conv1，卷积核的大小为7
×
7，卷积核的数量为64，步长为2，填充为1；最大池化层Maxpool，池化窗口的大小为3
×
3，步长为2，填充为1；Block1，卷积核为步长为2，填充为1；Block2，卷积核为步长为2，填充为1；Block3，卷积核为步长为2，填充为1；Block4，卷积核为步长为2，填充为1。3.如权利要求2所述的多模态图像融合目标跟踪方法，其特征在于，分支网络中Block2、Block3、Block4层级在不同模态特征间的相似性的计算式如下：其中，为改进的ResNet
‑
18网络，b为二维偏置矩阵，和表示相同分支网络中同一层级深度下不同模态间的特征张量；将层级间的互相关计算结果作为Block2、Block3、Block4中的共享比例。4.如权利要求1所述的多模态图像融合目标跟踪方法，其特征在于，多模态特征融合网络包括基于Transformer模型中的编码器
‑
解码器结构搭建的语境增强模块和自适应特征融合模块，自适应特征融合模块采用与语境增强模块中相同的解码器。5.如权利要求4所述的多模态图像融合目标跟踪方法，其特征在于，编码器中包括多头
自注意力机制和实例归一化计算，多头自注意力机制的定义如下：MultiHead(Q,K,V)＝Concat(H1,...,H
n
)W
O
(2)；(2)；其中，Q，K，V分别为输入的矢量矩阵，W
O
...

【专利技术属性】
技术研发人员：李荅群，余毅，王成龙，李铭扬，
申请(专利权)人：中国科学院长春光学精密机械与物理研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人