多模态图像融合目标跟踪方法技术

技术编号:38819195 阅读:16 留言:0更新日期:2023-09-15 19:58
本发明专利技术涉及目标跟踪技术领域,具体提供一种多模态图像融合目标跟踪方法,采用孪生卷积神经网络对多模态图像数据进行特征提取,通过部分卷积层的比例共享获取各模态的共有特征,并将网络的层级深度与卷积层的共享模式充分结合,在网络层级由浅至深的过程中配以逐渐变化的卷积层共享比例,提升网络性能和计算效率;为了提升融合策略的自适应能力,建立了基于注意力机制的多模态特征融合网络,能够自适应地对多模态特征的权重和可靠性进行准确评估,从而使融合特征更加可靠;利用非对称卷积层和特征张量计算中的广播加法将两个分支网络中的融合特征进行结合,并将最终特征进行回归与分类计算,从而得到最终的目标信息。从而得到最终的目标信息。从而得到最终的目标信息。

【技术实现步骤摘要】
多模态图像融合目标跟踪方法


[0001]本专利技术涉及目标跟踪
,具体提供一种多模态图像融合目标跟踪方法。

技术介绍

[0002]在传统的多模态图像融合目标跟踪方法中,中端特征级融合方法多采用基于稀疏表示的方法和基于图的方法进行多模态图像数据的特征提取与融合。这些传统方法虽然能够在一些简单场景获得较好的跟踪效果,但在应对复杂场景中遮挡、光照变化、相似目标干扰和尺度变化等干扰因素时,跟踪性能会出现明显的下降趋势。
[0003]近些年,随着深度学习的发展,基于深度特征的特征级融合方法已经成功引入到视觉目标跟踪中,该种方法主要采用深度神经网络对多模态图像数据进行特征提取,所提取的深度特征较比人工设计的浅层特征更加有效、鲁棒性更好,更易于提升复杂场景下视觉目标跟踪的整体性能。Zhang等在一种平行结构中分别利用卷积神经网络对可见光图像和红外图像进行特征提取,然后将提取的特征直接进行拼接并传入到特定层级中完成分类与定位。Li和Wu等采用双流卷积神经网络分别对可见光图像和红外图像进行特征提取,并提出一种融合网络对特征进行自适应融合。虽然,上述两种方法能够从不同角度利用多模态深度特征进行融合并提升跟踪效果,但融合过程中没有对各模态数据的融合权重和可靠性进行分析与解决。Zhang和Ye等在已有方法的基础上引入孪生卷积神经网络来解决多模态图像数据融合的问题,通过在各分支中采用相同的基础网络来实现特征的独立提取,并在融合后进行互相关计算,从而实现目标的判别与定位。由于孪生卷积神经网络结构能够在少样本学习中发挥重要作用,并且可以采用离线的方式训练网络模型,因此该类方法在保证准确性与鲁棒性的同时还具有较高的实时性。然而,该种方法依旧对多模态数据采用独立的方式进行处理,没有充分考虑到数据间的共有特性,从而使提取的特征冗余性较高,一定程度上增加了计算负担。此外,在对各模态数据间的权重和可靠性进行计算时,融合策略的自适应能力不强,导致融合后的特征鲁棒性不高。为此,C.L.Li和C.Li等在孪生网络结构中采用部分卷积层共享的模式对多模态图像数据同时进行特征提取,有效获取了多模态图像数据中的共有特征。然而,引入的共享模式没有与网络的层级深度进行结合,从而导致网络在工作性能和计算效率方面表现较差,并且融合策略的自适应能力没有进一步提升。
[0004]综上,虽然在引入孪生卷积神经网络后,采用中端特征级融合的多模态图像融合目标跟踪方法在跟踪性能上得到了巨大提升,但是该种方法在复杂场景下的跟踪精度、鲁棒性和稳定性仍然需要改进。

技术实现思路

[0005]本专利技术为解决上述问题,提供了一种多模态图像融合目标跟踪方法,有效提升了在复杂场景下的跟踪精度、鲁棒性和稳定性。
[0006]本专利技术提供的多模态图像融合目标跟踪方法,包括以下步骤:
[0007]S1、利用孪生卷积神经网络对多模态图像数据进行特征提取,获得多模态特征;
[0008]S2、计算孪生卷积神经网络的两个分支网络中Block层级在不同模态特征间的相似性,并确定Block层级间的共享比例;
[0009]S3、将多模态特征输入多模态特征融合网络,对多模态特征进行特征融合,获得多模态融合特征;
[0010]S4、将多模态融合特征输入非对称卷积层进行计算,获得最终特征;
[0011]S5、将最终特征进行分类与回归,并作为孪生卷积神经网络的损失函数的数据输入,通过迭代优化损失函数,完成孪生卷积神经网络的训练;
[0012]S6、将待跟踪目标的多模态图像数据输入已完成训练的孪生卷积神经网络,获得待跟踪目标的定位信息。
[0013]优选的,孪生卷积神经网络包括两个结构相同的分支网络,即目标模板分支网络和搜索区域分支网络,分支网络均采用改进的ResNet

18网络,其拓扑结构为:
[0014]第一卷积层Conv1,卷积核的大小为7
×
7,卷积核的数量为64,步长为2,填充为1;
[0015]最大池化层Maxpool,池化窗口的大小为3
×
3,步长为2,填充为1;
[0016]Block1,卷积核为步长为2,填充为1;
[0017]Block2,卷积核为步长为2,填充为1;
[0018]Block3,卷积核为步长为2,填充为1;
[0019]Block4,卷积核为步长为2,填充为1。
[0020]优选的,分支网络中Block2、Block3、Block4层级在不同模态特征间的相似性的计算式如下:
[0021][0022]其中,为改进的ResNet

18网络,b为二维偏置矩阵,和表示相同分支网络中同一层级深度下不同模态间的特征张量;
[0023]将层级间的互相关计算结果作为Block2、Block3、Block4中的共享比例。
[0024]优选的,多模态特征融合网络包含基于Transformer模型中的编码器

解码器结构搭建的语境增强模块和自适应特征融合模块,自适应特征融合模块采用与语境增强模块中相同的解码器。
[0025]优选的,编码器中包括多头自注意力机制和实例归一化计算,多头自注意力机制的定义如下:
[0026]MultiHead(Q,K,V)=Concat(H1,...,H
n
)W
O
(2);
[0027][0028][0029]其中,Q,K,V分别为输入的矢量矩阵,W
O
,W
nQ
,W
nK
,W
nV
为参数矩阵,d
k
为矩阵K的维度;
[0030]将多头自注意力机制的输出与输入进行实例归一化计算,计算式如下:
[0031]Y
encoder
=Ins.Norm(X+Multihead(Q,K,V))(5);
[0032]其中,X为编码器的输入,Ins.Norm表示实例归一化计算,Y
encoder
为编码器最终输出的特征张量。
[0033]优选的,解码器对输入的特征序列X
Q
和X
KV
进行空间位置编码,并以残差的形式使用多头交叉注意力机制对输入的特征序列进行融合,并对融合结果进行实例归一化计算,对该计算结果采用全连接前馈神经网络增强拟合能力,再通过下式计算解码器的最终输出的多模态融合特征:
[0034][0035][0036]其中,P
Q
和P
KV
分别对应为X
Q
和X
KV
的空间位置编码,MultiHead

Cross表示多头交叉注意力机制,表示解码器中经过多头交叉注意力机制和实例归一化处理后的特征张量,Y
decoder
为解码器最终输出的特征张量,FFN表示全连接前馈神经网络。
[0037]优选的,采用非对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态图像融合目标跟踪方法,其特征在于,包括以下步骤:S1、利用孪生卷积神经网络对多模态图像数据进行特征提取,获得多模态特征;S2、计算孪生卷积神经网络的两个分支网络中Block层级在不同模态特征间的相似性,并确定Block层级间的共享比例;S3、将多模态特征输入多模态特征融合网络,对多模态特征进行特征融合,获得多模态融合特征;S4、将多模态融合特征输入非对称卷积层进行计算,获得最终特征;S5、将最终特征进行分类与回归,并作为孪生卷积神经网络的损失函数的数据输入,通过迭代优化损失函数,完成孪生卷积神经网络的训练;S6、将待跟踪目标的多模态图像数据输入已完成训练的孪生卷积神经网络,获得待跟踪目标的定位信息。2.如权利要求1所述的多模态图像融合目标跟踪方法,其特征在于,孪生卷积神经网络包括两个结构相同的分支网络,即目标模板分支网络和搜索区域分支网络,分支网络均采用改进的ResNet

18网络,其拓扑结构为:第一卷积层Conv1,卷积核的大小为7
×
7,卷积核的数量为64,步长为2,填充为1;最大池化层Maxpool,池化窗口的大小为3
×
3,步长为2,填充为1;Block1,卷积核为步长为2,填充为1;Block2,卷积核为步长为2,填充为1;Block3,卷积核为步长为2,填充为1;Block4,卷积核为步长为2,填充为1。3.如权利要求2所述的多模态图像融合目标跟踪方法,其特征在于,分支网络中Block2、Block3、Block4层级在不同模态特征间的相似性的计算式如下:其中,为改进的ResNet

18网络,b为二维偏置矩阵,和表示相同分支网络中同一层级深度下不同模态间的特征张量;将层级间的互相关计算结果作为Block2、Block3、Block4中的共享比例。4.如权利要求1所述的多模态图像融合目标跟踪方法,其特征在于,多模态特征融合网络包括基于Transformer模型中的编码器

解码器结构搭建的语境增强模块和自适应特征融合模块,自适应特征融合模块采用与语境增强模块中相同的解码器。5.如权利要求4所述的多模态图像融合目标跟踪方法,其特征在于,编码器中包括多头
自注意力机制和实例归一化计算,多头自注意力机制的定义如下:MultiHead(Q,K,V)=Concat(H1,...,H
n
)W
O
(2);(2);其中,Q,K,V分别为输入的矢量矩阵,W
O
...

【专利技术属性】
技术研发人员:李荅群余毅王成龙李铭扬
申请(专利权)人:中国科学院长春光学精密机械与物理研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1