一种基于双流注意力机制的多模态监控视频目标跟踪方法技术

技术编号:37380467 阅读:7 留言:0更新日期:2023-04-27 07:22
本发明专利技术属于目标跟踪技术领域,具体地说是涉及一种基于双流注意力机制的多模态监控视频目标跟踪方法。本发明专利技术以监控视频多模态数据的目标跟踪为背景,针对现有的多模态目标跟踪中对全局特征建模能力弱的缺点,提出了一种基于双流注意力机制的目标跟踪方法。该方法首先采用了双流注意力网络对目标的特征进行提取和融合,应用注意力机制对正负样本的关系进行建模,关注全局特征联系。此外,为了增强特征表达,对不同尺度的特征进行交互。最后利用回归分类子网络对目标的位置进行预测。这样既保证了局部细节,也关注了全局特征,得到了判别能力更强的特征,使回归分类子网络的预测结果更加精确。加精确。加精确。

【技术实现步骤摘要】
一种基于双流注意力机制的多模态监控视频目标跟踪方法


[0001]本专利技术属于目标跟踪
,具体地说是涉及一种基于双流注意力机制的多模态监控视频目标跟踪方法。

技术介绍

[0002]目标跟踪指的是在已知第一帧的目标的情况下,跟踪后续帧目标的位置。目标跟踪与传统的目标检测不同,不需要识别目标的种类,只需要识别目标在每一帧之中的位置。以往的目标跟踪多集中在可见光的监控视频数据中,但是在实际中,监控视频得到的可见光图像往往是清晰度不高的。此外,可见光视频由于其成像原因是光的反射,因此对光照十分敏感,光照过强的时候会产生曝光的问题,而光照过弱的时候则会看不清目标。因此,引入了红外图像对其做特征互补。红外图像的成像原理是利用不同物体的温度,因此对光照不敏感;但同时,红外图像本无法反映目标的细节,比如颜色、花纹等等。传统的多模态目标跟踪往往采用卷积神经网络对目标进行特征提取,他们使用分类网络单独处理学习每帧样本,而没有关注到正负样本之间的联系。这种方法的目标位置是通过目标分类的置信度得分得到的,可能使得目标的分类得分最高的地方并不是目标的位置。此外,不同深度的特征关注的特点也不相同。

技术实现思路

[0003]基于以上问题,本专利技术针对监控视频数据的目标跟踪,引入了可见光和红外图像的多模态融合互补,通过双流注意力机制来关注全局特征,并对不同尺度的特征进行融合,力求在保留局部细节的前提下,对目标和背景的联系进行关注,得到判别性更强的特征。
[0004]本专利技术以监控视频多模态数据的目标跟踪为背景,针对现有的多模态目标跟踪中对全局特征建模能力弱的缺点,提出了一种基于双流注意力机制的目标跟踪方法。该方法首先采用了双流注意力网络对目标的特征进行提取和融合,应用注意力机制对正负样本的关系进行建模,关注全局特征联系。此外,为了增强特征表达,对不同尺度的特征进行交互。最后利用回归分类子网络对目标的位置进行预测。这样既保证了局部细节,也关注了全局特征,得到了判别能力更强的特征,使回归分类子网络的预测结果更加精确。
[0005]本专利技术的技术方案是:
[0006]一种基于双流注意力机制的多模态监控视频目标跟踪方法,其特征在于,包括以下步骤:
[0007]S1、从监控视频数据中筛选出匹配的可见光

红外视频对,将视频对按照同一帧率保存为图像对获得输入样本;选取出图像对中代表第一帧的图像作为匹配图像,在匹配图像中将需要跟踪的目标用矩形框进行框选,后续帧的图像作为搜索图像;将输入样本记作像中将需要跟踪的目标用矩形框进行框选,后续帧的图像作为搜索图像;将输入样本记作i=1,2,
……
N
j
,N
j
表示第j类样本的数量,表示可见光数据,表示红外数据;样本标签记作i=1,2,
……
N
j
,表示可见光数据标签,表示红外
数据标签;在实际训练过程中,为了尽可能多的利用更多的数据,因此匹配分支随机选取视频序列M
train
中的某一帧,记作(Z
v
,Z
t
),搜索分支选择在匹配分支图像之后的某个图像对,记作(X
v
,X
t
);
[0008]S2、构建神经网络,包括双流特征提取网络、多模态融合网络和跟踪网络;
[0009]所述双流特征提取网络包括两个结构相同分支,分别为匹配分支和搜索分支,匹配分支和搜索分支均分别对可见光图像和红外图像进行特征提取,具体为采用三个级联的transformer block进行特征提取;
[0010]所述多模态融合网络用于对双流特征提取网络提取的特性进行融合,具体为:定义双流特征提取网络中匹配分支的三个transformer block输出分别为(X
1V
,X
1T
),(X
2V
,X
2T
),(X
3V
,X
3T
),定义搜索分支的三个transformer block输出分别为(Z
1V
,Z
1T
),(Z
2V
,Z
2T
),(Z
3V
,Z
3T
);多模态融合网络分别获取每一个transformer block的输出并进行融合得到:
[0011]X1=cat(X
v1
、X
t1
)
[0012]X2=cat(X
v2
、X
t2
)
[0013]X3=cat(X
v3
、X
t3
)
[0014]Z1=cat(Z
v1
、Z
t1
)
[0015]Z2=cat(Z
v2
、Z
t2
)
[0016]Z3=cat(Z
v3
、Z
t3
)
[0017]其中,cat表示对图像进行通道融合;
[0018]再进行相关性计算得到相似度矩阵S
i

[0019]S
i
=corr(Z
i
,X
i
),i=1,2,3
[0020]其中,corr表示相似度计算,即将尺寸较小的匹配图像Z
i
作为卷积核对X
i
进行卷积操作的过程;
[0021]对相似度矩阵进行拼接,得到包含多尺度信息的相似度矩阵S:
[0022]S=cat(S
i
)
[0023]S=downsample(S)
[0024]其中,downsample表示降采样,将S投影到适合跟踪的维度空间,
[0025]所述跟踪网络包括三个分支,分别为:
[0026]分类损失分支,预测目标的中心位置:
[0027][0028]其中,y
t
表示第t个样本的锚框真实标签,y
t
=1表示该锚框表示前景;m
t
表示该锚框是前景的概率;
[0029]回归损失分支,预测目标框四条边到中心点的距离:
[0030][0031][0032]其中,bbox表示预测框的大小,用四条边框和中心的距离表示,(i,j)表示S上的
点;
[0033]中心损失分支,抑制中心点漂移:
[0034][0035]其中,d
t
表示的是第j个中心位置的得分,σ表示sigmoid激活函数。c
t
和预测位置与中心位置的距离成正比。
[0036]跟踪网络的总损失为:
[0037]L=L
cls
+η1L
reg
+η2L
cen
[0038]其中,η1和η2是设定的超参数;...

【技术保护点】

【技术特征摘要】
1.一种基于双流注意力机制的多模态监控视频目标跟踪方法,其特征在于,包括以下步骤:S1、从监控视频数据中筛选出匹配的可见光

红外视频对,将视频对按照同一帧率保存为图像对获得输入样本;选取出图像对中代表第一帧的图像作为匹配图像,在匹配图像中将需要跟踪的目标用矩形框进行框选,后续帧的图像作为搜索图像;将输入样本记作将需要跟踪的目标用矩形框进行框选,后续帧的图像作为搜索图像;将输入样本记作N
j
表示第j类样本的数量,表示可见光数据,表示红外数据;样本标签记作外数据;样本标签记作表示可见光数据标签,表示红外数据标签;S2、构建神经网络,包括双流特征提取网络、多模态融合网络和跟踪网络;所述双流特征提取网络包括两个结构相同分支,分别为匹配分支和搜索分支,匹配分支和搜索分支均分别对可见光图像和红外图像进行特征提取,具体为采用三个级联的transformer block进行特征提取;所述多模态融合网络用于对双流特征提取网络提取的特性进行融合,具体为:定义双流特征提取网络中匹配分支的三个transformer block输出分别为(X
1V
,X
1T
),(X
2V
,X
2T
),(X
3V
,X
3T
),定义搜索分支的三个transformer block输出分别为(Z
1V
,Z
1T
),(Z
2V
,Z
2T
),(Z
3V
,Z
3T
);多模态融合网络分别获取每一个transformer block的输出并进行融合得到:X1=cat(X
v1
、X
t1
)X2=cat(X
v2
、X
t2
)X3=cat(X
v3
、X
t3
)Z1=cat(Z
v1
、Z
t1
)Z2=cat(Z
v2
、Z
t2
)Z3=cat(Z
v3
、Z
t3
)其中,cat表示对图像进行通道融合;再进行相关性计算得到相似度矩阵S
i
:S

【专利技术属性】
技术研发人员:廖阔陈思情潘启迪卜志纯张萍
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1