一种基于时序自适应卷积与注意力机制的目标跟踪方法技术

技术编号:35140931 阅读:14 留言:0更新日期:2022-10-05 10:16
本发明专利技术公开了一种基于时序自适应卷积与注意力机制的目标跟踪方法,在特征提取方面,该方法提出了一种适用于目标跟踪的时序自适应卷积处理,利用时间信息来辅助空间特征的提取。同时还提出了一种全新的基于注意力的特征融合网络,相较于其他基于注意力的跟踪方法,该网络利用注意力更有效地结合了模板和搜索区域的特征,增强了目标经历干扰时模板信息与搜索区域信息的耦合性。本发明专利技术对运动模糊,目标遮挡,目标形变和目标超出视角等极端环境具有较强的鲁棒性。有较强的鲁棒性。有较强的鲁棒性。

【技术实现步骤摘要】
一种基于时序自适应卷积与注意力机制的目标跟踪方法


[0001]本专利技术属于计算机视觉
,具体为利用时序自适应卷积进行特征提取与注意力机制进行特征融合的目标跟踪方法。

技术介绍

[0002]视觉目标跟踪是计算机视觉中广受研究的课题。由于视觉摄像机的广泛应用,基于视觉跟踪的应用得到了迅速发展,如运动目标分析、地理测量、视觉定位等。尽管基于孪生网络的跟踪方法实现了对简单运动的目跟踪,但在实际应用中由于遮挡、快速运动导致的目标模糊和外观变化等因素,仅基于视觉信息的目标跟踪任是一项具有挑战性的任务。
[0003]现有方法存在问题1:视频流中丰富的时空信息对准确的视觉目标跟踪至关重要。前者包含用于目标定位的表征信息,后者包含对象在帧间的状态变化。在基于孪生网络的跟踪方法中,先前方法通过特征在空间维度上的拼接、动态模板更新、图神经网络和时空记忆网络引入时间信息。在该方法中一个典型的缺陷在于将视频帧视为独立的个体,仅利用多帧图像对目标表征进行建模,忽略了相邻帧间存在的动态变化信息。
[0004]现有方法存在问题2:在基于孪生的跟踪方法中,通过构建模板图像和搜索区域图像之间的相似度响应图来对搜索区域中的目标位置进行预测;现有方法通过协相关运算来构建模板图像和搜索区域图像之间的相似性图。然而,协相关运算是一个局部运算,导致其无法聚合在空间上距离较远的特征,对干扰的鲁棒性低。其次协相关运算本质上是一个线性加权操作,导致其丢失了向量在特征空间上丰富的语义信息。

技术实现思路

[0005]本专利技术的目的是为了解决现有方法所存在的问题而提出了的一种基于时序自适应卷积与注意力机制的目标跟踪方法,该方法使用时序自适应卷积对模板初级特征向量和搜索区域初级特征向量进行处理,使用视频中的时序信息来增强空间特征的表征能力,从而将孤立的视频帧有机结合。同时提高了时序信息的利用效率;利用一种基于注意力的特征融合网络,使模板与搜索区域在空间上的远距离特征充分聚合,从而获得更具语义信息的相似度响应图。
[0006]实现本专利技术目的的具体技术方案是:
[0007]一种基于时序自适应卷积与注意力机制的目标跟踪方法,包括如下步骤:
[0008]步骤1,对于给定的模板图像,利用特征提取骨干网络进行特征提取,最终得到模板初级特征向量;
[0009]步骤2,对于给定的搜索图像,利用特征提取骨干网络进行特征提取,最终得到搜索区域初级特征向量;
[0010]步骤3,将步骤1提取的模板初级特征向量和步骤2提取的搜索区域初级特征向量输入时序自适应卷积模块,得到模板特征向量与搜索区域特征向量;
[0011]步骤4,将步骤3得到的搜索区域特征向量和模板特征向量输入基于注意力的特征
融合网络,得到搜索区域与模板特征的相似度响应图;
[0012]步骤5,将响应图输入预测网络,得到跟踪结果。
[0013]进一步的,步骤1中的模板图像特征提取骨干网络的具体过程如下:
[0014]特征提取骨干网络使用孪生网络来提取图像特征,该网络由两个分支组成:一个提取目标模板特征的模板分支,一个提取搜索图像特征的搜索分支,并且这两个分支结构相同,共享网络权重.将目标模板图像输入骨干网络得到模板初级特征向量f
z0
,其中H
z0
,W
z0
为输入模板图像高度与宽度。
[0015]进一步的,步骤2中的搜索图像特征提取骨干网络的具体过程如下:
[0016]特征提取骨干网络使用孪生网络来提取图像特征,该网络由两个分支组成:一个提取目标模板特征的模板分支,一个提取搜索图像特征的搜索分支,并且这两个分支结构相同,共享网络权重.将搜索图像输入骨干网络得到搜索区域初级特征向量f
x0
,其中H
x0
,W
x0
为搜索图像高度与宽度。
[0017]进一步的,步骤3中时序自适应卷积模块的具体描述如下:
[0018]对于输入的模板初级特征向量f
z0
,使用自适应卷积层权重参数W
b
,和偏置参数b
b
,对模板的初级特征向量进行特征强化,得到模板的特征向量f
z
.模板的特征向量f
z
的计算表示式为:f
z
=W
b
*f
z0
+b
b
.对于搜索区域初级特征向量f
x0
,首先构造长度为L,元素类型为帧描述符的队列,称为帧描述符队列,其符号为其中帧描述符通过对每一帧的索区域初级特征向量f
x0
进行全局平均池化(GAP)获得,即帧描述符队列通过下式计算得到:列其中Cat表示在空间维度的拼接操作;随后使用帧描述符队列生成权重标定因子和偏置标定因子权重和偏置标定因子的计算表示式为:权重和偏置标定因子的计算表示式为:其中表示卷积运算.进一步的,使用权重标定因子偏置标定因子自适应卷积层权重参数W
b
和偏置参数b
b
计算更新后的自适应卷积层权重参数W
t
和偏置参数b
t
.W
t
和b
t
通过下式计算得到最后使用更新后自适应卷积层权重参数W
t
和偏置参数b
t
,对搜索区域初级特征向量进行特征强化,得到搜索区域的特征向量f
x
.搜索区域的特征向量f
x
的计算表示式为:f
x
=W
t
*f
x0
+b
t

[0019]进一步的,步骤4中的特征融合网络对特征向量的处理过程如下:
[0020]首先对搜索区域的特征向量f
x
和模板的特征向量f
z
在空间维度上进行展平操作,得到展平后的搜索区域的特征向量f
x1
和展平后的模板特征向量f
z1
.所述基于注意力的特征融合网络由模板分支和搜索分支构成;对于每个分支,又由一个自注意力模块和一个交叉注意力模块组成;首先搜索分支的自注意力模块和模板分支的自注意力模块自适应地聚焦于目标轮廓信息,从而增强搜索区域特征向量f
x
和模板特征向量f
z
的表征能力;其中搜索分支自注意力模块输出如下f
x2
=f
x1
+MultiHead(f
x1
+P
x
,f
x1
+P
x
,f
x1
),其中是对f
x1
的空间位置编码,d为搜索区域特征向量中每个特征的维度,N
x
为搜索区域特征向量中特征的数目,f
x2
是搜索分支自注意力模块的输出,MultiHead为多头注意力机制.多头注意力机制的计算式如下:
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于时序自适应卷积与注意力机制的目标跟踪方法,其特征在于,包括如下步骤:步骤1:对于给定的模板图像,利用特征提取骨干网络进行特征提取,得到模板初级特征向量;具体是:将所述模板图像输入骨干网络得到模板初级特征向量f
z0
,其中H
z0
,W
z0
为输入模板图像高度与宽度;步骤2:对于给定的搜索图像,利用特征提取骨干网络进行特征提取,得到搜索区域初级特征向量;具体是:将所述搜索图像输入骨干网络得到搜索区域初级特征向量f
x0
,其中H
x0
,W
x0
为搜索图像高度与宽度;步骤3:将步骤1提取的模板初级特征向量和步骤2提取的搜索区域初级特征向量进行时序自适应卷积处理,得到模板特征向量与搜索区域特征向量;步骤4:将步骤3得到的搜索区域特征向量和模板特征向量输入基于注意力的特征融合网络,得到搜索区域与模板特征的相似度响应图;步骤5:将响应图输入预测网络,得到跟踪结果;其中:步骤3所述进行时序自适应卷积处理,具体包括:对于输入的模板初级特征向量f
z0
,使用时序自适应卷积的权重参数W
b
和偏置参数b
b
,对模板初级特征向量进行特征强化,得到模板特征向量f
z
,模板特征向量f
z
的计算表示式为:f
z
=W
b
*f
z0
+b
b
;对于搜索区域初级特征向量f
x0
,首先构造长度为L、元素类型为帧描述符的队列,称为帧描述符队列,其符号为其中帧描述符通过对每一帧的搜索区域初级特征向量f
x0
进行全局平均池化GAP获得,即帧描述符队列通过下式计算得到:其中Cat表示在空间维度的拼接操作;随后使用帧描述符队列生成权重标定因子和偏置标定因子权重和偏置标定因子的计算表示式为:其中表示卷积运算;进一步的,使用权重标定因子偏置标定因子自适应卷积层权重参数W
b
和偏置参数b
b
计算更新后的自适应卷积的权重参数W
t
和偏置参数b
t
;W
t
和b
t
通过下式计算得到:最后使用更新后自适应卷积层权重参数W
t
和偏置参数b
t
,对搜索区域初级特征向量进行特征强化,得到搜索区域的特征向量f
x
;搜索区域的特征向量f
x
的计算表示式为:f
x
=W
t
*f
x0
+b
t
;所述步骤4具体包括:首先对搜索区域特征向量f
x
和模板特征向量f
z
在空间维度上进行展平操作,得到展平后的搜索区域特征向量f
x1
和展平后的模板特征向量f
z1
;f
z1
和f
x1
输入基于注意力的特征融合网络处理,得到搜索区域与模板特征的相似度响应图f;所述基于注意力的特征融合网络由模板分支和搜索分支构成;每个分支,由一个自注意力模块和一个交叉注意力模块组成;首先搜索分支的...

【专利技术属性】
技术研发人员:孙翊铭赵静
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1