【技术实现步骤摘要】
一种基于时序自适应卷积与注意力机制的目标跟踪方法
[0001]本专利技术属于计算机视觉
,具体为利用时序自适应卷积进行特征提取与注意力机制进行特征融合的目标跟踪方法。
技术介绍
[0002]视觉目标跟踪是计算机视觉中广受研究的课题。由于视觉摄像机的广泛应用,基于视觉跟踪的应用得到了迅速发展,如运动目标分析、地理测量、视觉定位等。尽管基于孪生网络的跟踪方法实现了对简单运动的目跟踪,但在实际应用中由于遮挡、快速运动导致的目标模糊和外观变化等因素,仅基于视觉信息的目标跟踪任是一项具有挑战性的任务。
[0003]现有方法存在问题1:视频流中丰富的时空信息对准确的视觉目标跟踪至关重要。前者包含用于目标定位的表征信息,后者包含对象在帧间的状态变化。在基于孪生网络的跟踪方法中,先前方法通过特征在空间维度上的拼接、动态模板更新、图神经网络和时空记忆网络引入时间信息。在该方法中一个典型的缺陷在于将视频帧视为独立的个体,仅利用多帧图像对目标表征进行建模,忽略了相邻帧间存在的动态变化信息。
[0004]现有方法存在问题2:在基于孪生的跟踪方法中,通过构建模板图像和搜索区域图像之间的相似度响应图来对搜索区域中的目标位置进行预测;现有方法通过协相关运算来构建模板图像和搜索区域图像之间的相似性图。然而,协相关运算是一个局部运算,导致其无法聚合在空间上距离较远的特征,对干扰的鲁棒性低。其次协相关运算本质上是一个线性加权操作,导致其丢失了向量在特征空间上丰富的语义信息。
技术实现思路
[0005]本专利技术的目 ...
【技术保护点】
【技术特征摘要】
1.一种基于时序自适应卷积与注意力机制的目标跟踪方法,其特征在于,包括如下步骤:步骤1:对于给定的模板图像,利用特征提取骨干网络进行特征提取,得到模板初级特征向量;具体是:将所述模板图像输入骨干网络得到模板初级特征向量f
z0
,其中H
z0
,W
z0
为输入模板图像高度与宽度;步骤2:对于给定的搜索图像,利用特征提取骨干网络进行特征提取,得到搜索区域初级特征向量;具体是:将所述搜索图像输入骨干网络得到搜索区域初级特征向量f
x0
,其中H
x0
,W
x0
为搜索图像高度与宽度;步骤3:将步骤1提取的模板初级特征向量和步骤2提取的搜索区域初级特征向量进行时序自适应卷积处理,得到模板特征向量与搜索区域特征向量;步骤4:将步骤3得到的搜索区域特征向量和模板特征向量输入基于注意力的特征融合网络,得到搜索区域与模板特征的相似度响应图;步骤5:将响应图输入预测网络,得到跟踪结果;其中:步骤3所述进行时序自适应卷积处理,具体包括:对于输入的模板初级特征向量f
z0
,使用时序自适应卷积的权重参数W
b
和偏置参数b
b
,对模板初级特征向量进行特征强化,得到模板特征向量f
z
,模板特征向量f
z
的计算表示式为:f
z
=W
b
*f
z0
+b
b
;对于搜索区域初级特征向量f
x0
,首先构造长度为L、元素类型为帧描述符的队列,称为帧描述符队列,其符号为其中帧描述符通过对每一帧的搜索区域初级特征向量f
x0
进行全局平均池化GAP获得,即帧描述符队列通过下式计算得到:其中Cat表示在空间维度的拼接操作;随后使用帧描述符队列生成权重标定因子和偏置标定因子权重和偏置标定因子的计算表示式为:其中表示卷积运算;进一步的,使用权重标定因子偏置标定因子自适应卷积层权重参数W
b
和偏置参数b
b
计算更新后的自适应卷积的权重参数W
t
和偏置参数b
t
;W
t
和b
t
通过下式计算得到:最后使用更新后自适应卷积层权重参数W
t
和偏置参数b
t
,对搜索区域初级特征向量进行特征强化,得到搜索区域的特征向量f
x
;搜索区域的特征向量f
x
的计算表示式为:f
x
=W
t
*f
x0
+b
t
;所述步骤4具体包括:首先对搜索区域特征向量f
x
和模板特征向量f
z
在空间维度上进行展平操作,得到展平后的搜索区域特征向量f
x1
和展平后的模板特征向量f
z1
;f
z1
和f
x1
输入基于注意力的特征融合网络处理,得到搜索区域与模板特征的相似度响应图f;所述基于注意力的特征融合网络由模板分支和搜索分支构成;每个分支,由一个自注意力模块和一个交叉注意力模块组成;首先搜索分支的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。