一种结合特征增强与模板更新的目标跟踪方法技术

技术编号:35264119 阅读:26 留言:0更新日期:2022-10-19 10:25
本发明专利技术为一种结合特征增强与模板更新的目标跟踪方法,其克服了现有技术中存在的目标跟踪任务中特征表征能力不足,同时不能很好地适应目标外观变化对跟踪算法造成的性能低的问题。本发明专利技术方法包括以下步骤:(1)利用ResNet50提取深层语义特征,将深层语义特征与浅层特征经过通道注意力进行特征融合,将融合的特征分别经过两个编码器构建特征内部之间的长期依赖关系;(2)使用transformer解码器中的交叉注意力将两个分支的特征进行信息交互,构成特征增强网络,突出有用的全局上下文信息和通道信息,抑制相似性目标的干扰;(3)引入在线模板更新模块,缓解目标外观变化的影响,提高跟踪器的鲁棒性。高跟踪器的鲁棒性。高跟踪器的鲁棒性。

【技术实现步骤摘要】
一种结合特征增强与模板更新的目标跟踪方法


[0001]本专利技术属于计算机视觉
,涉及一种结合特征增强与模板更新的目标跟踪方法。

技术介绍

[0002]在计算机视觉领域中,视觉目标跟踪是该领域的研究方向之一,具体的是指对视频序列中的目标进行持续定位的过程,其主要任务在于通过在视频的第一帧标记出要跟踪的目标,并在后续的每一帧中定位出目标,以生成目标的运动轨迹,并在每一时刻提供完整的目标区域。在智能交通,人机交互,智能医疗以及无人机等方面都有广泛的应用。虽然目前的跟踪器的性能有所提高,但在一些光照强度变化,背景杂乱,严重遮挡的情况下,给目标跟踪方法的设计带来了诸多的挑战。而现有的一些研究成果在特征表征方面和适应跟踪中的目标外观变化仍然存在一定的局限性,因此有必要进一步探索高效的实施方案以改善目标跟踪的性能。
[0003]近几年,由于深度学习在各个方向的应用,基于深度学习的目标跟踪算法逐渐占领整个跟踪领域。深度学习领域中的卷积神经网络具有很强的表征能力,可以自动的提取目标特征,在特征精度方面有了很大的提高。
[0004]为了提高跟踪算法的性能,有研究方法利用孪生网络的匹配能力,将目标跟踪任务看成图像的相似度匹配问题,通过孪生网络上下分支,分别提取模板图像和搜索图像的特征,然后用滑动窗口的形式在搜索图像中确定目标的位置,速度达到了实时性。由于直接利用两个特征之间的相似度,判断目标的位置,精度有待提高,有研究方法将跟踪算法看成分类和回归两阶段任务,使用RPN提升网络特征的表征能力,同时缓解跟踪中多尺度的问题。前期使用孪生网络进行跟踪的算法,使用的网络层次较浅,不能够提取到深层的语义特征,因此,有研究方法利用深层的残差卷积网络,提高网络提取深层语义特征的能力,进而提升跟踪算法的鲁棒性。有些研究者发现注意力机制可以有效的抑制背景干扰和目标变化对跟踪器带来的影响,为了提高特征的表征能力,同时又不引入过多的难以控制的超参数,研究者将注意力机制引入到跟踪领域中。其中,有研究方法通过构建语义分支和外观分支的双分支网络,同时在语义分支中加入通道注意力机制,将特征图加权输出,两分支相互补充,提高特征的表征能力。同时,也有研究方法引入空间和通道注意力,将光流信息和深度特征输入到注意力模块中,得到更精确的运动目标信息,经过互相关性操作得出个跟踪目标的位置。有研究者考虑多种注意力机制,结合残差注意力机制、通道注意力机制和一般注意力机制,将其加入到网络模型,开发了一种非常有效、高效的基于深度学习的跟踪器。由于自注意力可以建立特征之间的长期依赖关系,有研究者利用transformer开发了特征融合网络,该注意力方法可以自适应地关注边缘和相似目标等有用信息,使跟踪器获得更好的分类和回归结果。
[0005]目前一些经典的跟踪算法侧重于单独考虑普通的注意力机制和自注意力机制,普通的注意力机制,比如通道注意力、空间注意力等,只是在通道或者空间上进行特征处理。
而自注意力机制可以建立特征之间的内部关系,将二者进行结合,可以进行互补,提高特征的表征能力。同时,一些经典的跟踪算法在跟踪过程中仅依靠视频的初始帧特征,不能够很好的适应目标外观变化带来的影响。因此如何获取更具表征能力的特征,同时考虑目标外观变化带来的影响,提高跟踪器的鲁棒性具有重要意义。

技术实现思路

[0006]本专利技术的目的在于提供一种结合特征增强与模板更新的目标跟踪方法,其克服了现有技术中存在的目标跟踪任务中特征表征能力不足,同时不能很好地适应目标外观变化对跟踪算法造成的性能低的问题。
[0007]为实现上述目的,本专利技术采用的技术方案为:
[0008]一种结合特征增强与模板更新的目标跟踪方法,其特征在于:该方法实现包括用于提取特征的孪生网络、进行特征增强的特征增强网络、常规分类和回归网络以及模板更新模块;该方法包括以下步骤:
[0009](1)利用ResNet50提取深层语义特征,将深层语义特征与浅层特征经过通道注意力后进行特征融合,将融合的特征分别经过两个transformer编码器构建特征内部之间的长期依赖关系;
[0010](2)使用transformer解码器中的交叉注意力将两个分支的编码器输出的特征进行信息交互,构成特征增强网络,突出有用的全局上下文信息和通道信息,抑制相似性目标的干扰;
[0011](3)引入在线模板更新模块,缓解目标外观变化的影响,提高跟踪器的鲁棒性。
[0012]步骤(1)中,采用ResNet50网络作为基准网络进行特征提取,网络的输入是从训练数据集的视频帧中选取一对图像,即模板图像z(128x128x3)和待搜索图像x(256x256x3),将其送入到孪生网络架构,通过基准网络得到所需要的特征。
[0013]步骤(2)中,特征增强网络包括基于通道注意力机制的特征融合部分和transformer长期依赖建立部分;其中,
[0014]1)基于通道注意力机制的特征融合包括以下步骤:
[0015]将模板图像和待搜索图像经过ResNet50卷积神经网络,取出最后两阶段的特征,分别经过相同的通道注意力机制,计算得到一组权重系数,并对原特征图在通道上进行校正,得到加强后的注意力特征图;然后,再对各个阶段的特征进行深层和浅层信息的融合;
[0016]模板图像和待搜索图像经过ResNet50的前四个阶段,分别取出layer2、layer3两阶段的特征向量F
l2_u
、F
l3_u
、F
l2_d
、F
l3_d
,将两阶段特征向量进行通道上的关键空间信息增强,利用特征融合模块对两个特征进行融合,得到上下分支的特征向量F
u
,F
d

[0017]2)transformer长期依赖建立部分包括以下步骤:
[0018]自注意力根据嵌入的特征向量得到自注意力中的query(Q),key(K),value(V),根据Q和K计算两者的相似性或者关联性,选择求两个向量点积进行相似度的计算,将得到的分值进行归一化处理,然后根据归一化的权重系数对V进行加权求和;自注意力的计算可以定义为公式(10):
[0019][0020]其中,Q,K,V均是来自特征的线性变换;
[0021]在上下两个分支分别使用编码器学习模板图像特征和待搜索图像特征的内部关系,使用不含自注意力机制的解码器将编码器学习到的两分支图像特征进行信息交互,得到显著性特征;
[0022]采用单头自注意力机制,内部运算表示为:
[0023][0024]其中,分别表示Q,K,V的权重矩阵向量,自注意力中取Q,K,V相同;
[0025]上下分支编码器接收通道增强特征向量F
u
和F
d
,在接收特征之前需要先将特征进行维度上的转换,转换成编码器所需要的特征向量和通过公式(10)对输入的模板图像特征进行自注意力的计算,同时在每个特征的位置上加入位置编码;...

【技术保护点】

【技术特征摘要】
1.一种结合特征增强与模板更新的目标跟踪方法,其特征在于:该方法实现包括用于提取特征的孪生网络、进行特征增强的特征增强网络、常规分类和回归网络以及模板更新模块;该方法包括以下步骤:(1)利用ResNet50提取深层语义特征,将深层语义特征与浅层特征经过通道注意力后进行特征融合,将融合的特征分别经过两个transformer编码器构建特征内部之间的长期依赖关系;(2)使用transformer解码器中的交叉注意力将两个分支的编码器输出的特征进行信息交互,构成特征增强网络,突出有用的全局上下文信息和通道信息,抑制相似性目标的干扰;(3)引入在线模板更新模块,缓解目标外观变化的影响,提高跟踪器的鲁棒性。2.根据权利要求1所述的一种结合特征增强与模板更新的目标跟踪方法,其特征在于:步骤(1)中,采用ResNet50网络作为基准网络进行特征提取,网络的输入是从训练数据集的视频帧中选取一对图像,将其送入到孪生网络架构,通过基准网络得到所需要的特征。3.根据权利要求1所述的一种结合特征增强与模板更新的目标跟踪方法,其特征在于:步骤(2)中,特征增强网络包括基于通道注意力机制的特征融合部分和transformer长期依赖建立部分;其中,1)基于通道注意力机制的特征融合包括以下步骤:将模板图像和待搜索图像经过ResNet50卷积神经网络,取出最后两阶段的特征,分别经过相同的通道注意力机制,计算得到一组权重系数,并对原特征图在通道上进行校正,得到加强后的注意力特征图;然后,再对各个阶段的特征进行深层和浅层信息的融合;模板图像和待搜索图像经过ResNet50的前四个阶段,分别取出layer2、layer3两阶段的特征向量F
l2_u
、F
l3_u
、F
l2_d
、F
l3_d
,将两阶段特征向量进行通道上的关键空间信息增强,利用特征融合模块对两个特征进行融合,得到上下分支的特征向量F
u
,F
d
;2)transformer长期依赖建立部分包括以下步骤:自注意力根据嵌入的特征向量得到自注意力中的query(Q),key(K),value(V),根据Q和K计算两者的相似性或者关联性,选择求两个向量点积进行相似度的计算,将得到的分值进行归一化处理,然后根据归一化的权重系数对V进行加权求和;自注意力的计算可以定义为公式(10):其中,Q,K,V均是来自特征的线性变换;在上下两个分支分别使用编码器学习模板图像特征和待搜索图像特征的内部关系,使用不含自注意力机制的解码器将编码器学习到的两分支图像特征进行信息交互,得到显著性特征;采用单头自注意力机制,内部运算表示为:Head(Q,K,V)=Attention(QW
iQ
,KW
iK
,VW
iV
)
ꢀꢀ
(11)其中,W
iQ
,W
iK
,W
iV
分别表示Q,K,V的权重矩阵向量,自注意力中取Q,K,V相同;上下分支编码器接收通道增强特征向量F
u
和F
d
,在接收特征之前需要先将特征进行维
度上的转换,转换成编码器所需要的特征向量和通过公式(10)对输入的模板图像特征进行自注意力的计算,同时在每个特征的位置上加入位置编码;个特征的位置上加入位置编码;其中,P
z
是位置编码,Output
eu
和Output
...

【专利技术属性】
技术研发人员:胡秀华刘焕惠燕赵婧尤世界胡旭洋吴玺
申请(专利权)人:西安工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1