一种结合特征增强与模板更新的目标跟踪方法技术

技术编号：35264119 阅读：26 留言：0更新日期：2022-10-19 10:25

本发明专利技术为一种结合特征增强与模板更新的目标跟踪方法，其克服了现有技术中存在的目标跟踪任务中特征表征能力不足，同时不能很好地适应目标外观变化对跟踪算法造成的性能低的问题。本发明专利技术方法包括以下步骤：(1)利用ResNet50提取深层语义特征，将深层语义特征与浅层特征经过通道注意力进行特征融合，将融合的特征分别经过两个编码器构建特征内部之间的长期依赖关系；(2)使用transformer解码器中的交叉注意力将两个分支的特征进行信息交互，构成特征增强网络，突出有用的全局上下文信息和通道信息，抑制相似性目标的干扰；(3)引入在线模板更新模块，缓解目标外观变化的影响，提高跟踪器的鲁棒性。高跟踪器的鲁棒性。高跟踪器的鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
一种结合特征增强与模板更新的目标跟踪方法

：
[0001]本专利技术属于计算机视觉
，涉及一种结合特征增强与模板更新的目标跟踪方法。

技术介绍
：
[0002]在计算机视觉领域中，视觉目标跟踪是该领域的研究方向之一，具体的是指对视频序列中的目标进行持续定位的过程，其主要任务在于通过在视频的第一帧标记出要跟踪的目标，并在后续的每一帧中定位出目标,以生成目标的运动轨迹,并在每一时刻提供完整的目标区域。在智能交通，人机交互，智能医疗以及无人机等方面都有广泛的应用。虽然目前的跟踪器的性能有所提高，但在一些光照强度变化，背景杂乱，严重遮挡的情况下，给目标跟踪方法的设计带来了诸多的挑战。而现有的一些研究成果在特征表征方面和适应跟踪中的目标外观变化仍然存在一定的局限性，因此有必要进一步探索高效的实施方案以改善目标跟踪的性能。
[0003]近几年，由于深度学习在各个方向的应用，基于深度学习的目标跟踪算法逐渐占领整个跟踪领域。深度学习领域中的卷积神经网络具有很强的表征能力，可以自动的提取目标特征，在特征精度方面有了很大的提高。
[0004]为了提高跟踪算法的性能，有研究方法利用孪生网络的匹配能力，将目标跟踪任务看成图像的相似度匹配问题，通过孪生网络上下分支，分别提取模板图像和搜索图像的特征，然后用滑动窗口的形式在搜索图像中确定目标的位置，速度达到了实时性。由于直接利用两个特征之间的相似度，判断目标的位置，精度有待提高，有研究方法将跟踪算法看成分类和回归两阶段任务，使用RPN提升网络特征的表征能力，同时缓解跟踪中多尺度

【技术保护点】

【技术特征摘要】
1.一种结合特征增强与模板更新的目标跟踪方法，其特征在于：该方法实现包括用于提取特征的孪生网络、进行特征增强的特征增强网络、常规分类和回归网络以及模板更新模块；该方法包括以下步骤：(1)利用ResNet50提取深层语义特征，将深层语义特征与浅层特征经过通道注意力后进行特征融合，将融合的特征分别经过两个transformer编码器构建特征内部之间的长期依赖关系；(2)使用transformer解码器中的交叉注意力将两个分支的编码器输出的特征进行信息交互，构成特征增强网络，突出有用的全局上下文信息和通道信息，抑制相似性目标的干扰；(3)引入在线模板更新模块，缓解目标外观变化的影响，提高跟踪器的鲁棒性。2.根据权利要求1所述的一种结合特征增强与模板更新的目标跟踪方法，其特征在于：步骤(1)中，采用ResNet50网络作为基准网络进行特征提取，网络的输入是从训练数据集的视频帧中选取一对图像，将其送入到孪生网络架构，通过基准网络得到所需要的特征。3.根据权利要求1所述的一种结合特征增强与模板更新的目标跟踪方法，其特征在于：步骤(2)中，特征增强网络包括基于通道注意力机制的特征融合部分和transformer长期依赖建立部分；其中，1)基于通道注意力机制的特征融合包括以下步骤：将模板图像和待搜索图像经过ResNet50卷积神经网络，取出最后两阶段的特征，分别经过相同的通道注意力机制，计算得到一组权重系数，并对原特征图在通道上进行校正，得到加强后的注意力特征图；然后，再对各个阶段的特征进行深层和浅层信息的融合；模板图像和待搜索图像经过ResNet50的前四个阶段，分别取出layer2、layer3两阶段的特征向量F
l2_u
、F
l3_u
、F
l2_d
、F
l3_d
，将两阶段特征向量进行通道上的关键空间信息增强，利用特征融合模块对两个特征进行融合，得到上下分支的特征向量F
u
，F
d
；2)transformer长期依赖建立部分包括以下步骤：自注意力根据嵌入的特征向量得到自注意力中的query(Q)，key(K)，value(V)，根据Q和K计算两者的相似性或者关联性，选择求两个向量点积进行相似度的计算，将得到的分值进行归一化处理，然后根据归一化的权重系数对V进行加权求和；自注意力的计算可以定义为公式(10)：其中，Q，K，V均是来自特征的线性变换；在上下两个分支分别使用编码器学习模板图像特征和待搜索图像特征的内部关系，使用不含自注意力机制的解码器将编码器学习到的两分支图像特征进行信息交互，得到显著性特征；采用单头自注意力机制，内部运算表示为：Head(Q，K，V)＝Attention(QW
iQ
，KW
iK
，VW
iV
)
ꢀꢀ
(11)其中，W
iQ
，W
iK
，W
iV
分别表示Q，K，V的权重矩阵向量，自注意力中取Q，K，V相同；上下分支编码器接收通道增强特征向量F
u
和F
d
，在接收特征之前需要先将特征进行维
度上的转换，转换成编码器所需要的特征向量和通过公式(10)对输入的模板图像特征进行自注意力的计算，同时在每个特征的位置上加入位置编码；个特征的位置上加入位置编码；其中，P
z
是位置编码，Output
eu
和Output
...

【专利技术属性】
技术研发人员：胡秀华，刘焕，惠燕，赵婧，尤世界，胡旭洋，吴玺，
申请(专利权)人：西安工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人