基于深度神经网络的旋转注意力单目标跟踪方法和装置制造方法及图纸

技术编号：38632886 阅读：25 留言：0更新日期：2023-08-31 18:30

本申请公开了一种基于深度神经网络的旋转注意力单目标跟踪方法和装置，通过提取当前帧图像的特征以及包括跟踪目标的模板图像的特征；基于旋转注意力模块对提取的特征进行融合，并通过预设的解码器再次提取所述当前帧图像的特征；基于稀疏注意力模块，将基于旋转注意力模块融合后的特征和再次提取的当前帧图像的特征再次融合，获得目标特征；对所述目标特征进行分类回归，获得分类结果和回归结果；根据所述分类结果和所述回归结果确定所述当前帧图像中所述跟踪目标的位置，实现了在部分遮挡、完全遮挡、光照变化等极端的环境下，对单目标进行高精度跟踪。目标进行高精度跟踪。目标进行高精度跟踪。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度神经网络的旋转注意力单目标跟踪方法和装置

[0001]本申请涉及计算机视觉
，尤其涉及一种基于深度神经网络的旋转注意力单目标跟踪方法和装置。

技术介绍

[0002]单目标跟踪是计算机视觉领域基础且具有广泛实用性的任务之一，旨在视频第一帧中获取跟踪目标所在区域的特征信息,以此为依据在后续帧中对跟踪目标状态进行估计并进行准确定位，单目标跟踪技术在许多领域均有应用，例如智能视频监控领域、自动驾驶领域、智能人机交互领域以及人体的动作捕捉或眼球跟踪等。
[0003]由于跟踪目标和形状的变化，例如姿态变化，光照，部分遮挡和完全遮挡的存在，使得单目标跟踪任务具有很大的挑战，同时由于单目标跟踪对算法有实时性要求，使得解决这些问题更加困难。跟踪目标的动态变化使得跟踪目标信息包含大量的噪声，局部特征间的空间位置关系也因为跟踪目标变化的存在而变得模糊，导致模板图像特征与跟踪特征差异过大，使得跟踪失败。由于跟踪目标可以被任意其他目标遮挡，因此在部分遮挡和完全遮挡的情况下，单目标跟踪算法通常会发生严重的退化。相关技术中基于注意力机制的算法虽然能捕捉特征全局之间的关系，但是会带来大量的计算，使得网络难以满足实时性要求，导致那些在约束环境下表现良好的人脸对齐算法在性能稍弱的设备上无法流畅运行跟踪算法。
[0004]因此，如何在在部分遮挡、完全遮挡、光照变化等极端的环境下进行高精度的单目标跟踪是亟需解决的技术问题。

技术实现思路

[0005]本申请的主要目的在于提供一种基于深度神经网络的旋转注意力单目标...

【技术保护点】

【技术特征摘要】
1.一种基于深度神经网络的旋转注意力单目标跟踪方法，其特征在于，包括：提取当前帧图像的特征以及包括跟踪目标的模板图像的特征；基于旋转注意力模块对提取的特征进行融合，并通过预设的解码器再次提取所述当前帧图像的特征；基于稀疏注意力模块，将基于旋转注意力模块融合后的特征和再次提取的当前帧图像的特征再次融合，获得目标特征；对所述目标特征进行分类回归，获得分类结果和回归结果；根据所述分类结果和所述回归结果确定所述当前帧图像中所述跟踪目标的位置。2.根据权利要求1所述的基于深度神经网络的旋转注意力单目标跟踪方法，其特征在于，所述提取当前帧图像的特征以及包括跟踪目标的模板图像的特征，包括：通过预设的Swin
‑
Transformer深度神经网络提取所述模板图像中的跟踪目标特征和背景特征，并获得对应的模板图像特征图；通过所述Swin
‑
Transformer深度神经网络提取所述当前帧图像中的跟踪目标特征和背景特征，并获得对应的当前帧图像特征图；其中，所述Swin
‑
Transformer深度神经网络包括：第一阶段特征提取网络，其包括：依次连接的1个线性变换单元、2个第一基本单元和1个合并单元：第二阶段特征提取网络，其包括：依次连接的2个所述第一基本单元和1个所述合并单元；第三阶段特征提取网络，其包括：依次连接的4个所述第一基本单元；其中，所述线性变换单元用于将所述模板图像和所述当前帧图像中每4
×
4尺度的区域映射至维度为96的向量，所述第一基本单元包括跳跃链接的1层注意力机制和1层多层感知机，所述合并单元包括1个步长为2的2
×
2卷积和1个归一化单元，所述合并单元用于提升所述向量的维度。3.根据权利要求2所述的基于深度神经网络的旋转注意力单目标跟踪方法，其特征在于，所述旋转注意力模块包括：第一阶段旋转注意力模块，其包括4个第二基本单元进和1个所述合并单元；所述第二阶段旋转注意力模块，其包括4个第二基本单元；其中，所述第二基本单元包括：跳跃连接的4个旋转注意力机制和1层多层感知机，以及3层分类头，所述分类头包括3层多层感知机并通过ReLU函数激活；所述解码器由窗口自注意力组成，所述解码器包括：第一阶段解码网络，其包括4个所述第一基本单元、1个批归一化单元和1个步长为1的3
×
3卷积；第二阶段解码网络，其包括4个所述第一基本单元；所述第一阶段解码网络和所述第二阶段解码网络均通过稀疏注意力与所述旋转注意力模块进行连接。4.根据权利要求3所述的基于深度神经网络的旋转注意力单目标跟踪方法，其特征在于，基于旋转注意力模块对提取的特征进行融合，并通过预设的解码器再次提取所述当前帧图像的特征，包括：
对所述当前帧图像特征图f
x
和所述模板图像特征图f
z
在图高H和图宽W的维度上进行线性变化得到旋转注意力模块的输入向量，线性变换的过程为：Q1＝concat(P(M
×
f
z
)),P(M
×
f
x
)))K1＝V1＝concat(P(f
z
,P(f
x
))其中，M为转换矩阵，Q1为旋转注意力模块的第一输入向量，K1为旋转注意力模块的第二输入向量，V1为旋转注意力模块的第三输入向量,P为线性变化函数，所述线性变化函数P用于将所述当前帧图像特征图f
x
和模板图像特征图f
z
沿W和H维度分为4...

【专利技术属性】
技术研发人员：李晶，廉乐知，常军，刘天鹏，宋北航，朱海，
申请(专利权)人：武汉大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人