基于多头注意力优化特征融合网络的目标跟踪方法与系统技术方案

技术编号：39836481 阅读：8 留言：0更新日期：2023-12-29 16:20

本发明专利技术提出一种基于多头注意力优化特征融合网络的目标跟踪方法与系统，该方法包括

全部详细技术资料下载

【技术实现步骤摘要】
基于多头注意力优化特征融合网络的目标跟踪方法与系统

[0001]本专利技术涉及计算机视觉与图像处理
，特别涉及一种基于多头注意力优化特征融合网络的目标跟踪方法与系统
。

技术介绍

[0002]目标跟踪是计算机视觉领域中的主要研究方向之一，在给定视频序列中目标的初始状态后，在后续视频帧中利用边界框标定目标的位置，实现对目标的持续定位以及状态估计
。
目前，目标跟踪被广泛应用于公共安防
、
自动驾驶
、
智能机器人
、
人机智能交互
、
医学诊断等领域
。
[0003]在真实场景的目标跟踪中，目标受到各种挑战因素的影响，主要表现为跟踪目标为非特定物体，目标跟踪器无法预先对跟踪目标进行预先训练或建模
。
而且，在跟踪过程中目标会发生各种变化
、
并受到周围环境的干扰，如目标消失
、
外观变化
、
背景干扰
、
快速移动等
。
这些因素对跟踪算法提出了很大的挑战
。
[0004]近年来，基于
Transformer
的跟踪器取得了令人鼓舞的跟踪性能
。Transformer
可用于对各种基本视觉元素
(
包括像素
‑
像素
、
对象
‑
像素和对象
‑
对象
)
之间的关系进行建模...

【技术保护点】

【技术特征摘要】
1.
一种基于多头注意力优化特征融合网络的目标跟踪方法，其特征在于，所述方法包括如下步骤：步骤
1、
在孪生网络框架下，基于
ResNet
骨干网络构建特征提取网络，基于高效多头自注意力构建
Transformer
编码器，基于高效多头空间约简自注意力构建
Transformer
解码器，
Transformer
编码器和
Transformer
解码器构成特征融合网络模型；步骤
2、
利用大规模数据集，对特征融合网络模型进行预训练，并在训练过程中调整特征融合网络模型中的参数，以得到训练后的特征融合网络模型；步骤
3、
初始化第一帧的模板图像以及后续搜索帧的搜索图像，利用特征提取网络分别对模板图像和搜索图像进行特征提取，得到模板图像特征和搜索区域特征；步骤
4、
将模板图像特征输入
Transformer
编码器中，采用缩小模板图像特征在空间维度上尺度的方式进行多头自注意力计算，以对模板特征图中的特征进行学习，得到包含更少背景信息且特征表示能力更强的编码后模板特征；将搜索区域特征输入
Transformer
解码器中，采用搜索区域特征降维的方式进行多头自注意力计算，以对搜索区域特征图中的特征进行学习，得到局部特征增强的搜索区域特征；步骤
5、
通过多头交叉注意力对编码后模板特征和局部特征增强的搜索区域特征进行特征融合，以得到包含大量全局上下文信息的融合特征；步骤
6、
将融合特征送入分类分支和回归分支上获取目标在搜索区域的最大响应位置以进行目标跟踪；其中，采用缩小模板图像特征在空间维度上尺度的方式进行多头自注意力计算，以对模板特征图中的特征进行学习，得到包含更少背景信息且特征表示能力更强的编码后模板特征的方法具体包括如下步骤：将二维的模板图像特征沿着空间维度重塑为三维输入标记，其中，，，表示空间维度，表示通道数，表示高度，表示宽度；将三维输入标记输入深度可分离卷积进行空间约简，将高度和宽度尺寸缩小倍，得到三维特征序列，其中，，表示约简后的高度，表示约简后的宽度，其中填充大小
、
核大小
、
步长分别为；将三维特征序列再沿着空间维度重塑，获得新的二维特征，其中，，表示重塑后的空间维度；对二维的模板图像特征采用线性投影得到第一查询，对新的二维模板特征进行线性投影得到重塑后的第一键和第一值；将重塑后的第一键和第一值与第一查询进行多头自注意力计算，得到每个头的输出，将每个头的输出串联，再进行线性投影，得到编码后的特征模板
。2.
根据权利要求1所述的基于多头注意力优化特征融合网络的目标跟踪方法，其特征在于，倍率由特征图大小自适应设置，倍率与特征图大小之间存在如下关系式：；
其中，，表示键向量的维
。3.
根据权利要求2所述的基于多头注意力优化特征融合网络的目标跟踪方法，其特征在于，将重塑后的第一键和第一值与第一查询进行多头自注意力计算，得到每个头的输出，将每个头的输出串联的过程存在如下关系式：；其中，分别表示第一查询
、
第一键和第一值，表示第个注意力头，表示编码部分的多头自注意力的计算，表示编码过程中所聚合个头所输出的特征图的结果，表示编码过程中第个注意力头的输出
。4.
根据权利要求3所述的基于多头注意力优化特征融合网络的目标跟踪方法，其特征在于，将重塑后的第一键和第一值与第一查询进行多头自注意力计算，得到每个头的输出，每个头的输出的计算过程存在如下关系式：；其中，表示编码部分的单头自注意力的计算，表示归一化函数，表示实例归一化操作，...

【专利技术属性】
技术研发人员：王员云，谷庚，赖昌旺，邓承志，王军，
申请(专利权)人：南昌工程学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人