基于多头注意力优化特征融合网络的目标跟踪方法与系统技术方案

技术编号:39836481 阅读:8 留言:0更新日期:2023-12-29 16:20
本发明专利技术提出一种基于多头注意力优化特征融合网络的目标跟踪方法与系统,该方法包括

【技术实现步骤摘要】
基于多头注意力优化特征融合网络的目标跟踪方法与系统


[0001]本专利技术涉及计算机视觉与图像处理
,特别涉及一种基于多头注意力优化特征融合网络的目标跟踪方法与系统


技术介绍

[0002]目标跟踪是计算机视觉领域中的主要研究方向之一,在给定视频序列中目标的初始状态后,在后续视频帧中利用边界框标定目标的位置,实现对目标的持续定位以及状态估计

目前,目标跟踪被广泛应用于公共安防

自动驾驶

智能机器人

人机智能交互

医学诊断等领域

[0003]在真实场景的目标跟踪中,目标受到各种挑战因素的影响,主要表现为跟踪目标为非特定物体,目标跟踪器无法预先对跟踪目标进行预先训练或建模

而且,在跟踪过程中目标会发生各种变化

并受到周围环境的干扰,如目标消失

外观变化

背景干扰

快速移动等

这些因素对跟踪算法提出了很大的挑战

[0004]近年来,基于
Transformer
的跟踪器取得了令人鼓舞的跟踪性能
。Transformer
可用于对各种基本视觉元素
(
包括像素

像素

对象

像素和对象

对象
)
之间的关系进行建模

卷积是一种局部运算,一个卷积层通常只对相邻像素之间的关系进行建模
。Transformer
是一个全局操作,
Transformer
层可以对所有像素之间的关系进行建模,并且两者可以很好地互补

卷积可以看作是一种模板匹配,使用相同的模板来过滤图像中的不同位置
。Transformer
中的注意单元是一个自适应滤波器,该自适应计算模块具有较强的建模能力


CNN
相比,
Transformer
在一些视觉任务上更具竞争力,表现出更好的性能

[0005]然而,基于变压器的跟踪器的跟踪精度和速度可以进一步提高

在特征融合阶段,特征融合网络将特征映射分割成多个图像块作为其输入,并对其进行直接处理

一方面,不可避免地要处理大量的背景特征

另一方面,它可能会影响多头注意力的计算效率,导致计算成本和内存成本随着通道数量的增加呈二次增长

[0006]如何能够在不丢失局部信息的情况下过滤掉大量背景信息,并有效降低计算量,成为提升
Transformer
跟踪器的关键因素


技术实现思路

[0007]鉴于上述状况,本专利技术的主要目的是为了提出一种基于多头注意力优化特征融合网络的目标跟踪方法与系统,以解决上述技术问题

[0008]本专利技术提出了一种基于多头注意力优化特征融合网络的目标跟踪方法,所述方法包括如下步骤:步骤
1、
在孪生网络框架下,基于
ResNet
骨干网络构建特征提取网络,基于高效多头自注意力构建
Transformer
编码器,基于高效多头空间简约自注意力构建
Transformer
解码器,
Transformer
编码器和
Transformer
解码器构成特征融合网络模型;步骤
2、
利用大规模数据集,对特征融合网络模型进行预训练,并在训练过程中调
整特征融合网络模型中的参数,以得到训练后的特征融合网络模型;步骤
3、
初始化第一帧的模板图像以及后续搜索帧的搜索图像,利用特征提取网络分别对模板图像和搜索图像进行特征提取,得到模板图像特征和搜索区域特征;步骤
4、
将模板图像特征输入
Transformer
编码器中,采用缩小模板图像特征在空间维度上尺度的方式进行多头自注意力计算,以对模板特征图中的特征进行学习,得到包含更少背景信息且特征表示能力更强的编码后模板特征;将搜索区域特征输入
Transformer
解码器中,采用搜索区域特征降维的方式进行多头自注意力计算,以对搜索区域特征图中的特征进行学习,得到局部特征增强的搜索区域特征;步骤
5、
通过多头交叉注意力对编码后模板特征和局部特征增强的搜索区域特征进行特征融合,以得到包含大量全局上下文信息的融合特征;步骤
6、
将融合特征送入分类分支和回归分支上获取目标在搜索区域的最大响应位置以进行目标跟踪

[0009]本专利技术还提出了一种基于多头注意力优化特征融合网络的目标跟踪系统,所述系统应用上述基于多头注意力优化特征融合网络的目标跟踪方法,所述系统包括:构建模块,用于:在孪生网络框架下,基于
ResNet
骨干网络构建特征提取网络,基于高效多头自注意力构建
Transformer
编码器,基于高效多头空间简约自注意力构建
Transformer
解码器,
Transformer
编码器和
Transformer
解码器构成特征融合网络模型;预训练模块,用于:用大规模数据集,对特征融合网络模型进行预训练,并在训练过程中调整特征融合网络模型中的参数,以得到训练后的特征融合网络模型;提取模块,用于:初始化第一帧的模板图像以及后续搜索帧的搜索图像,利用特征提取网络分别对模板图像和搜索图像进行特征提取,得到模板图像特征和搜索区域特征;学习模块,用于:将模板图像特征输入
Transformer
编码器中,采用缩小模板图像特征在空间维度上尺度的方式进行多头自注意力计算,以对模板特征图中的特征进行学习,得到包含更少背景信息且特征表示能力更强的编码后模板特征;将搜索区域特征输入
Transformer
解码器中,采用搜索区域特征降维的方式进行多头自注意力计算,以对搜索区域特征图中的特征进行学习,得到局部特征增强的搜索区域特征;计算模块,用于:通过多头交叉注意力对编码后模板特征和局部特征增强的搜索区域特征进行特征融合,以得到包含大量全局上下文信息的融合特征;跟踪模块,用于:将融合特征送入分类分支和回归分支上获取目标在搜索区域的最大响应位置以进行目标跟踪

[0010]相较于现有技术,本专利技术的有益效果如下:
1、
利用高效多头自注意力和高效空间约简注意力对提取到的模板特征和搜索区域特征进行特征增强

增强后的特征不仅降低输入到特征融合网络的特征的空间维度,还过滤掉大量的背景信息,在很大程度上提高了多头注意力的计算效率
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于多头注意力优化特征融合网络的目标跟踪方法,其特征在于,所述方法包括如下步骤:步骤
1、
在孪生网络框架下,基于
ResNet
骨干网络构建特征提取网络,基于高效多头自注意力构建
Transformer
编码器,基于高效多头空间约简自注意力构建
Transformer
解码器,
Transformer
编码器和
Transformer
解码器构成特征融合网络模型;步骤
2、
利用大规模数据集,对特征融合网络模型进行预训练,并在训练过程中调整特征融合网络模型中的参数,以得到训练后的特征融合网络模型;步骤
3、
初始化第一帧的模板图像以及后续搜索帧的搜索图像,利用特征提取网络分别对模板图像和搜索图像进行特征提取,得到模板图像特征和搜索区域特征;步骤
4、
将模板图像特征输入
Transformer
编码器中,采用缩小模板图像特征在空间维度上尺度的方式进行多头自注意力计算,以对模板特征图中的特征进行学习,得到包含更少背景信息且特征表示能力更强的编码后模板特征;将搜索区域特征输入
Transformer
解码器中,采用搜索区域特征降维的方式进行多头自注意力计算,以对搜索区域特征图中的特征进行学习,得到局部特征增强的搜索区域特征;步骤
5、
通过多头交叉注意力对编码后模板特征和局部特征增强的搜索区域特征进行特征融合,以得到包含大量全局上下文信息的融合特征;步骤
6、
将融合特征送入分类分支和回归分支上获取目标在搜索区域的最大响应位置以进行目标跟踪;其中,采用缩小模板图像特征在空间维度上尺度的方式进行多头自注意力计算,以对模板特征图中的特征进行学习,得到包含更少背景信息且特征表示能力更强的编码后模板特征的方法具体包括如下步骤:将二维的模板图像特征沿着空间维度重塑为三维输入标记,其中,,,表示空间维度,表示通道数,表示高度,表示宽度;将三维输入标记输入深度可分离卷积进行空间约简,将高度和宽度尺寸缩小倍,得到三维特征序列,其中,,表示约简后的高度,表示约简后的宽度,其中填充大小

核大小

步长分别为;将三维特征序列再沿着空间维度重塑,获得新的二维特征,其中,,表示重塑后的空间维度;对二维的模板图像特征采用线性投影得到第一查询,对新的二维模板特征进行线性投影得到重塑后的第一键和第一值;将重塑后的第一键和第一值与第一查询进行多头自注意力计算,得到每个头的输出,将每个头的输出串联,再进行线性投影,得到编码后的特征模板
。2.
根据权利要求1所述的基于多头注意力优化特征融合网络的目标跟踪方法,其特征在于,倍率由特征图大小自适应设置,倍率与特征图大小之间存在如下关系式:;
其中,,表示键向量的维
。3.
根据权利要求2所述的基于多头注意力优化特征融合网络的目标跟踪方法,其特征在于,将重塑后的第一键和第一值与第一查询进行多头自注意力计算,得到每个头的输出,将每个头的输出串联的过程存在如下关系式:;其中,分别表示第一查询

第一键和第一值,表示第个注意力头,表示编码部分的多头自注意力的计算,表示编码过程中所聚合个头所输出的特征图的结果,表示编码过程中第个注意力头的输出
。4.
根据权利要求3所述的基于多头注意力优化特征融合网络的目标跟踪方法,其特征在于,将重塑后的第一键和第一值与第一查询进行多头自注意力计算,得到每个头的输出,每个头的输出的计算过程存在如下关系式:;其中,表示编码部分的单头自注意力的计算,表示归一化函数,表示实例归一化操作,...

【专利技术属性】
技术研发人员:王员云谷庚赖昌旺邓承志王军
申请(专利权)人:南昌工程学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1