当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于混合注意力机制的端到端单目标跟踪方法及装置制造方法及图纸

技术编号:33635834 阅读:14 留言:0更新日期:2022-06-02 01:48
一种基于混合注意力机制的端到端单目标跟踪方法,构建一个基于Transformer跟踪的跟踪框架MixFormer,用于目标跟踪,跟踪框架的构建包括以下步骤:1)数据准备阶段;2)网络配置阶段;3)离线训练阶段;4)在线跟踪阶段。本发明专利技术采用了基于混合注意力的骨干网络来同时进行特征提取与目标信息融合,得到了一个简洁清晰的跟踪框架,并且能有效地提升性能。此外,本发明专利技术的跟踪方法能对跟踪过程中的物体变形有更好的适应能力,有效地提升目标回归的精度。有效地提升目标回归的精度。有效地提升目标回归的精度。

【技术实现步骤摘要】
一种基于混合注意力机制的端到端单目标跟踪方法及装置


[0001]本专利技术属于计算机软件
,涉及单目标跟踪技术,具体为一种基于混合注意力机制的端到端单目标跟踪方法及装置。

技术介绍

[0002]作为计算机视觉中的基本任务,视觉物体跟踪旨在为视频中的一个任意一般物体估计它在每一帧中出现的空间位置并标出物体边框。尽管目标跟踪已经取得了显著的进步,但如何设计一个简单而有效的端到端跟踪器仍然是一个挑战。主要挑战来自尺度变化、目标变形、遮挡和来自相似目标的混淆。
[0003]当前流行的跟踪器通常包含三个组件来完成跟踪任务:(1)CNN主干网络,用于提取待跟踪目标和搜索区域的一般特征;(2)融合模块,用于在跟踪目标和搜索区域之间进行信息通信,以进行后续的目标感知定位;(3)精确定位边界框模块,用来产生最终的跟踪结果。其中,融合模块是跟踪算法中的最关键的部分,它负责将待跟踪的目标信息整合到搜索区域的特征中,从而根据特定的跟踪目标出特定的框。传统的信息融合方法包括基于相关性的操作和在线模型更新算法。近期,由于Transformer的全局和动态建模能力,它被引入到跟踪领域来做跟踪目标和跟踪区域的信息交互,并产生良好的跟踪性能。主要是利用Transformer模型对目标特征和搜索区域进行特征融合,然后再将融合后的特征进行预测实现跟踪,然而,这些基于Transformer的跟踪器仍然依赖于卷积主干网络来进行特征的提取,仅在相对高级和抽象的表示空间中应用注意力操作。但卷积主干网络的表示能力是有局限性的,首先它通常是基于一般的目标识别任务做的预训练,其次可能忽略用于跟踪的更精细的结构信息。

技术实现思路

[0004]本专利技术要解决的问题是:如何设计一个简洁的端到端目标跟踪框架,不依赖卷积网络进行特征提取,并进一步能将特征提取和信息融合模块统一起来。
[0005]本专利技术的技术方案为:一种基于混合注意力机制的端到端单目标跟踪方法,构建一个跟踪框架MixFormer用于目标跟踪,所述跟踪框架MixFormer为一个端到端训练的Transformer跟踪网络,包括一个主干网络和一个跟踪头,跟踪框架MixFormer的构建实现包括如下阶段:
[0006]1)数据准备阶段,对训练数据集中所有视频帧裁剪出目标搜索区域,从每个视频的帧序列的前半部分抽取两帧作为模板帧,后半部分抽取一帧作为测试帧,对测试帧标注目标框作为验证帧,每个验证帧中目标框的对角坐标作为离线训练过程中的真实标签;
[0007]2)网络配置阶段,主干网络为一个基于混合注意力模块的特征提取器,将特征提取和信息融合通过Transformer结构统一起来,跟踪头为一个回归头,采用卷积网络实现;将模板帧和测试帧同时输入到主干网络中产生融合了模板信息的测试帧特征,然后再将该测试帧特征通过回归头产生目标的对角坐标,作为测试帧产生的最终目标框;
[0008]其中,主干网络基于混合注意力机制,对模板帧和测试帧的特征进行自注意力和互注意力操作,自注意力用于提取模板帧和测试帧的自身特征,互注意力用于目标帧和测试帧的特征信息交互,以得到融合了模板信息的测试帧特征;
[0009]3)离线训练阶段,对于回归头目标框的训练,采用L1损失函数和GIoU损失函数来进行监督,结合由验证帧得到的真实标签,使用AdamW优化器,通过反向传播算法来更新整个网络参数,不断训练配置的网络,直至达到迭代次数,得到跟踪框架MixFormer;
[0010]在线跟踪,对待跟踪视频的第一帧标注目标搜索区域作为模板帧,后续帧作为测试帧,输入训练得到的跟踪框架MixFormer,输出得到测试帧上的目标框,实现目标跟踪。
[0011]进一步的,主干网络的互注意力操作只进行单向的从模板帧到测试帧的互注意力,不进行从测试帧到模板帧的互注意力,得到融合了模板信息的测试帧特征。
[0012]进一步的,跟踪头还包括一个分类头,分类头用于得到测试帧的分类目标置信度,分类头具有一个预设的可学习的置信度向量,分别与测试帧特征和模板帧自身特征进行注意力操作,感知二者的信息预测得到当前测试帧的分类目标置信度,在跟踪过程中,从已经跟踪完的视频帧序列中挑选出置信度符合条件的帧补充作为模板帧。
[0013]在线跟踪时,首先裁剪出待跟踪视频的第一帧图像中的目标搜索区域,作为模板帧F
train
,待跟踪的帧作为测试帧F
test
,经过跟踪框架MixFormer得到测试帧F
test
上的目标框,在跟踪过程中,从已经跟踪完的帧序列中每N帧挑选出一个置信度最高的帧及其跟踪得到的目标框作为标签,补充作为模板帧F
train

[0014]本专利技术构建了一个整洁有效的跟踪框架,只包含一个同时进行特征提取和信息融合的主干网络和一个跟踪头。本专利技术跟踪框架的这种耦合范式有如下优势。首先,它将使我们的特征提取更加适配于特定的跟踪目标,并捕获更多与目标相关的判别性特征。此外,它还允许更多尺度的目标信息融合,从而更好地捕获目标和搜索区域之间的相关性。
[0015]本专利技术基于上述跟踪方法还提供一种基于混合注意力机制的端到端单目标跟踪装置,具有计算机存储介质,所述计算机存储介质中配置有计算机程序,所述计算机程序用于实现上述的跟踪框架MixFormer,所述计算机程序被执行时实现上述的跟踪方法。
[0016]本专利技术与现有技术相比有如下优点。
[0017]本专利技术提出了一种基于混合注意力机制的端到端单目标跟踪方法,构建了一个基于Transformer的跟踪框架MixFormer,采用了特殊设计的transformer骨干网络,即基于混合注意力模块MAM的特征提取器来同时进行特征提取与目标信息融合,如图2所示,首先将目标帧和测试帧的拼接向量分割开来并且分别Reshape成一个2D向量,然后过一个多头注意力函数,将产生的两个2D向量拼接并且过一个线性层即可得到融合了模板信息的测试帧特征。最后如图1所示,通过两个简单的回归头和分类头,得到跟踪目标框并进一步通过在线跟踪结果补充更新跟踪标签,得到了一个简洁清晰的跟踪框架,能有效地提升跟踪准确性。
[0018]本专利技术设计了一种可在线更新的模板样本空间,在跟踪过程中通过置信度预测模块来筛选更适应与当前跟踪的模板样本,从而提升模型的鲁棒性。相比现有的跟踪方法,本专利技术的在线跟踪方法能对跟踪过程中的物体变形有更好的适应能力,有效地提升目标回归的精度。
[0019]本专利技术在视觉物体跟踪任务上取得了很好的准确性,提升了物体回归的精度。相
较于现有方法,本专利技术提出的MixFormer跟踪方法在多个视觉跟踪测试基准数据集(LaSOT,TrackingNet,GOT

10k,VOT2020,UAV123)中都达到了最佳的跟踪成功率和定位准确度。
附图说明
[0020]图1是本专利技术跟踪框架MixFormer的框架示意图。
[0021]图2是本专利技术中主干网络的混本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于混合注意力机制的端到端单目标跟踪方法,其特征是构建一个跟踪框架MixFormer用于目标跟踪,所述跟踪框架MixFormer为一个端到端训练的Transformer跟踪网络,包括一个主干网络和一个跟踪头,跟踪框架MixFormer的构建实现包括如下阶段:1)数据准备阶段,对训练数据集中所有视频帧裁剪出目标搜索区域,从每个视频的帧序列的前半部分抽取两帧作为模板帧,后半部分抽取一帧作为测试帧,对测试帧标注目标框作为验证帧,每个验证帧中目标框的对角坐标作为离线训练过程中的真实标签;2)网络配置阶段,主干网络为一个基于混合注意力模块的特征提取器,将特征提取和信息融合通过Transformer结构统一起来,跟踪头为一个回归头,采用卷积网络实现;将模板帧和测试帧同时输入到主干网络中产生融合了模板信息的测试帧特征,然后再将该测试帧特征通过回归头产生目标的对角坐标,作为测试帧产生的最终目标框;其中,主干网络基于混合注意力机制,对模板帧和测试帧的特征进行自注意力和互注意力操作,自注意力用于提取模板帧和测试帧的自身特征,互注意力用于目标帧和测试帧的特征信息交互,以得到融合了模板信息的测试帧特征;3)离线训练阶段,对于回归头目标框的训练,采用L1损失函数和GIoU损失函数来进行监督,结合由验证帧得到的真实标签,使用AdamW优化器,通过反向传播算法来更新整个网络参数,不断训练配置的网络,直至达到迭代次数,得到跟踪框架MixFormer;在线跟踪,对待跟踪视频的第一帧标注目标搜索区域作为模板帧,后续帧作为测试帧,输入训练得到的跟踪框架MixFormer,输出得到测试帧上的目标框,实现目标跟踪。2.根据权利要求1所述的一种基于混合注意力机制的端到端单目标跟踪方法,其特征是主干网络的互注意力操作只进行单向的从模板帧到测试帧的互注意力,不进行从测试帧到模板帧的互注意力,得到融合了模板信息的测试帧特征。3.根据权利要求1所述的一种基于混合注意力机制的端到端单目标跟踪方法,其特征是主干网络具体为:对模板帧和测试帧分别生成块向量,进行自注意力操作得到模板自身特征和测试帧自身特征,分别将二者通过公共的多头注...

【专利技术属性】
技术研发人员:王利民崔玉涛蒋承武港山
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1