一种基于混合注意力机制的端到端单目标跟踪方法及装置制造方法及图纸

技术编号：33635834 阅读：15 留言：0更新日期：2022-06-02 01:48

一种基于混合注意力机制的端到端单目标跟踪方法，构建一个基于Transformer跟踪的跟踪框架MixFormer，用于目标跟踪，跟踪框架的构建包括以下步骤：1)数据准备阶段；2)网络配置阶段；3)离线训练阶段；4)在线跟踪阶段。本发明专利技术采用了基于混合注意力的骨干网络来同时进行特征提取与目标信息融合，得到了一个简洁清晰的跟踪框架，并且能有效地提升性能。此外，本发明专利技术的跟踪方法能对跟踪过程中的物体变形有更好的适应能力，有效地提升目标回归的精度。有效地提升目标回归的精度。有效地提升目标回归的精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于混合注意力机制的端到端单目标跟踪方法及装置

[0001]本专利技术属于计算机软件
，涉及单目标跟踪技术，具体为一种基于混合注意力机制的端到端单目标跟踪方法及装置。

技术介绍

[0002]作为计算机视觉中的基本任务，视觉物体跟踪旨在为视频中的一个任意一般物体估计它在每一帧中出现的空间位置并标出物体边框。尽管目标跟踪已经取得了显著的进步，但如何设计一个简单而有效的端到端跟踪器仍然是一个挑战。主要挑战来自尺度变化、目标变形、遮挡和来自相似目标的混淆。
[0003]当前流行的跟踪器通常包含三个组件来完成跟踪任务：(1)CNN主干网络，用于提取待跟踪目标和搜索区域的一般特征；(2)融合模块，用于在跟踪目标和搜索区域之间进行信息通信，以进行后续的目标感知定位；(3)精确定位边界框模块，用来产生最终的跟踪结果。其中，融合模块是跟踪算法中的最关键的部分，它负责将待跟踪的目标信息整合到搜索区域的特征中，从而根据特定的跟踪目标出特定的框。传统的信息融合方法包括基于相关性的操作和在线模型更新算法。近期，由于Transformer的全局和动态建模能力，它被引入到跟踪领域来做跟踪目标和跟踪区域的信息交互，并产生良好的跟踪性能。主要是利用Transformer模型对目标特征和搜索区域进行特征融合，然后再将融合后的特征进行预测实现跟踪，然而，这些基于Transformer的跟踪器仍然依赖于卷积主干网络来进行特征的提取，仅在相对高级和抽象的表示空间中应用注意力操作。但卷积主干网络的表示能力是有局限性的，首先它通常是基于一般的目...

【技术保护点】

【技术特征摘要】
1.一种基于混合注意力机制的端到端单目标跟踪方法，其特征是构建一个跟踪框架MixFormer用于目标跟踪，所述跟踪框架MixFormer为一个端到端训练的Transformer跟踪网络，包括一个主干网络和一个跟踪头，跟踪框架MixFormer的构建实现包括如下阶段：1)数据准备阶段，对训练数据集中所有视频帧裁剪出目标搜索区域，从每个视频的帧序列的前半部分抽取两帧作为模板帧，后半部分抽取一帧作为测试帧，对测试帧标注目标框作为验证帧，每个验证帧中目标框的对角坐标作为离线训练过程中的真实标签；2)网络配置阶段，主干网络为一个基于混合注意力模块的特征提取器，将特征提取和信息融合通过Transformer结构统一起来，跟踪头为一个回归头，采用卷积网络实现；将模板帧和测试帧同时输入到主干网络中产生融合了模板信息的测试帧特征，然后再将该测试帧特征通过回归头产生目标的对角坐标，作为测试帧产生的最终目标框；其中，主干网络基于混合注意力机制，对模板帧和测试帧的特征进行自注意力和互注意力操作，自注意力用于提取模板帧和测试帧的自身特征，互注意力用于目标帧和测试帧的特征信息交互，以得到融合了模板信息的测试帧特征；3)离线训练阶段，对于回归头目标框的训练，采用L1损失函数和GIoU损失函数来进行监督，结合由验证帧得到的真实标签，使用AdamW优化器，通过反向传播算法来更新整个网络参数，不断训练配置的网络，直至达到迭代次数，得到跟踪框架MixFormer；在线跟踪，对待跟踪视频的第一帧标注目标搜索区域作为模板帧，后续帧作为测试帧，输入训练得到的跟踪框架MixFormer，输出得到测试帧上的目标框，实现目标跟踪。2.根据权利要求1所述的一种基于混合注意力机制的端到端单目标跟踪方法，其特征是主干网络的互注意力操作只进行单向的从模板帧到测试帧的互注意力，不进行从测试帧到模板帧的互注意力，得到融合了模板信息的测试帧特征。3.根据权利要求1所述的一种基于混合注意力机制的端到端单目标跟踪方法，其特征是主干网络具体为：对模板帧和测试帧分别生成块向量，进行自注意力操作得到模板自身特征和测试帧自身特征，分别将二者通过公共的多头注...

【专利技术属性】
技术研发人员：王利民，崔玉涛，蒋承，武港山，
申请(专利权)人：南京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人