一种基于场景提示的单目标跟踪方法技术

技术编号:37683491 阅读:21 留言:0更新日期:2023-05-28 09:36
本公开提供一种基于场景提示的单目标跟踪方法,对视频图像中的目标进行动态跟踪,包括:确定包含目标的目标模板图像和搜索区域图像并分块;将分块后的目标模板图像和搜索区域图像通过线性映射得到对应的目标模板图像特征和搜索区域图像特征;将目标模板图像特征和搜索区域图像特征输入场景提示的视觉Transformer中,并在动态获取的场景提示符的作用下进行特征交互与增强;利用经过场景提示的视觉Transformer增强后的搜索区域特征回归目标框,并估计目标框的质量;以及跟踪器将目标框质量好的跟踪帧的特征保存在内存中,当到达给定的提示符更新间隔时,场景提示生成器利用内存中保存的特征生成新的场景提示符。用内存中保存的特征生成新的场景提示符。用内存中保存的特征生成新的场景提示符。

【技术实现步骤摘要】
一种基于场景提示的单目标跟踪方法


[0001]本公开涉及计算机视觉、人工智能、图像处理
,尤其涉及一种基于场景提示的单目标跟踪方法。

技术介绍

[0002]视觉单目标跟踪是计算机视觉领域中的基础研究课题。其目标是通过给定首帧的目标框,在后续帧中自动定位目标。单目标跟踪在自动驾驶、智能监控、人机交互中有着广泛的应用。
[0003]单目标跟踪方法通过首帧裁剪的模板与当前帧根据上一帧的结果裁剪的搜索区域来定位目标。单目标跟踪方法可以分为双流与单流跟踪器。大部分的现有方法采用双流的跟踪策略,它们独立地提取模板与搜索区域特征,导致所提取的特征无法进行交互从而感知目标,限制了模型的性能。最近,单流的方法被提出来用于联合提取模板与搜索区域特征,通常这些方法基于注意力机制实现了模板与搜索区域的交互,从而可以增强目标的特征。然而,注意力机制无差别地建立像素间的关系,导致一些复杂背景可能被错误地增强,从而影响跟踪器的精度。

技术实现思路

[0004]基于上述问题,本公开提供了一种基于场景提示的单目标跟踪方法,以缓解现有技术中的上述技术问题。
[0005](一)技术方案本公开提供一种基于场景提示的单目标跟踪方法,对视频图像中的目标进行动态跟踪,包括:确定包含目标的目标模板图像和搜索区域图像并分块;将分块后的目标模板图像和搜索区域图像通过线性映射得到对应的目标模板图像特征和搜索区域图像特征;将目标模板图像特征和搜索区域图像特征输入场景提示的视觉Transformer中,并在动态获取的场景提示符的作用下进行特征交互与增强;利用经过编码器增强后的搜索区域特征回归目标框,并估计目标框的质量;以及跟踪器将目标框质量好的跟踪帧的特征保存在内存中,当到达给定的提示符更新间隔时,场景提示生成器利用内存中保存的特征生成新的场景提示符。
[0006]根据本公开实施例,通过场景提示生成器在跟踪过程中动态地从视频时空上下文中获取场景提示符。所述场景提示符包括目标提示符和背景提示符。
[0007]根据本公开实施例,通过目标估计头利用经过场景提示的视觉Transformer增强后的搜索区域特征回归目标框,并利用交并比回归头估计目标框的质量。
[0008]所述场景提示的视觉Transformer包括12层场景提示编码器。
[0009]根据本公开实施例,每层场景提示编码器包括:场景提示调制器、注意力机制、多层感知机。
[0010]根据本公开实施例,所述场景提示调制器利用动态获取的场景提示符指导编码器
中像素间交互的注意力机制,利用场景知识来抑制复杂背景。
[0011]根据本公开实施例,场景提示生成器根据目标框将目标区域特征划分为目标特征和背景特征,并引入多个目标原型和背景原型分别与目标特征和背景特征通过互注意力机制进行交互。
[0012]根据本公开实施例,通过多样性损失来指导提示符学习,通过增加提示符之间的余弦距离来保证多样性。
[0013]根据本公开实施例,目标框回归头包括一个三分支的全卷积网络,分别输出分类分数图、偏移图、以及归一化的尺寸图,分类分数图的标签由高斯核生成,通过加权聚焦损失函数约束分类分数图的学习,通过泛化交并比损失与平均绝对误差损失约束目标框的学习;交并比回归头用来估计预测框与真实框之间的交并比,通过均方损失函数约束交并比分数的学习。
[0014](二)有益效果从上述技术方案可以看出,本公开基于场景提示的单目标跟踪方法至少具有以下有益效果其中之一或其中一部分:(1)可以在跟踪过程中根据时空上下文动态获取跟踪场景的提示符,并提出使用多样性损失来指导模型学习多样、全面的场景知识;(2)通过场景提示调制器将场景提示符嵌入注意力机制中从而指导场景感知的特征学习,增强特征的判别力,有效提升在复杂背景场景下的目标跟踪精度。
附图说明
[0015]图1为本公开实施例的基于场景提示的单目标跟踪方法的整体架构示意图。
[0016]图2为本公开实施例的场景提示生成器的原理架构示意图。
[0017]图3为本公开实施例的基于场景提示的单目标跟踪方法的流程示意图。
具体实施方式
[0018]本公开提供了一种基于场景提示的单目标跟踪方法,其能够充分挖掘跟踪过程中的时空信息,生成包含跟踪场景知识的提示符。基于场景提示符,本公开设计了新的注意力方法,通过场景提示来指导像素间的交互从而抑制复杂背景对跟踪的影响,有效提升在复杂场景下的跟踪精度。从而,本公开的基于场景提示的单目标跟踪方法能够利用跟踪过程中自适应生成的场景提示符指导像素之间交互的注意力机制来抑制复杂背景,实现鲁棒跟踪。
[0019]为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
[0020]在本公开实施例中,提供一种基于场景提示的单目标跟踪方法,对视频图像中的目标进行动态跟踪,结合图1至图3所示,所述基于场景提示的单目标跟踪方法,包括:操作S1:确定包含目标的目标模板图像和搜索区域图像并分块;操作S2:将分块后的目标模板图像和搜索区域图像通过线性映射得到对应的目标模板图像特征和搜索区域图像特征;操作S3:将目标模板图像特征和搜索区域图像特征输入场景提示的视觉
Transformer中,并在动态获取的场景提示符的作用下进行特征交互与增强;操作S4:利用经过场景提示的视觉Transformer增强后的搜索区域特征回归目标框,并估计目标框的质量;以及操作S5:跟踪器将目标框质量好的跟踪帧的特征保存在内存中,当到达给定的提示符更新间隔时,场景提示生成器利用内存中保存的特征生成新的场景提示符。
[0021]根据本公开实施例,通过场景提示生成器在跟踪过程中动态地从视频时空上下文中获取场景提示符。所述场景提示符包括目标提示符和背景提示符。
[0022]根据本公开实施例,通过目标估计头利用经过场景提示的视觉Transformer增强后的搜索区域特征回归目标框,并利用交并比回归头估计目标框的质量。
[0023]根据本公开实施例,所述场景提示的视觉Transformer包括12层场景提示编码器(也可称为编码层)。每层场景提示编码器包括:场景提示调制器、注意力机制、多层感知机。
[0024]根据本公开实施例,所述场景提示调制器利用动态获取的场景提示符指导编码器中像素间交互的注意力机制,利用场景知识来抑制复杂背景。
[0025]根据本公开实施例,场景提示生成器根据目标框将目标区域特征划分为目标特征和背景特征,并引入多个目标原型和背景原型分别与目标特征和背景特征通过互注意力机制进行交互。
[0026]根据本公开实施例,通过多样性损失来指导提示符学习,通过增加提示符之间的余弦距离来保证多样性。
[0027]根据本公开实施例,目标框回归头包括一个三分支的全卷积网络,分别输出分类分数图、偏移图、以及归一化的尺寸图,分类分数图的标签由高斯核生成,通过加权聚焦损失函数约束分类分数图的学习,通过本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于场景提示的单目标跟踪方法,对视频图像中的目标进行动态跟踪,包括:确定包含目标的目标模板图像和搜索区域图像并分块;将分块后的目标模板图像和搜索区域图像通过线性映射得到对应的目标模板图像特征和搜索区域图像特征;将目标模板图像特征和搜索区域图像特征输入场景提示的视觉Transformer中,并在动态获取的场景提示符的作用下进行特征交互与增强;利用经过场景提示的视觉Transformer增强后的搜索区域特征回归目标框,并估计目标框的质量;以及跟踪器将目标框质量好的跟踪帧的特征保存在内存中,当到达给定的提示符更新间隔时,场景提示生成器利用内存中保存的特征生成新的场景提示符。2.根据权利要求1所述的基于场景提示的单目标跟踪方法,通过场景提示生成器在跟踪过程中动态地从视频时空上下文中获取场景提示符。3.根据权利要求2所述的基于场景提示的单目标跟踪方法,所述场景提示符包括目标提示符和背景提示符。4.根据权利要求1所述的基于场景提示的单目标跟踪方法,通过目标估计头利用经过场景提示的视觉Transformer增强后的搜索区域特征回归目标框,并利用交并比回归头估计目标框的质量。5.根据权利要求1所述的基于场景提示的单目标跟踪方法,...

【专利技术属性】
技术研发人员:张天柱马银超尉前进何建峰张勇东
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1