【技术实现步骤摘要】
视觉目标跟踪方法、系统及装置、计算机可读存储介质
[0001]本公开属于计算机视觉领域,具体涉及视觉目标跟踪方法
、
系统及装置
、
计算机可读存储介质
。
技术介绍
[0002]视觉目标跟踪旨在给定第一帧中的目标,定位视频序列中类别不可知目标的位置,这是计算机视觉中的基础和必要研究课题
。
由于该技术巨大的应用潜力,如在视频监控
、
反无人机跟踪
、
自动驾驶等方面的部署,视觉目标跟踪引起了人们的广泛关注并得到了巨大的发展
。
[0003]然而,视觉目标跟踪作为一项视频处理任务,跟踪目标具有着形变
、
动作模糊
、
易受背景干扰等的特性,仍面临严峻的挑战
。
随着变形器在自然语言处理领域的成功发展,变形器捕获远程全局特征信息的能力在目标跟踪领域的潜力也被快速的挖掘
。
越来越多的跟踪方法,通过利用变形器捕获图片全局特征信息和全局推理的能力,来建模图像内容长关系范围的依赖性或编码多帧图片之间的全局目标特征,因此这类基于变形器的跟踪方法取得了优秀的性能
。
[0004]但跟踪任务本质上还是前背景的二分类任务,而上述基于变形器的跟踪范式采用简单的注意力机制来建立模板和搜索区域之间的信息交互
。
由于相似性分数是通过外观相似度获得的,因此模板和搜索区域特征会受到复杂背景和外观相似干扰物的干扰,导致错误地聚合背景信息,从而使得搜 ...
【技术保护点】
【技术特征摘要】
1.
前景和背景分布识别的视觉目标跟踪方法,其特征在于,包括:接收首帧裁剪的图像和上一帧目标位置裁剪的搜索区域图像,其中,以首帧裁剪的图像作为模板,上一帧目标位置裁剪的搜索区域图像作为搜索区域特征图;模板和搜索区域特征图分别对应的小块序列特征中嵌入学习的标记,对应生成模板标记和搜索区域标记;将模板标记和搜索区域标记输入至迭代处理的多个前景分布建模转换器块中,最后一个前景分布建模转换器块输出最终的搜索区域标记;将最终的搜索区域标记进行二维化,二维的最终的搜索区域标记输入至目标框回归头中进行输出,所述输出包括分类分数图
、
目标局部偏移量以及目标框大小,以输出的分类分数图中得分最高的位置为目标,对应的目标局部偏移量以及目标框大小确定目标位置;其中,前景分布建模转换器块包括:接收模板标记和搜索区域标记,分别聚合模板标记对应的目标框和搜索区域标记对应的伪目标框内部或外部的信息,分别生成模板前景代理
、
模板背景代理
、
搜索区域前景代理和搜索区域背景代理;以更新的模板前景代理
、
模板背景代理
、
搜索区域前景代理和搜索区域背景代理作为查询和键,以搜索区域标记和模板标记分别与查询和键相似度最高为目标,输出获取的模板标记和搜索区域标记
。2.
根据权利要求1所述的视觉目标跟踪方法,其特征在于,对模板和搜索区域特征图分别进行分块切分获取模板小块序列特征和搜索区域小块序列特征,模板小块序列特征和搜索区域小块序列特征映射至一维,针对于一维化的模板小块序列特征和搜索区域小块序列特征分别嵌入学习的标记,对应生成模板标记和搜索区域标记
。3.
根据权利要求1所述的视觉目标跟踪方法,其特征在于,所述前景分布建模转换器块的输入量均做归一化处理,输入量包括首次输入的模板标记和搜索区域标记,以及经过前景分布建模转换器块处理的模板标记和搜索区域标记
。4.
根据权利要求1所述的视觉目标跟踪方法,其特征在于,搜索区域标记对应的伪目标框的获取,包括:接收模板标记和搜索区域标记,分别对模板标记和搜索区域标记进行二维化,得到第一模板特征图和第一搜索区域特征图,以模板特征对应目标框作为参照,获取第一模板特征图的目标特征;以第一模板特征图的目标特征的每个点,以相似匹配方式获取对应的第一搜索区域特征图的匹配点,获得第一模板特征图的每个点到第一搜索区域特征图的一组匹配点,根据获取的匹配点,获取搜索区域标记对应的伪目标框
。5.
根据权利要求4所述的视觉目标跟踪方法,其特征在于,相似匹配方式包括根据概率获取对应第一模板特征图的每个点到第一搜索区域特征图的一组匹配点,概率
D
l
(k,i)
为:概率
D
l
(k,i)
,,
其中,其中
k
和
i
分别为和中的所有二维的位置;第一模板特征图;第一搜索区域特征图;
s
是主干网络的步幅;中的每个点到的一组匹配点其中
K
=
h
t
w
t
,
h
t
为第一模板特征图的高度,
w
t
为第一模板特征图的宽度,
x
i
为第一模板特征图第
i
个区域到第一搜索区域特征图匹配点的横坐标,
y
i
为第一模板特征图第
i
个区域到第一搜索区域特征图匹配点的纵坐标
。6.
根据权利要求1所述的视觉目标跟踪方法,其特征在于,根据获取的匹配点,获取搜索区域标记对应的伪目标框,包括:根据匹配点的均值和标准差,获取搜索区域的伪目标框
。7.
根据权利要求1所述的视觉目标跟踪方法,其特征在于,分别聚合模板标记对应的目标框和搜索区域标记对应的伪目标框内部或外部的信息,分别生成模板前景代理
、
模板背景代理
、
搜索区域前景代理和搜索区域背景代理,包括:利用解码器使用掩码交叉注意力机制来分别聚合模板标记对应的目标框和搜索区域标记对应的伪目标框前景或背景的信息,分别生成模板前景代理
、
模板背景代理
、
搜索区域前景代理和搜索区域背景代理
。8.
根据权利要求1所述的视觉目标跟踪方法,其特征在于,所述目标框回归头包括
:
全卷积网络,全卷积网络包括每个输出的
N
个堆叠卷积层
‑
批正则化
‑
ReLU
函数层
。9.
前景和背景分布识别的视觉目标跟踪系统,其特征在于,包括:输入模块,用于接收首帧裁剪的图像和上一帧目标位置裁剪的搜索区域图像,其中,以首帧裁剪的图像作为模板,上一帧目标位置裁剪的搜索区域图像作为搜索区域特征图;标记模块,用于将模板和搜索区域特征图分别对应的小块序列特征中嵌入学...
【专利技术属性】
技术研发人员:张天柱,杨文飞,张哲,吴枫,
申请(专利权)人:深空探测实验室天都实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。