当前位置: 首页 > 专利查询>江南大学专利>正文

一种基于时空注意力机制的孪生网络跟踪系统及方法技术方案

技术编号:34043360 阅读:65 留言:0更新日期:2022-07-06 14:01
本发明专利技术公开了计算机视觉的目标跟踪技术领域的一种基于时空注意力机制的孪生网络跟踪系统及方法,包括:获取图像数据中的模板图像数据和搜索图像数据;将模板图像数据和搜索图像数据分别输入到模板分支与搜索分支中进行特征提取,得到模板特征数据与搜索特征数据;将搜索特征数据输入到时空注意力机制模块中,得到时空注意力信息特征;将模板特征数据与时空注意力信息特征互相关得到响应图;将响应图输入分类回归网络中进行逐像素的分类与回归,对每个像素点进行分类,计算像素点到预测框的距离,得到分类结果与边界框。本发明专利技术能够更够准确的跟踪目标,有效解决模型对于时空上下文信息难以建立关联、目标分类与边界框回归较为复杂等问题。归较为复杂等问题。归较为复杂等问题。

A twin network tracking system and method based on spatiotemporal attention mechanism

【技术实现步骤摘要】
一种基于时空注意力机制的孪生网络跟踪系统及方法


[0001]本专利技术涉及一种基于时空注意力机制的孪生网络跟踪系统及方法,属于计算机视觉的目标跟踪


技术介绍

[0002]目标跟踪广泛应用在视频分析、智能交通、虚拟现实等领域,其核心任务是给定目标在视频第一帧初始位置后,自动估计后续帧中目标的位置。但跟踪过程中容易受到遮挡、模糊、形变、光照变化等一系列复杂因素的干扰,因此,设计一个可以在现实复杂场景下稳定高效运行的跟踪方法是十分具有研究与实用价值的。
[0003]目前,现有的跟踪算法大致可以分为两大类。一类将相关滤波的思想应用到跟踪领域,提出了误差最小平方和滤波器目标跟踪算法:将跟踪器模板的求解由时域复杂运算转换为傅里叶域点乘计算,计算量大大减少,跟踪器速度得到飞跃性提升。虽然这种算法在速度上很快,但是精度并不理想。另一类,为了取得精度与速度之间的平衡,基于深度学习的孪生网络跟踪算法逐渐流行。孪生网络主要由特征提取过程中共享参数的模板分支与搜索分支组成。利用相似性学习的方法,提出了全卷积孪生网络跟踪算法,通过计算目标模板与搜索区域深度特征之间的相似值,将跟踪问题转化为相似匹配问题。该算法可以使用大量数据进行端到端的离线训练,既可以获得较高的精度,也无需在线调整。通过在全卷积孪生网络目标跟踪算法中引入检测领域的区域建议网络,使用区分前景与背景、回归边界框的方法,实现了对目标尺度的灵活应对,同时得到了更为精确的边界框。实验结果表明,这种组合模型的跟踪效果要明显优于相关滤波算法和全卷积孪生网络算法。
[0004]但是,基于孪生网络的大部分目标跟踪算法中存在两大不足:
[0005](1)基于孪生网络的跟踪算法并没有关注视频序列帧间和帧内的关联,造成目标并不能在时间和空间上产生相应的关联性。
[0006](2)跟踪算法对目标的分类与回归相对较为粗糙与复杂,难以对最后的结果形成较为精确的分类结果与边界框。

技术实现思路

[0007]本专利技术的目的在于克服现有技术中的不足,提供一种基于时空注意力机制的孪生网络跟踪系统及方法,能够更够准确的跟踪目标,有效解决模型对于时空上下文信息难以建立关联、目标分类与边界框回归较为复杂等问题。
[0008]为达到上述目的,本专利技术是采用下述技术方案实现的:
[0009]第一方面,本专利技术提供了一种基于时空注意力机制的孪生网络跟踪方法,包括:
[0010]获取图像数据中的模板图像数据和搜索图像数据;
[0011]将模板图像数据和搜索图像数据分别输入到模板分支与搜索分支中进行特征提取,得到模板特征数据与搜索特征数据;
[0012]将搜索特征数据输入到时空注意力机制模块中,得到时空注意力信息特征;
[0013]将模板特征数据与时空注意力信息特征互相关得到响应图;
[0014]将响应图输入分类回归网络中进行逐像素的分类与回归,对每个像素点进行分类,计算像素点到预测框的距离,得到分类结果与边界框。
[0015]进一步的,获取图像数据中的模板图像数据和搜索图像数据,包括:将数据集或摄像头捕捉画面的第一帧图像以目标为中心裁剪出指定像素大小的图像作为模板图像数据,在跟踪过程中第i+1帧以第i帧目标位置为中心裁剪出设定大小的图像作为搜索图像数据。
[0016]进一步的,所述特征提取公式为:
[0017][0018]其中,I是输入图像矩阵,I((x
a
,y
a
),(x
b
,y
b
))为I的子矩阵,(x
a
,y
a
)和(x
b
,y
b
)为子矩阵的左上角与右下角的直角坐标系的坐标,k为提取特征数据的步长,f(
·
)为特征提取函数。
[0019]进一步的,所述时空注意力信息特征为:
[0020][0021]其中,o
i
为时空注意力信息特征,为空间注意力信息特征,为时间注意力信息特征,z
i
为输入特征;
[0022]所述空间注意力信息特征为:
[0023][0024][0025][0026][0027][0028][0029][0030]其中,为空间特征,C(Z
S
)为归一化因子,f为高斯函数,和分别是位置i和位置j的特征,g为一元函数,是可学习参数,和均为空间特征权重。
[0031]进一步的,所述响应图为:
[0032][0033]其中,为响应图,为卷积特征提取函数,*为卷积互相关运算,TS(
·
)为实际注意力模块,b1为响应图每个位置的偏置值,x为搜索特征数据,z为模板特征数据。
[0034]进一步的,将响应图输入分类回归网络中进行逐像素的分类与回归,对每个像素点进行分类,计算像素点到预测框的距离,得到分类结果与边界框,包括:
[0035]将响应图进行升维到
[0036]所述分类回归网络中的分类分支对于上每一个像素点预测类别得到分类图其中,分类图A
cls
每一个(i,j,:)包含了一个代表了搜索区域前景与背景的置信度的2D向量;
[0037]所述分类回归网络中的回归分支计算上每一个像素点到边界框的距离得到回归图其中,回归图A
reg
上每一个点(i,j,:)包含一个4D向量m
(i,j)
=(l
*
,t
*
,r
*
,b
*
),代表输入搜索区域对应点到预测边界框四条边的距离,公式为:
[0038][0039][0040]其中,为搜索区域对应点与预测边界框左上角横坐标距离,l
*
为搜索区域对应点与预测边界框左上角横坐标距离,x为搜索区域对应点横坐标,x0为预测边界框左上角横坐标,为搜索区域对应点与预测边界框左上角纵坐标距离,t
*
为搜索区域对应点与预测边界框左上角纵坐标距离,y为搜索区域对应点纵坐标,y0为预测边界框左上角纵坐标,为搜索区域对应点与预测边界框右下角横坐标距离,r
*
为搜索区域对应点与预测边界框右下角横坐标距离,x1为预测边界框右下角横坐标,为搜索区域对应点与预测边界框右下角纵坐标距离,b
*
为搜索区域对应点与预测边界框右下角纵坐标距离,y1为预测边界框右下角纵坐标;
[0041]所述分类回归网络中的中心度分支计算上每一个像素点到目标中心的距离得到中心度图中心度图A
cen
上每一个点(i,j,:)包含一个代表搜索区域对应点和目标中心的距离的1D向量C(i,j),公式为:
[0042][0043][0044]其中,Γ(m
(i,j)
)为指示函数。
[0045]进一步的,所述分类分支的分类损失函数L
cls
采用交叉熵损失函数,回归分支的回归损本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于时空注意力机制的孪生网络跟踪方法,其特征是,包括:获取图像数据中的模板图像数据和搜索图像数据;将模板图像数据和搜索图像数据分别输入到模板分支与搜索分支中进行特征提取,得到模板特征数据与搜索特征数据;将搜索特征数据输入到时空注意力机制模块中,得到时空注意力信息特征;将模板特征数据与时空注意力信息特征互相关得到响应图;将响应图输入分类回归网络中进行逐像素的分类与回归,对每个像素点进行分类,计算像素点到预测框的距离,得到分类结果与边界框。2.根据权利要求1所述的基于时空注意力机制的孪生网络跟踪方法,其特征是,获取图像数据中的模板图像数据和搜索图像数据,包括:将数据集或摄像头捕捉画面的第一帧图像以目标为中心裁剪出指定像素大小的图像作为模板图像数据,在跟踪过程中第i+1帧以第i帧目标位置为中心裁剪出设定大小的图像作为搜索图像数据。3.根据权利要求1所述的基于时空注意力机制的孪生网络跟踪方法,其特征是,所述特征提取公式为:其中,I是输入图像矩阵,I((x
a
,y
a
),(x
b
,y
b
))为I的子矩阵,(x
a
,y
a
)和(x
b
,y
b
)为子矩阵的左上角与右下角的直角坐标系的坐标,k为提取特征数据的步长,f(
·
)为特征提取函数。4.根据权利要求1所述的基于时空注意力机制的孪生网络跟踪方法,其特征是,所述时空注意力信息特征为:其中,o
i
为时空注意力信息特征,为空间注意力信息特征,为时间注意力信息特征,z
i
为输入特征;所述空间注意力信息特征为:所述空间注意力信息特征为:所述空间注意力信息特征为:所述空间注意力信息特征为:所述空间注意力信息特征为:所述空间注意力信息特征为:所述空间注意力信息特征为:其中,为空间特征,C(Z
s
)为归一化因子,f为高斯函数,和分别是位置i和位置j的特征,g为一元函数,是可学习参数,和均为空间特征权重。5.根据权利要求1所述的基于时空注意力机制的孪生网络跟踪方法,其特征是,所述响
应图为:其中,为响应图,为卷积特征提取函数,*为卷积互相关运算,TS(
·
)为实际注意力模块,b1为响应图每个位置的偏置值,x为搜索特征数据,z为模板特征数据。6.根据权利要求1所述的基于时空注意力机制的孪生网络跟踪方法,其特征是,将响应图输入分类回归网络中进行逐像素的分类与回归,对每个像素点进行分类,计算像素点到预测框的距离,得到分类结果与边界框,包括:将响应图进行升维到所述分类回归网络中的分类分支对于上每一个像素点预测类别得到分类图其中,分类图A
cls
每一个(i,j,:)包含了一个代表了搜索区域前景与背景的置信度的2D向量;所述分类回归网络中的回归分支计算上每一个像素点到边界框的距离得到回归图其中,回归图A
reg
上每一...

【专利技术属性】
技术研发人员:卢先领刘如浩
申请(专利权)人:江南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1