一种基于稀疏表示的自适应Transformer目标跟踪系统及方法技术方案

技术编号:38704774 阅读:10 留言:0更新日期:2023-09-08 14:45
一种基于稀疏表示的自适应Transformer目标跟踪系统及方法,系统包括:特征提取模块,特征提取模块包括块嵌入层、Transformer块、稀疏空间注意模块、稀疏自适应空间剪枝模块以及候选区域重建模块,以及预测头模块;方法包括:将搜索区域图像和模板集图像同时输入特征提取模块,进行特征提取并输出搜索区域特征图与classtoken;将输出的搜索区域特征图与classtoken送入预测头模块,利用预测头模块中的概率头、尺度头与偏差头计算得出预测的目标包围框;利用质量头计算得出搜索区域质量;对当前帧的搜索区域图像以预测的目标包围框为中心裁剪,在模板集图像中对最久未更新的动态模板进行更新;本发明专利技术具有计算量低,数据处理速度快以及跟踪精度高的优点。速度快以及跟踪精度高的优点。速度快以及跟踪精度高的优点。

【技术实现步骤摘要】
一种基于稀疏表示的自适应Transformer目标跟踪系统及方法


[0001]本专利技术涉及图像处理与计算机视觉
,具体涉及一种基于稀疏表示的自适应Transformer目标跟踪系统及方法。

技术介绍

[0002]目标跟踪作为计算机视觉领域的热门任务之一,不仅在理论方面被广泛研究,而且在安全监控、自动驾驶、虚拟现实等领域有着广泛应用,目标跟踪分为单目标跟踪和多目标跟踪,而目标跟踪是指在给定初始帧中任意一个目标的位置后,预测后续视频帧中该目标所在位置。
[0003]在基于Transformer的目标跟踪方法中,由于自注意力的多次使用,计算注意力的过程中目标区域易受非目标区域中相似目标干扰,导致对目标区域聚焦不足,使目标与背景的界限变得模糊,进而导致目标定位不够准确,且已有跟踪方法在对图像的特征进行空间剪枝时,未考虑不同程度复杂背景的图像中定位目标所需判别信息数量不同的问题,均按固定比例进行剪枝,这将导致具有复杂背景的图像中有效判别信息的丢失,或简单背景图像中背景冗余信息被过多保留的问题,已有跟踪方法缺乏对时序信息与全局空间特征的利用,导致在处理复杂场景、尤其是目标外观剧烈变化时,跟踪的准确率会受到严重影响。
[0004]专利技术专利CN202310172562.3提供了一种基于双重注意力特征融合网络的目标跟踪方法与系统,构建基于Transformer的多尺度特征融合网络;通过编码器对模板特征图中的特征进行学习,以得到高置信值目标建议框;将目标建议框输入到解码器中,对搜索区域特征进行学习融合以获取置信值最高的目标建议框;将注意力快速聚焦到感兴趣区域并捕获结构化空间信息和局部信息,利用编码器中的结构化空间信息进而探索全局上下文信息;利用将模板特征和搜索区域特征融合后的特征,送入到预测头以得到跟踪目标在搜索区域的最大响应位置进行跟踪,但由于自注意力的多次使用,计算注意力的过程中目标区域易受非目标区域中相似目标干扰,导致对目标区域聚焦不足,使目标与背景的界限变得模糊,进而导致目标定位不够准确,且缺乏对时序信息与全局空间特征的利用,导致在处理复杂场景、尤其是目标外观剧烈变化时,跟踪的准确率会受到严重影响。

技术实现思路

[0005]为了克服上述现有技术的缺点,本专利技术的目的在于提供一种基于稀疏表示的自适应Transformer目标跟踪系统及方法,在特征提取的过程中,通过建立稀疏空间注意模块,增强目标特征并抑制背景特征,对非目标区域进行稀疏自适应空间剪枝,实现根据图像的复杂程度自适应地降低复杂背景对目标的影响,基于全局质量评估的动态模板对模板集进行更新,具有跟踪精度高、计算量少、数据处理速度快以及适用范围广的优点。
[0006]为了实现上述目的,本专利技术采用的技术方案是:
[0007]一种基于稀疏表示的自适应Transformer目标跟踪系统,包括:
[0008]特征提取模块,包括块嵌入层、Transformer块、稀疏空间注意模块、稀疏自适应空间剪枝模块以及候选区域重建模块,用于对输入的搜索区域图像与模板集图像进行特征提取,并向预测头模块输出提取的class token及搜索区域图像特征;其中:
[0009]块嵌入层,用于将输入的搜索区域图像与模板图像转化为token;
[0010]Transformer块,用于对块嵌入层转化得到的token进行特征提取;
[0011]稀疏空间注意模块,用于借助稀疏特征表示方法提取与前景有关的稀疏特征,并用提取的稀疏特征对Transformer块提取出的部分原始特征进行加权,从而增强目标区域特征,并抑制非目标区域特征;
[0012]稀疏自适应空间剪枝模块,用于根据搜索区域图像的复杂程度自适应丢弃冗余背景信息;
[0013]候选区域重建模块,用于进行候选区域重建以填充缺失的位置;
[0014]预测头模块,包括概率头、偏差头、尺度头以及质量头,其中概率头、偏差头以及尺度头用于计算得出预测的目标包围框,质量头用于计算得出搜索区域质量,并在模板集图像中对未更新时间最久的动态模板进行更新。
[0015]所述稀疏空间注意模块首先对搜索区域特征s2进行稀疏特征表示,得到稀疏编码然后对稀疏编码沿通道进行平均池化,得到搜索区域特征的空间统计信息再对m1进行最大值最小值归一化操作得到注意力权值最后用m2对输入的搜索区域特征s2加权并输出稀疏注意搜索区域特征图s
′2,即s
′2=m2s2,其中m2表示注意力权值;
[0016]所述稀疏特征表示的具体实现步骤如下:首先使用线性层W
sr
对搜索区域特征s2处理得到y
sr1
,对y
sr1
使用软阈值激活函数θ得到z1,然后线性层Q
sr
对z1进行处理,再和y
sr1
相加后,执行激活函数θ,得到z2,最后z2经过线性层Q
sr
进行处理,再和y
sr1
相加,执行激活函数θ,得到特征s1的稀疏编码α,软阈值激活函数θ的计算公式如下:
[0017][0018]其中,λ表示软阈值激活函数θ的阈值。
[0019]所述稀疏自适应空间剪枝模块首先对稀疏空间注意模块得到的权值m2由大到小排序得到置信度score,然后,对score求和得到候选区域的总能量E,取ρ%
×
E作为能量阈值,ρ为保留能量的比例,最后,保留候选区域中能量最大的前K个token,使其满足并丢弃剩余token。
[0020]一种基于稀疏表示的自适应Transformer目标跟踪方法,包括以下步骤:
[0021]步骤1.将搜索区域图像和模板集图像同时输入特征提取模块,进行特征提取并输出搜索区域特征图s
′3与class token;
[0022]步骤2.将步骤1中得到的特征提取模块输出的搜索区域特征图s
′3与class token送入预测头模块,利用预测头模块中的概率头、尺度头与偏差头计算得出预测的目标包围框;利用质量头计算得出搜索区域质量;
[0023]步骤3.若步骤2中计算出的当前帧预测的搜索区域质量高于历史搜索区域的质量,则首先对当前帧的搜索区域图像以预测的目标包围框为中心裁剪,裁剪后的搜索区域图像尺寸为模板尺寸,然后在模板集图像中对最久未更新的动态模板进行更新,根据更新后的模板集图像进行下一帧预测;若步骤2中计算出的当前帧预测的搜索区域质量等于或低于历史搜索区域的质量,则判定当前帧预测的搜索区域图像较复杂,无法准确定位目标,因此不对模板集图像进行修改,直接进入下一帧预测。
[0024]所述的步骤1中特征提取模块对搜索区域图像和模板集图像进行特征提取并输出搜索区域特征图s
′3与class token的具体步骤如下:
[0025]1.1输入模板集图像和搜索区域图像,其中模板集图像包括一张初始帧模板与T

1张动态模板,模板集图像中每张模板尺寸为3
×
H...

【技术保护点】

【技术特征摘要】
1.一种基于稀疏表示的自适应Transformer目标跟踪系统,其特征在于,包括:特征提取模块,包括块嵌入层、Transformer块、稀疏空间注意模块、稀疏自适应空间剪枝模块以及候选区域重建模块,用于对输入的搜索区域图像与模板集图像进行特征提取,并向预测头模块输出提取的classtoken及搜索区域图像特征;其中:块嵌入层,用于将输入的搜索区域图像与模板图像转化为token;Transformer块,用于对块嵌入层转化得到的token进行特征提取;稀疏空间注意模块,用于借助稀疏特征表示方法提取与前景有关的稀疏特征,并用提取的稀疏特征对Transformer块提取出的部分原始特征进行加权,从而增强目标区域特征,并抑制非目标区域特征;稀疏自适应空间剪枝模块,用于根据搜索区域图像的复杂程度自适应丢弃冗余背景信息;候选区域重建模块,用于进行候选区域重建以填充缺失的位置;预测头模块,包括概率头、偏差头、尺度头以及质量头,其中概率头、偏差头以及尺度头用于计算得出预测的目标包围框,质量头用于计算得出搜索区域质量,并在模板集图像中对未更新时间最久的动态模板进行更新。2.根据权利要求1所述的一种基于稀疏表示的自适应Transformer目标跟踪系统,其特征在于,所述稀疏空间注意模块首先对搜索区域特征s2进行稀疏特征表示,得到稀疏编码然后对稀疏编码沿通道进行平均池化,得到搜索区域特征的空间统计信息再对m1进行最大值最小值归一化操作得到注意力权值最后用m2对输入的搜索区域特征s2加权并输出稀疏注意搜索区域特征图s
′2,即s
′2=m2s2,其中m2表示注意力权值;所述稀疏特征表示的具体实现步骤如下:首先使用线性层W
sr
对搜索区域特征s2处理得到y
sr1
,对y
sr1
使用软阈值激活函数θ得到z1,然后线性层Q
sr
对z1进行处理,再和y
sr1
相加后,执行激活函数θ,得到z2,最后z2经过线性层Q
sr
进行处理,再和y
sr1
相加,执行激活函数θ,得到特征s1的稀疏编码α,软阈值激活函数θ的计算公式如下:其中,λ表示软阈值激活函数θ的阈值。3.根据权利要求1所述的一种基于稀疏表示的自适应Transformer目标跟踪系统,其特征在于,所述稀疏自适应空间剪枝模块首先对稀疏空间注意模块得到的权值m2由大到小排序得到置信度score,然后,对score求和得到候选区域的总能量E,取ρ%
×
E作为能量阈值,ρ为保留能量的比例,最后,保留候选区域中能量最大的前K个token,使其满足并丢弃剩余token。4.一种基于稀疏表示的自适应Transformer目标跟踪方法,其特征在于,包括以下步骤:步骤1.将搜索区域图像和模板集图像同时输入特征提取模块,进行特征提取并输出搜
索区域特征图s
′3与classtoken;步骤2.将步骤1中得到的特征提取模块输出的搜索区域特征图s
′3与class token送入预测头模块,利用预测头模块中的概率头、尺度头与偏差头计算得出预测的目标包围框;利用质量头计算得出搜索区域质量;步骤3.若步骤2中计算出的当前帧预测的搜索区域质量高于历史搜索区域的质量,则首先对当前帧的搜索区域图像以预测的目标包围框为中心裁剪,裁剪后的搜索区域图像尺寸为模板尺寸,然后在模板集图像中对最久未更新的动态模板进行更新,根据更新后的模板集图像进行下一帧预测;若步骤2中计算出的当前帧预测的搜索区域质量等于或低于历史搜索区域的质量,则判定当前帧预测的搜索区域图像较复杂,无法准确定位目标,因此不对模板集图像进行修改,直接进入下一帧预测。5.根据权利要求1所述的一种基于稀疏表示的自适应Transformer目标跟踪方法,其特征在于,所述的步骤1中特征提取模块对搜索区域图像和模板集图像进行特征提取并输出搜索区域特征图s
′3与classtoken的具体步骤如下:1.1输入模板集图像和搜索区域图像,其中模板集图像包括一张初始帧模板与T

1张动态模板,模板集图像中每张模板尺寸为3
×
H
t
×
W
t
,搜索区域尺寸为3
×
H
s
×
W
s
,其中H
t
表示模板的高度,W
t
表示表示模板的宽度,H
s
,表示搜索区域的高度,W
s
表示搜索区域的宽度;1.2将模板集图像中的每张模板和搜索区域图像分别输入块嵌入层,得到模板特征图集合s1和搜索区域特征图t1,尺寸分别为T
×
N
t
×
C、N
s
×
C;再将模板特征图集合s1和搜索区域特征图t1分别与位置编码相加,再将所有特征图、可学习向量classtoken拼接到一起,得到拼接特征图x1,其中classtoken的尺寸为1
×
C,拼接特征图x1尺寸为N
x
×
C,其中,N
x
=T
×
N
t
+N
s
+1,N
t
表示模板特征图集合的token数量,C表示特征图的通道数量,N
s
表示搜索区域特征图的token数量,N
x
表示拼接特征图x1的token数量;1.3将拼接特征图x1送入N1层Transformer块进行特征提取,输出提取后的提取拼接特征图x2;1.4从提取后的拼接特征图x2拆分出搜索区域特征图s2,将搜索区域特征图s2输入到稀疏空间注意模块进行处理,得到稀疏注意搜索区域特征图s
′2,再将稀疏注意搜索区域特征图s
′2输入到稀疏自适应空间剪枝模块得到剪枝搜索区域...

【专利技术属性】
技术研发人员:古晶董天雨翟得胜张炜杨淑媛冯婕侯彪刘芳焦李成
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1