当前位置: 首页 > 专利查询>浙江大学专利>正文

基于多层次互增强与相关金字塔的三维视频目标跟踪方法技术

技术编号:35865294 阅读:27 留言:0更新日期:2022-12-07 10:57
本发明专利技术公开了基于多层次互增强与相关金字塔的三维视频目标跟踪方法,包括:S1、建立针对三维视频单目标跟踪的编码器

【技术实现步骤摘要】
基于多层次互增强与相关金字塔的三维视频目标跟踪方法


[0001]本专利技术属于三维视觉的
,具体涉及一种基于多层次互增强与相关金字塔的三维视频目标跟踪方法。

技术介绍

[0002]近年来,基于3D LiDAR的单一物体跟踪(SOT)获得了越来越多的关注,因为它在3D应用中发挥着至关重要的作用。这个任务是近年来出现的,但随着LiDAR等3D传感器的发展,它变成了3D应用的一个重要任务,可应用在许多场景如自动驾驶、机器人和监控系统。该任务旨在通过在第一帧中给出相应的三维目标边界框来追踪视频中的特定目标。追踪视频中的特定目标具有一定难度,主要在于特定目标会在视频的不同时间段会发生一些变化,如由于其他物体的遮挡或者特定目标的快速运动,使得在不同时间点上特定目标往往是稀疏和不完整的。
[0003]现有的一种手段如图1a所示,首先通过采用“提取器

匹配器

解码器”范式来完成三维目标边界框中特定目标的追踪。首先通过提取器对模板和搜索区域的特征进行编码,再利用匹配器被用来建立模板

搜索关系并增强潜在的目标特征,即把模板特征嵌入到搜索区域的特征中,这也被称为相关操作;最后解码器利用来自匹配器的特征生成三维目标边界框。现代骨干网络如PointNet,PointNet++已经成为提取器的主流甚至是默认选择,这个范式中的大多数跟踪器的研究设计上大都致力于设计更强壮和精细的匹配器,以及更强大的解码器。但这种传统范式仍然存在两个问题:
[0004](1)模板和搜索特征之间的关系只在匹配器中建模,这对于完全的跨源交互和目标增强是不够的,无法实现完全的跨源。传统范式把提取器和匹配器分开,让匹配器负责模板特征的增强。受二维目标跟踪方法的启发,该范式中以前的方法总是在提取器中采用一个孪生网络,独立编码模板和搜索区域的特征,没有任何中间的交互。然后,再利用匹配器将模板特征融合到搜索特征中。然而独立的匹配器是多余的,需要额外建立模板与搜索区域的关系,带来额外的参数和运算,而且仅仅使用在匹配器提取的高语义层特征是不够的,无法对低语义层和中语义层的特征进行匹配;
[0005](2)常用的骨干网络中的点下采样将不可避免地加剧点云的稀疏性。大多数的骨干网络默认配置与三维目标跟踪的匹配性相对较差。例如最常用的PointNet++通常将输入点(通常为1024或512个点)减少为输入的1/8,匹配器和解码器只有非常稀疏的输入信息(128或64个点)。而实际上特征提取的骨干网络在目标跟踪中起着核心作用,它需要为输入的稀疏点云提供一个有鉴别力的目标表示,区分于周围的背景包括干扰物和噪音。
[0006]另外一种手段中,如运动跟踪器提出了一个以运动为中心的范式来取代上述“提取器

匹配器

解码器”范式,该范式构建了一个空间

时间点云以避免孪生网络,并直接预测运动。但这种方式仍然需要一个运动转换模块来将模板信息整合到搜索表征中,并采用两阶段细化的方式来保证性能,引入了额外的网络结构和参数量,且无法直接在编码器中实现模板和搜索区域的匹配。

技术实现思路

[0007]为了实现以上目的,本专利技术提供了一种基于多层次互增强与相关金字塔的三维视频目标跟踪方法,能实现在复杂环境的实际场景中准确快速地跟踪目标。
[0008]本专利技术采用以下技术方案:基于多层次互增强与相关金字塔的三维视频目标跟踪方法,包括以下步骤:
[0009]S1、建立针对三维视频单目标跟踪的编码器

解码器范式;
[0010]S2、建立同源多层次目标特征的局部自注意力增强单元;
[0011]S3、建立异源多尺度的模板与搜索区域特征的局部互注意力增强单元;
[0012]S4、建立一个具有侧向全阶段相关特征聚合的金字塔结构的编码器;
[0013]S5、建立一种运动模式分离的双分支解码器;
[0014]S6、在S1的范式下构建一个单目标跟踪器,包括由串联的点云集合摘要单元、局部自注意力增强单元、局部互注意力增强单元三者构成的金字塔结构的编码器,以及双分支解码器;构建完该单目标跟踪器的网络模型后,利用服务器对网络模型进行训练,通过降低网络损失函数优化网络参数,直至网络收敛;
[0015]S7、针对待处理的三维视频的视频序列中的给定目标,利用S6得到的网络模型进行跟踪。
[0016]进一步的,步骤S1具体包括:
[0017]S11、建立一个特征提取器和匹配器互相融合的编码器,将给定的三维视频的一个单目标的搜索区域和一个模板区域同时输入到所述编码器,一次性对两者进行各自的特征提取和两者之间的特征交互,输出搜索区域交互后的目标敏感特征;
[0018]S12、将S11输出的目标敏感特征输入到解码器,得到并输出跟踪结果,跟踪结果包括预测的对应的单目标的中心定位图、坐标回归值和旋转角度回归值。
[0019]更进一步的,步骤S2的具体包括:
[0020]S21、针对输入的单个点云的特征X
i
和对应的三维坐标位置p
i
,利用一个点级别线性层f1进行逐点特征变换得到特征
[0021]S22、对特征进行一组点级线性变换f
q
得到查询特征q
i
,根据三维坐标位置p
i
与所有同源点进行欧式距离计算,选取前k近邻后,将对应的特征经过两组线性变换f
k
,f
v
分别得到键特征k
i
和值特征v
i

[0022]S23、计算同源局部自注意力,
[0023][0024]其中,e
ij
=f
e
(p
i

p
j
)是位置编码,f
e
为逐点线性变换,j代表近邻的顺序,k是近邻数量,f
a
是一个两层的逐点线性变换;
[0025]S24、根据S23得到的注意力特征后,输出分为模板分别为:特征和搜索区域特征
[0026][0027]其中f2为逐点线性变换。
[0028]更进一步的,步骤S3具体包括:
[0029]S31、针对输入的单个点云特征X
i
和对应的三维坐标位置p
i
,利用一个点级别线性层f
′1进行逐点特征变换得到特征
[0030]S32、对S31得到的特征进行一组点级线性变换f

q
得到查询特征q

i
,根据位置p
i
与所有异源点进行欧式距离计算,选取前k近邻后,将对应的特征经过两组线性变换f

k
,f

υ
分别得到键特征k

i
和值特征v

i

...

【技术保护点】

【技术特征摘要】
1.基于多层次互增强与相关金字塔的三维视频目标跟踪方法,其特征在于,包括以下步骤:S1、建立针对三维视频单目标跟踪的编码器

解码器范式;S2、建立同源多层次目标特征的局部自注意力增强单元;S3、建立异源多尺度的模板特征与搜索区域特征的局部互注意力增强单元;S4、建立一个具有侧向全阶段相关特征聚合的金字塔结构的编码器;S5、建立一种运动模式分离的双分支解码器;S6、在S1的范式下构建一个单目标跟踪器,包括由串联的点云集合摘要单元、局部自注意力增强单元、局部互注意力增强单元三者构成的金字塔结构的编码器,以及双分支解码器;构建完成该单目标跟踪器的网络模型后,利用服务器对网络模型进行训练,通过降低网络损失函数优化网络参数,直至网络收敛;S7、针对待处理的三维视频的视频序列中的给定目标,利用网络模型进行跟踪。2.根据权利要求1所述的基于多层次互增强与相关金字塔的三维视频目标跟踪方法,其特征在于,步骤S1具体包括:S11、建立一个特征提取器和匹配器互相融合的编码器,将给定的三维视频的一个单目标的搜索区域和一个模板区域同时输入到所述编码器,一次性对两者进行各自的特征提取和两者之间的特征交互,输出搜索区域交互后的目标敏感特征;S12、将目标敏感特征输入到解码器,得到并输出跟踪结果,跟踪结果包括预测的对应的单目标的中心定位图、坐标回归值和旋转角度回归值。3.根据权利要求2所述的基于多层次互增强与相关金字塔的三维视频目标跟踪方法,其特征在于,步骤S2中局部自注意力增强单元的实现过程如下:S21、针对输入的单个点云特征X
i
和对应的三维坐标位置p
i
,利用一个点级别线性层f1进行逐点特征变换得到特征S22、对特征进行一组点级线性变换f
q
得到查询特征q
i
,根据三维坐标位置p
i
与所有同源点进行欧式距离计算,选取k前近邻后,将对应的特征经过两组线性变换f
k
,f
υ
分别得到键特征k
i
和值特征v
i
;S23、计算同源局部自注意力特征,其中,e
ij
=f
e
(p
i

p
j
)是位置编码,f
e
为逐点线性变换,j代表近邻的顺序,k是近邻数量,f
a
是一个两层的逐点线性变换;S24、利用同源局部自注意力特征计算输出模板特征和搜索区域特征分别为:分别为:
其中f2为逐点线性变换。4.根据权利要求1所述的基于多层次互增强与相关金字塔的三维视频目标跟踪方法,其特征在于,步骤S3中局部互注意力增强单元的实现过程如下:S31、针对输入的单个点云特征X
i
和对应的三维坐标位置p
i
,利用一个点级别线性层f
′1进行逐点特征变换得到特征S32、对S31得到的特征进行一组点级线性变换f

q
得到查询特征q

i
,根据位置p
i
与所有异源点进行欧式距离计算,选取前k近邻后,将对应的特征经过两组线性变换f

k
,f

υ
分别得到键特征k

i
和值特征v

i
;S33、计算异源局部自注意力特征,其中e

ij
=f

e
(p
i

p
j
)是位置编码,f

e
为逐点线性变换,j代表近邻的顺序,k是近邻数量,f

a
是一个两层的逐点线性变换;S34、局部互注意力增强单元利用利用异源局部自注意力特征计算输出模板特征和搜索区域特征分别为:分别为:其中f
′2为逐点线性变换。5.根据权利要求3或4所述的基于多层次互增强与相关金字塔的三维视频目标跟踪方法,其特征在于,所述步骤S4的具有侧向全阶段相关特征聚合的金字塔结构的编码器的主干网络包含三个阶段;每个阶段包括点云...

【专利技术属性】
技术研发人员:刘勇王蒙蒙
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1