基于多层次互增强与相关金字塔的三维视频目标跟踪方法技术

技术编号：35865294 阅读：27 留言：0更新日期：2022-12-07 10:57

本发明专利技术公开了基于多层次互增强与相关金字塔的三维视频目标跟踪方法，包括：S1、建立针对三维视频单目标跟踪的编码器

全部详细技术资料下载

【技术实现步骤摘要】
基于多层次互增强与相关金字塔的三维视频目标跟踪方法

[0001]本专利技术属于三维视觉的
，具体涉及一种基于多层次互增强与相关金字塔的三维视频目标跟踪方法。

技术介绍

[0002]近年来，基于3D LiDAR的单一物体跟踪(SOT)获得了越来越多的关注，因为它在3D应用中发挥着至关重要的作用。这个任务是近年来出现的，但随着LiDAR等3D传感器的发展，它变成了3D应用的一个重要任务，可应用在许多场景如自动驾驶、机器人和监控系统。该任务旨在通过在第一帧中给出相应的三维目标边界框来追踪视频中的特定目标。追踪视频中的特定目标具有一定难度，主要在于特定目标会在视频的不同时间段会发生一些变化，如由于其他物体的遮挡或者特定目标的快速运动，使得在不同时间点上特定目标往往是稀疏和不完整的。
[0003]现有的一种手段如图1a所示，首先通过采用“提取器
‑
匹配器
‑
解码器”范式来完成三维目标边界框中特定目标的追踪。首先通过提取器对模板和搜索区域的特征进行编码，再利用匹配器被用来建立模板
‑
搜索关系并增强潜在的目标特征，即把模板特征嵌入到搜索区域的特征中，这也被称为相关操作；最后解码器利用来自匹配器的特征生成三维目标边界框。现代骨干网络如PointNet，PointNet++已经成为提取器的主流甚至是默认选择，这个范式中的大多数跟踪器的研究设计上大都致力于设计更强壮和精细的匹配器，以及更强大的解码器。但这种传统范式仍然存在两个问题：
[0004](1)模板和搜索

【技术保护点】

【技术特征摘要】
1.基于多层次互增强与相关金字塔的三维视频目标跟踪方法，其特征在于，包括以下步骤：S1、建立针对三维视频单目标跟踪的编码器
‑
解码器范式；S2、建立同源多层次目标特征的局部自注意力增强单元；S3、建立异源多尺度的模板特征与搜索区域特征的局部互注意力增强单元；S4、建立一个具有侧向全阶段相关特征聚合的金字塔结构的编码器；S5、建立一种运动模式分离的双分支解码器；S6、在S1的范式下构建一个单目标跟踪器，包括由串联的点云集合摘要单元、局部自注意力增强单元、局部互注意力增强单元三者构成的金字塔结构的编码器，以及双分支解码器；构建完成该单目标跟踪器的网络模型后，利用服务器对网络模型进行训练，通过降低网络损失函数优化网络参数，直至网络收敛；S7、针对待处理的三维视频的视频序列中的给定目标，利用网络模型进行跟踪。2.根据权利要求1所述的基于多层次互增强与相关金字塔的三维视频目标跟踪方法，其特征在于，步骤S1具体包括：S11、建立一个特征提取器和匹配器互相融合的编码器，将给定的三维视频的一个单目标的搜索区域和一个模板区域同时输入到所述编码器，一次性对两者进行各自的特征提取和两者之间的特征交互，输出搜索区域交互后的目标敏感特征；S12、将目标敏感特征输入到解码器，得到并输出跟踪结果，跟踪结果包括预测的对应的单目标的中心定位图、坐标回归值和旋转角度回归值。3.根据权利要求2所述的基于多层次互增强与相关金字塔的三维视频目标跟踪方法，其特征在于，步骤S2中局部自注意力增强单元的实现过程如下：S21、针对输入的单个点云特征X
i
和对应的三维坐标位置p
i
，利用一个点级别线性层f1进行逐点特征变换得到特征S22、对特征进行一组点级线性变换f
q
得到查询特征q
i
，根据三维坐标位置p
i
与所有同源点进行欧式距离计算，选取k前近邻后，将对应的特征经过两组线性变换f
k
,f
υ
分别得到键特征k
i
和值特征v
i
；S23、计算同源局部自注意力特征，其中，e
ij
＝f
e
(p
i
‑
p
j
)是位置编码，f
e
为逐点线性变换，j代表近邻的顺序，k是近邻数量，f
a
是一个两层的逐点线性变换；S24、利用同源局部自注意力特征计算输出模板特征和搜索区域特征分别为：分别为：
其中f2为逐点线性变换。4.根据权利要求1所述的基于多层次互增强与相关金字塔的三维视频目标跟踪方法，其特征在于，步骤S3中局部互注意力增强单元的实现过程如下：S31、针对输入的单个点云特征X
i
和对应的三维坐标位置p
i
，利用一个点级别线性层f
′1进行逐点特征变换得到特征S32、对S31得到的特征进行一组点级线性变换f
′
q
得到查询特征q
′
i
，根据位置p
i
与所有异源点进行欧式距离计算，选取前k近邻后，将对应的特征经过两组线性变换f
′
k
,f
′
υ
分别得到键特征k
′
i
和值特征v
′
i
；S33、计算异源局部自注意力特征，其中e
′
ij
＝f
′
e
(p
i
‑
p
j
)是位置编码，f
′
e
为逐点线性变换，j代表近邻的顺序，k是近邻数量，f
′
a
是一个两层的逐点线性变换；S34、局部互注意力增强单元利用利用异源局部自注意力特征计算输出模板特征和搜索区域特征分别为：分别为：其中f
′2为逐点线性变换。5.根据权利要求3或4所述的基于多层次互增强与相关金字塔的三维视频目标跟踪方法，其特征在于，所述步骤S4的具有侧向全阶段相关特征聚合的金字塔结构的编码器的主干网络包含三个阶段；每个阶段包括点云...

【专利技术属性】
技术研发人员：刘勇，王蒙蒙，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人