一种基于记忆网络的时空上下文信息三维单目标跟踪方法技术

技术编号：38529961 阅读：17 留言：0更新日期：2023-08-19 17:04

本发明专利技术涉及3D视觉领域，公开了一种基于记忆网络的时空上下文信息三维单目标跟踪方法，包括以下步骤：步骤S1：构建目标跟踪系统网络模型；步骤S2：设定记忆集；步骤S3：获取查询帧，提取查询帧和记忆帧的键值编码对；步骤S4：使用特征匹配单元对查询帧的键值编码对与外部存储单元中记忆帧的键值编码对进行匹配计算得到匹配特征，匹配特征再经过解码后得到查询帧的目标跟踪预测结果；步骤S5：将查询帧作为记忆帧放入记忆集中，继续跟踪，直至任务结束；步骤S6：对目标跟踪系统网络模型进行训练，得到一种基于记忆网络的时空上下文信息三维单目标跟踪方法，本发明专利技术有效解决了历史时空信息的有效编码问题。的有效编码问题。的有效编码问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于记忆网络的时空上下文信息三维单目标跟踪方法

[0001]本专利技术涉及3D视觉的
，具体是涉及一种基于记忆网络的时空上下文信息三维单目标跟踪方法。

技术介绍

[0002]三维单目标跟踪(SOT)是三维视觉中的一项关键任务，它对各种应用做出了广泛贡献，如自动驾驶、视觉监控和机器人视觉。近年来，随着三维信息采集技术的发展，基于点云的三维SOT引起了人们的广泛关注。相比于2D跟踪器，基于点云的3D跟踪器不受自然环境(如光线和天气)变化的影响，因此对周围环境的变化更具鲁棒性。提高3D SOT的性能对于自动驾驶和机器人等3D应用具有重要意义。
[0003]大多数现有的3D SOT方法都遵循孪生网络范式。这些方法的核心思想是通过权重共享的骨干网络从之前和当前帧中提取特征，然后通过匹配器进行特征匹配或特征增强。尽管这些方法取得了令人满意的结果，但孪生网络无法为目标缺失或点云自遮挡场景下生成具有判别力的特征。
[0004]与上述工作不同的是，MMTrack引入了一种以运动为中心的范式，并提出预测目标在两个连续帧之间的运动。它在两个帧中分割目标点，然后采用PointNet来预测目标的相对运动，并通过刚体变换将相对运动量转化为边界框。然而，由于忽略了丰富的时间上下文和几何结构信息，这些方法不能显著减少3D SOT的挑战。
[0005]特别是，视频序列中过去帧所包含的信息总是被忽略。仅依靠前一帧缺乏鲁棒性，无法处理目标遮挡等复杂情况。一些方法将第一帧和前一帧的点云组合为模板，但它们可能会在长期序列上效...

【技术保护点】

【技术特征摘要】
1.一种基于记忆网络的时空上下文信息三维单目标跟踪方法，其特征在于，包括以下步骤：步骤S1：构建目标跟踪系统网络模型，包括第一特征提取单元，第二特征提取单元，特征储存单元和特征匹配单元；步骤S2：设定记忆集，获取第一帧点云并确定其跟踪目标，然后将所述第一帧点云作为记忆帧放入记忆集中；步骤S3：获取下一帧点云作为查询帧，通过所述第一特征提取单元提取查询帧的键值编码对，通过所述第二特征提取单元提取记忆帧的键值编码对；所述键值编码对包括键特征和值特征；所述记忆帧的键值编码对储存在外部存储单元中；步骤S4：使用特征匹配单元对查询帧的键值编码对与外部存储单元中记忆帧的键值编码对进行匹配计算得到匹配特征，所述匹配特征再经过解码后得到查询帧的目标跟踪预测结果；步骤S5：将查询帧作为记忆帧放入记忆集中，重复步骤S3至步骤S5，直至最后一帧查询帧得到目标跟踪预测结果；步骤S6：对目标跟踪系统网络模型进行训练，通过降低网络损失函数优化网络参数，直至网络收敛，得到一种基于记忆网络的时空上下文信息三维单目标跟踪方法。2.根据权利要求1所述的一种基于记忆网络的时空上下文信息三维单目标跟踪方法，其特征在于，所述步骤S2包括以下步骤：步骤S21：计算第一帧点云跟踪目标的边界框，根据第一帧点云跟踪目标的边界框提取目标掩码，所述目标掩码为边界框内的点；步骤S22：将第一帧点云作为记忆帧与其对应的目标掩码一起放入记忆集中；所述步骤S5包括以下步骤：步骤S51：根据查询帧的目标跟踪预测结果得到预测边界框，根据预测边界框提取查询帧的目标掩码；步骤S52：将查询帧作为记忆帧与其对应的目标掩码一起放入记忆集中，并对记忆集进行初始化。3.根据权利要求1所述的一种基于记忆网络的时空上下文信息三维单目标跟踪方法，其特征在于，所述步骤S4中的匹配计算步骤包括：步骤S41：计算记忆键特征和查询键特征的相似度值；步骤S42：通过所述步骤S41中得到的相似度值从所述外部存储单元中提取出与查询帧最为匹配的记忆值特征作为匹配值特征，计算所述查询键特征和匹配值特征之间的相似度值；步骤S43：根据所述匹配值特征、查询值特征和步骤S42中得到的相似度值计算匹配特征。4.根据权利要求3所述的一种基于记忆网络的时空上下文信息三维单目标跟踪方法，其特征在于：所述步骤S41中的相似度值的数学表达式为：
S
i,j
为第i个记忆键特征和第j个查询键特征之间的相似度值，K
M
为记忆键特征，为第i个记忆键特征，K
Q
为查询键特征，为第j个查询键特征。5.根据权利要求4所述的一种基于记忆网络的时空上下文信息三维单目标跟踪方法，其特征在于：所述步骤S43中的匹配特征数学表达式为：所述步骤S43中的匹配特征数学表达式为：所述步骤S43中的匹配特征数学表达式为：为第j个查询帧的匹配特征，为第j个查询值特征，为匹配值特征，s
kj
为第j个查询键特征和匹配值特征之间的相似度值。6.根据权利要求2所述的一种基于记忆网络的时空上下文信息三维单目标跟踪方法，其特征在于，所述步骤S3包括以下步骤：步骤S31：将查询帧输入第一特征提取单元，先通过查询编码单元进行编码，再将编码后输出的结果分别通过第一全连接网络和第二全连接网络映射生成查询键特征和查询值特征；步骤S32：将记忆帧和其对应的目标掩码输入第二特征提取单元，先将记忆帧和其对应的目标掩码在通道维度上进行拼接后，输入记忆编码单元进行编码得到记忆特征数...

【专利技术属性】
技术研发人员：刘勇，罗钟元，王蒙蒙，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人