当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于记忆网络的时空上下文信息三维单目标跟踪方法技术

技术编号:38529961 阅读:17 留言:0更新日期:2023-08-19 17:04
本发明专利技术涉及3D视觉领域,公开了一种基于记忆网络的时空上下文信息三维单目标跟踪方法,包括以下步骤:步骤S1:构建目标跟踪系统网络模型;步骤S2:设定记忆集;步骤S3:获取查询帧,提取查询帧和记忆帧的键值编码对;步骤S4:使用特征匹配单元对查询帧的键值编码对与外部存储单元中记忆帧的键值编码对进行匹配计算得到匹配特征,匹配特征再经过解码后得到查询帧的目标跟踪预测结果;步骤S5:将查询帧作为记忆帧放入记忆集中,继续跟踪,直至任务结束;步骤S6:对目标跟踪系统网络模型进行训练,得到一种基于记忆网络的时空上下文信息三维单目标跟踪方法,本发明专利技术有效解决了历史时空信息的有效编码问题。的有效编码问题。的有效编码问题。

【技术实现步骤摘要】
一种基于记忆网络的时空上下文信息三维单目标跟踪方法


[0001]本专利技术涉及3D视觉的
,具体是涉及一种基于记忆网络的时空上下文信息三维单目标跟踪方法。

技术介绍

[0002]三维单目标跟踪(SOT)是三维视觉中的一项关键任务,它对各种应用做出了广泛贡献,如自动驾驶、视觉监控和机器人视觉。近年来,随着三维信息采集技术的发展,基于点云的三维SOT引起了人们的广泛关注。相比于2D跟踪器,基于点云的3D跟踪器不受自然环境(如光线和天气)变化的影响,因此对周围环境的变化更具鲁棒性。提高3D SOT的性能对于自动驾驶和机器人等3D应用具有重要意义。
[0003]大多数现有的3D SOT方法都遵循孪生网络范式。这些方法的核心思想是通过权重共享的骨干网络从之前和当前帧中提取特征,然后通过匹配器进行特征匹配或特征增强。尽管这些方法取得了令人满意的结果,但孪生网络无法为目标缺失或点云自遮挡场景下生成具有判别力的特征。
[0004]与上述工作不同的是,MMTrack引入了一种以运动为中心的范式,并提出预测目标在两个连续帧之间的运动。它在两个帧中分割目标点,然后采用PointNet来预测目标的相对运动,并通过刚体变换将相对运动量转化为边界框。然而,由于忽略了丰富的时间上下文和几何结构信息,这些方法不能显著减少3D SOT的挑战。
[0005]特别是,视频序列中过去帧所包含的信息总是被忽略。仅依靠前一帧缺乏鲁棒性,无法处理目标遮挡等复杂情况。一些方法将第一帧和前一帧的点云组合为模板,但它们可能会在长期序列上效果不佳。此外,P2B讨论了模板生成方式,并试图将所有先前的结果组合为模板,但跟踪性能反而下降。因此,如何对历史时空信息进行有效编码仍是一个悬而未决的问题。
[0006]除了时空上下文特征外,3D目标的几何信息表示方法也值得深入探索,因为在稀疏场景中区分潜在目标和背景是一个巨大的挑战。有些方法利用形状信息来处理目标的识别,其中一种具体方法是使用形状完成网络来学习目标的密集几何特征。与这种方法略有不同的是,BAT提出了BoxCloud表示方法,以利用形状先验,该先验描述目标点和盒点之间的距离(即角和3D BBox的中心)。然而,这些方法对于提取目标的几何信息来说并不是一个可靠的方法。

技术实现思路

[0007]针对上述问题,本专利技术提出了一种基于记忆网络的时空上下文信息三维单目标跟踪方法,实现了在众多困难的实际场景中可以准确快速地跟踪目标。
[0008]为了实现上述目的,本专利技术提供了一种基于记忆网络的时空上下文信息三维单目标跟踪方法,其特征在于,包括以下步骤:
[0009]步骤S1:构建目标跟踪系统网络模型,包括第一特征提取单元,第二特征提取单
元,特征储存单元和特征匹配单元;
[0010]步骤S2:设定记忆集,获取第一帧点云并确定其跟踪目标,然后将第一帧点云作为记忆帧放入记忆集中;
[0011]步骤S3:获取下一帧点云作为查询帧,通过第一特征提取单元提取查询帧的键值编码对,通过第二特征提取单元提取记忆帧的键值编码对;键值编码对包括键特征和值特征;记忆帧的键值编码对储存在外部存储单元中;查询帧的键值编码对包括查询键特征和查询值特征;记忆帧的键值编码对包括记忆键特征和记忆值特征。
[0012]步骤S4:使用特征匹配单元对查询帧的键值编码对与外部存储单元中记忆帧的键值编码对进行匹配计算得到匹配特征,匹配特征再经过解码后得到查询帧的目标跟踪预测结果;
[0013]步骤S5:将查询帧作为记忆帧放入记忆集中,重复步骤S3至步骤S5,直至最后一帧查询帧得到目标跟踪预测结果;
[0014]步骤S6:对目标跟踪系统网络模型进行训练,通过降低网络损失函数优化网络参数,直至网络收敛,得到一种基于记忆网络的时空上下文信息三维单目标跟踪方法。
[0015]作为优选的,步骤S2包括以下步骤:
[0016]步骤S21:计算第一帧点云跟踪目标的边界框,根据第一帧点云跟踪目标的边界框提取目标掩码,目标掩码为边界框内的点;
[0017]步骤S22:将第一帧点云作为记忆帧与其对应的目标掩码一起放入记忆集中;
[0018]步骤S5包括以下步骤:
[0019]步骤S51:根据查询帧的目标跟踪预测结果得到预测边界框,根据预测边界框提取查询帧的目标掩码;
[0020]步骤S52:将查询帧作为记忆帧与其对应的目标掩码一起放入记忆集中,并对记忆集进行初始化。
[0021]作为优选的,步骤S4中的匹配计算步骤包括:
[0022]步骤S41:计算记忆键特征和查询键特征的相似度值;
[0023]步骤S42:通过步骤S41中得到的相似度值从外部存储单元中提取出与查询帧最为匹配的记忆值特征作为匹配值特征,计算查询键特征和匹配值特征之间的相似度值;
[0024]步骤S43:根据匹配值特征、查询值特征和步骤S42中得到的相似度值计算匹配特征。
[0025]作为优选的,步骤S41中的相似度值的数学表达式为:
[0026][0027]S
i,j
为第i个记忆键特征和第j个查询键特征之间的相似度值,K
M
为记忆键特征,为第i个记忆键特征,K
Q
为查询键特征,为第j个查询键特征。
[0028]作为优选的,步骤S43中的匹配特征数学表达式为:
[0029][0030][0031]为第j个查询帧的匹配特征,为第j个查询值特征,为匹配值特征,k为具有最大相似度值的查询键特征的下标,s
kj
为第j个查询帧的查询键特征和匹配值特征之间的相似度值。
[0032]作为优选的,步骤S3包括以下步骤:
[0033]步骤S31:将查询帧输入第一特征提取单元,先通过查询编码单元进行编码,再将编码后输出的结果分别通过第一全连接网络和第二全连接网络映射生成查询键特征和查询值特征;
[0034]步骤S32:将记忆帧和其对应的目标掩码输入第二特征提取单元,先将记忆帧和其对应的目标掩码在通道维度上进行拼接后,输入记忆编码单元进行编码得到记忆特征数学表达式为:
[0035][0036]为记忆特征,P
l
和M
l
分别表示记忆集中的第l帧记忆帧点云和目标掩码,Concate表示沿着通道维度的拼接操作;
[0037]步骤S33:通过值编码单元对记忆帧进行编码,再将编码后输出的结果与步骤S33中的记忆特征进行拼接后得到拼接后的特征将拼接后的特征送入融合单元进行计算得到记忆值特征;
[0038]步骤S34:将步骤S33中值编码单元输出的结果通过全连接网络映射生成记忆键特征;
[0039]步骤S35:将步骤S33和S34得到的记忆值特征和记忆键特征存入外部存储单元。
[0040]作为优选的,步骤S31中查询编码单元为输入通道为3的点云特征编码器;步骤S32中记忆编码单元为输入通道为4的点云特征编码本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于记忆网络的时空上下文信息三维单目标跟踪方法,其特征在于,包括以下步骤:步骤S1:构建目标跟踪系统网络模型,包括第一特征提取单元,第二特征提取单元,特征储存单元和特征匹配单元;步骤S2:设定记忆集,获取第一帧点云并确定其跟踪目标,然后将所述第一帧点云作为记忆帧放入记忆集中;步骤S3:获取下一帧点云作为查询帧,通过所述第一特征提取单元提取查询帧的键值编码对,通过所述第二特征提取单元提取记忆帧的键值编码对;所述键值编码对包括键特征和值特征;所述记忆帧的键值编码对储存在外部存储单元中;步骤S4:使用特征匹配单元对查询帧的键值编码对与外部存储单元中记忆帧的键值编码对进行匹配计算得到匹配特征,所述匹配特征再经过解码后得到查询帧的目标跟踪预测结果;步骤S5:将查询帧作为记忆帧放入记忆集中,重复步骤S3至步骤S5,直至最后一帧查询帧得到目标跟踪预测结果;步骤S6:对目标跟踪系统网络模型进行训练,通过降低网络损失函数优化网络参数,直至网络收敛,得到一种基于记忆网络的时空上下文信息三维单目标跟踪方法。2.根据权利要求1所述的一种基于记忆网络的时空上下文信息三维单目标跟踪方法,其特征在于,所述步骤S2包括以下步骤:步骤S21:计算第一帧点云跟踪目标的边界框,根据第一帧点云跟踪目标的边界框提取目标掩码,所述目标掩码为边界框内的点;步骤S22:将第一帧点云作为记忆帧与其对应的目标掩码一起放入记忆集中;所述步骤S5包括以下步骤:步骤S51:根据查询帧的目标跟踪预测结果得到预测边界框,根据预测边界框提取查询帧的目标掩码;步骤S52:将查询帧作为记忆帧与其对应的目标掩码一起放入记忆集中,并对记忆集进行初始化。3.根据权利要求1所述的一种基于记忆网络的时空上下文信息三维单目标跟踪方法,其特征在于,所述步骤S4中的匹配计算步骤包括:步骤S41:计算记忆键特征和查询键特征的相似度值;步骤S42:通过所述步骤S41中得到的相似度值从所述外部存储单元中提取出与查询帧最为匹配的记忆值特征作为匹配值特征,计算所述查询键特征和匹配值特征之间的相似度值;步骤S43:根据所述匹配值特征、查询值特征和步骤S42中得到的相似度值计算匹配特征。4.根据权利要求3所述的一种基于记忆网络的时空上下文信息三维单目标跟踪方法,其特征在于:所述步骤S41中的相似度值的数学表达式为:
S
i,j
为第i个记忆键特征和第j个查询键特征之间的相似度值,K
M
为记忆键特征,为第i个记忆键特征,K
Q
为查询键特征,为第j个查询键特征。5.根据权利要求4所述的一种基于记忆网络的时空上下文信息三维单目标跟踪方法,其特征在于:所述步骤S43中的匹配特征数学表达式为:所述步骤S43中的匹配特征数学表达式为:所述步骤S43中的匹配特征数学表达式为:为第j个查询帧的匹配特征,为第j个查询值特征,为匹配值特征,s
kj
为第j个查询键特征和匹配值特征之间的相似度值。6.根据权利要求2所述的一种基于记忆网络的时空上下文信息三维单目标跟踪方法,其特征在于,所述步骤S3包括以下步骤:步骤S31:将查询帧输入第一特征提取单元,先通过查询编码单元进行编码,再将编码后输出的结果分别通过第一全连接网络和第二全连接网络映射生成查询键特征和查询值特征;步骤S32:将记忆帧和其对应的目标掩码输入第二特征提取单元,先将记忆帧和其对应的目标掩码在通道维度上进行拼接后,输入记忆编码单元进行编码得到记忆特征数...

【专利技术属性】
技术研发人员:刘勇罗钟元王蒙蒙
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1