基于图注意力网络的自监督3D场景流估计方法技术

技术编号:36887985 阅读:32 留言:0更新日期:2023-03-15 21:42
本发明专利技术提供一种基于图注意力网络的自监督3D场景流估计方法,首先构建特征提取网络即图注意力网络,将相邻两帧点云输入到图注意力网络结构中,根据不同的距离信息来提取空间信息,聚合最佳特征;其次构建循环成本量层,将提取到的局部特征送入到该结构中进行特征融合,以便更好地学习融合后的特征,进行跨尺度注意力操作;然后进行点云上采样得到原始3D场景流;最后再次通过图注意力结构对获得的场景流进行特征聚合并进行平滑性处理,得到精确的3D场景流。场景流。场景流。

【技术实现步骤摘要】
基于图注意力网络的自监督3D场景流估计方法


[0001]本专利技术提供了一种3D场景流估计方法,具体是基于一种图注意力网络的自监督估计方法。

技术介绍

[0002]场景流估计是场景理解的重要组成部分之一,3D场景流是一个三维运动场,是3D运动最通用的表示,用于描述相邻两帧点云间每个点的运动,而3D场景流的准确估计有助于动态目标的检测、运动规划和分割。现在利用点云重建3D运动的研究仍处于起步阶段,随着激光雷达技术的发展,以点云为输入来估计场景流逐渐成为一个研究热点,且具有非常广阔的应用前景。同时由于监督学习对样本的需求量大,制作样本标签也需要投入大量的人力,而这些数据集往往难以获得,除此之外,由于点云本身的无序性和不规则性,点云的特征信息往往难以捕捉,这就给3D场景流的估计带来了很大困难。
[0003]本专利技术提出了一种基于图注意力网络的3D场景流估计方法,命名为AGMNet,使用图注意力网络,可以通过构造拓扑结构来提取局部特征信息,能够更好地提取不同距离的空间信息,而注意力池化结构能够选择拓扑结构的最重要特征。因此,该网络可以聚集更多信息,更好地表示不同的点云特征。同时使用自监督损失函数可以有效节约人力物力,进一步提升网络性能。

技术实现思路

[0004]本专利技术的目的在于提出一种基于图注意力网络的自监督3D场景流估计方法,更好地提取网络的局部特征信息与全局特征信息,进一步提升网络的性能。
[0005]本专利技术的目的是这样实现的:
[0006](1)构建特征提取网络即图注意力网络,该网络一共两个分支,每个分支完全相同,每个分支由多层图注意力结构(AGM)组成,而图注意力结构包括两部分,图注意力卷积结构和注意力池化结构,图注意力卷积结构通过k

NN方法构建局部图,注意力池化结构聚合局部特征并使用注意机制来自动学习最重要的特征,可以使用不同的权重来表示不同重要性的特征。
[0007](2)将提取到的局部特征送入到循环成本量层中,将成本量视为集合到
[0008]集合的特征匹配代价,而不是点到集合的特征匹配代价,循环成本量层将成本量与类似长短期记忆(LSTM)的循环神经单元相结合得到两帧点云间的特征匹配代价,同时为了更好地融合两帧点云,将输出的特征输入到跨尺度注意力结构中。
[0009](3)进行点云上采样操作,上采样采用基于欧氏距离的插值法获取原始场景流,在最后一层再次使用AGM,得到最终精细的场景流。
[0010](4)构造自监督损失函数。由于真实场景流的获取非常困难,使用自监
[0011]督的方法可以节省成本。采用联合损失,引入图拉普拉斯损失函数、最近邻损失函数以及排斥损失函数,将其结合到网络中,能够更好地对点云的形状相似性进行补偿处理。
[0012](5)网络训练使用无标注点云数据集,利用网络损失函数进行自监督训练。
[0013](6)在训练好的场景流模型中输入相邻两帧点云,最终获得3D场景流。
[0014]本专利技术还包括这样一些结构特征:
[0015]1.所述步骤(1)中图注意力网络主要结构为AGM,由图注意力卷积结构和注意力池化结构组成。该结构可以更好地提取不同距离的空间信息,而注意力池化结构能够选择拓扑结构中最重要的特征,因此,可以聚合更多的信息以更好地表示不同的点云特征。AGM第一部分为图注意力卷积结构,首先通过k

NN构建有向图以聚合局部信息,每个有向图的边均可以用邻域表示,则由图注意力卷积结构转换后的特征即为相应邻域特征信息进行积分后的结果。AGM的第二部分是注意力池化结构。注意力池化结构的核心为设计一个共享函数λ(
·
)来学习注意力分数。使用AGM结构,增加了点云中每个点的感受野,并通过构建更好的局部几何特征来丰富点云的局部信息,以确保每个拓扑结构能够更好地表示其所代表的局部区域。
[0016]2.所述步骤(2)中循环成本量层的构建,该结构基于LSTM的RNN架构实现,在循环结构中,输入要保持空间结构,隐藏状态既保持点坐标又要保持相关特征。如循环成本量结构附图4所示,在时刻t,点云的三维坐标C
t
和相关特征X
t
都将输入到循环成本量层。初始化时,循环成本量层的状态被扩展到t

1时刻的三维坐标C
t
‑1、隐藏状态H
t
‑1和t

1时刻的递归状态R
t
‑1,可以跟踪最近的点位置状态和存储器状态。在时间t=0时,隐藏状态和单元状态为零初始化,在时间步长为t时,它将当前点位置C
t
和相关联的特征X
t
作为输入,通过输入门、忘记门和输出门等多个门与循环成本量的存储器状态C
t
‑1、H
t
‑1和R
t
‑1相互作用,输出最终特征。
[0017]3.所述步骤(2)中跨尺度注意力结构对循环成本量产生的特征以及两帧点云在AGM输出的特征进行处理,进而融合多尺度点云信息。该模块由三部分组成:融合前变换、融合和融合后变换,由于融合前变换和融合后变换通常是标准操作,因此更专注于设计多尺度融合模块。该模块充分考虑了不同尺度的特征,增强学习到的高分辨率语义特征,旨在通过与邻域交互来增强点云细节特征、语义特征以及尺度特征。
[0018]4.所述步骤(4)中自监督损失函数的构造,引入排斥损失,保证上采样得到的点更均匀,具体表示如下:
[0019][0020]式中,i表示采样点索引,N表示采样点个数,表示排斥项,是一种递减函数,表示t

1时刻索引为j的点和t时刻索引为i的点之间的欧氏距离,表示t

1时刻索引为j的点和t时刻索引为i的点相关联的部分,是以e为底的指数函数,表示t

1时刻索引为j的点的邻域点集合,L
rep
表示排斥损失函数。
[0021]与现有技术相比,本专利技术的有益效果是:本专利技术将图注意力卷积与注意力池化结构相结合,能够更好的提取网络局部特征信息,同时采用循环成本量层更好地得到两帧点云之间的特征匹配代价,然后采用新的自监督损失函数,得到最终的3D场景流。
附图说明
[0022]图1是本专利技术流程图;
[0023]图2是网络结构图;
[0024]图3是图注意力结构图;
[0025]图4是循环成本量结构图;
[0026]图5是跨尺度注意力结构图。
具体实施方式
[0027]下面结合附图与具体实施方式对本专利技术作进一步详细描述。
[0028]图1为本专利技术方法的流程图,结合图1对本专利技术做更详细地描述,如下:
[0029]S1:构建特征提取网络即图注意力网络,具体网络结构如图2所示。该网络输入为相邻两帧点云,每帧点云算一个分支,一共两个相同分支,每个分支均通过三层图注意力结构且共享权重,具体AGM结构如图3本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于图注意力网络的自监督3D场景流估计方法,其特征在于,步骤如下:步骤(1):构建特征提取网络即图注意力网络,该网络包含两个完全相同的分支,每个分支包含多层图注意力结构且共享权重,每次通过AGM后都会获得一个新图;步骤(2):将从图注意力网络提取到的局部特征送入到循环成本量层中,循环成本量层将成本量与类似长短期记忆的循环神经单元相结合得到两帧点云间的特征匹配损失,将输出的特征输入到跨尺度注意力结构中;步骤(3):进行上采样操作,采用基于欧氏距离的插值法获取场景流;在最后一层再次使用图注意力网络,得到最终精细的场景流;步骤(4):构造自监督损失函数,采用图拉普拉斯损失函数、最近邻损失函数以及排斥损失函数,将其结合到网络中,能基于点云形状相似性进行补偿处理;步骤(5):网络训练使用无标注点云数据集,利用网络损失函数进行自监督训练;步骤(6):在训练好的场景流模型中输入相邻两帧点云,最终输出3D场景流。2.根据权利要求1所述的基于图注意力网络的自监督3D场景流估计方法,其特征在于:所述步骤(1)中图注意力网络主要结构为AGM,由图注意力卷积结构和注意力池化结构组成;AGM第一部分为图注意力卷积结构,首先通过k

NN构建有向图以聚合局部信息,每个有向图的边均可以用邻域表示,则由图注意力卷积结构转换后的特征即为相应邻域特征信息进行积分后的结果;AGM的第二部分是注意力池化结构,注意力池化结构的核心为设计一个共享函数λ(
·
)来学习注意力分数。3.根据权利要求1所述的基于图注意力网络的自监督3D场景流估计方法,其特征在于:所述步骤(2)中循环成本量层的构建,基于LSTM的RNN架构实现,在循环结构中,输入要保持空间结构,隐藏状态既保持点坐标又要保持相关特征,在时刻t,点云的三维坐标C
...

【专利技术属性】
技术研发人员:项学智魏迎欣乔玉龙
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1