基于联合Transformer与稀疏卷积的点云语义分割方法技术

技术编号:38906118 阅读:22 留言:0更新日期:2023-09-22 14:24
本发明专利技术公开了基于联合Transformer与稀疏卷积的点云语义分割方法,首先采用Transformer中的核心注意力机制对原始点云数据进行逐点的全局特征提取,然后将原始点云数据体素化,通过稀疏子流形卷积对体素化后的点云数据进行局部特征提取,最后将提取到的全局特征和局部特征进行融合,得到最终的语义分割结果。本发明专利技术解决了现有方法局部特征提取不充分的问题,提高了室内场景语义分割的精度和效率。率。率。

【技术实现步骤摘要】
基于联合Transformer与稀疏卷积的点云语义分割方法


[0001]本专利技术属于室内场景点云语义分割
,涉及基于联合Transformer与稀疏卷积的点云语义分割方法。

技术介绍

[0002]伴随着智能时代的发展,人们对室内场景空间信息的获取和更新需求也日益增长。室内场景的理解是目前人工智能领域的一个重要模块,也是计算机视觉中关于场景理解和分析的重要一环。三维点云语义分割是室内场景理解和分析的基础,在室内机器人导航、目标检测与识别、三维重建、室内公共场所的定位及导航等方面有着广阔的应用前景。
[0003]室内场景语义分割是指将复杂的室内场景中的不同类别物体进行区分,根据点的坐标、颜色和法线等信息,为每个点分配不同的标签,将其标记为不同语义类别。近年来,由于计算机硬件性能的提升和大规模数据集的出现,深度学习逐渐成为点云分割领域的研究热点。PointNet在早期成功将基于点的深度学习应用于点云的特征提取。该方法采用T

net网络对模型进行旋转不变性处理,使用多层感知机提取点云的全局特征,但由于共享权重的多层感知机映射难以充分表达点云的空间分布,使得模型缺乏几何结构建模能力,无法有效提取局部特征。

技术实现思路

[0004]本专利技术的目的是提供基于联合Transformer与稀疏卷积的点云语义分割方法(Combining Transformer and Sparse Convolution,TSPconv

Net),解决了现有方法局部特征提取不充分的问题,提高了室内场景语义分割的精度和效率。
[0005]本专利技术采用的技术方案是,基于联合Transformer与稀疏卷积的点云语义分割方法,首先采用Transformer中的核心注意力机制对原始点云数据进行逐点的全局特征提取,然后将原始点云数据体素化,通过稀疏子流形卷积对体素化后的点云数据进行局部特征提取,最后将提取到的全局特征和局部特征进行融合,得到最终的语义分割结果。
[0006]本专利技术的特点还在于,
[0007]具体按照以下步骤实施:
[0008]步骤1,特征嵌入:输入点云数据,使用由两个级联的LBR组成的共享神经网络将原始位置编码和输入特征合并到一个基于坐标的编码模块中;
[0009]步骤2,计算偏移注意力:将嵌入特征输入到注意力机制模块进行进一步的特征提取,具体为,首先通过线性变换将点云映射到低维特征空间,然后计算每个点与周围点之间的偏移向量,利用偏移向量指导注意力的计算;
[0010]步骤3,构建残差模块:将偏移注意力的输入与输出相加,从而完成残差模块的构建;
[0011]步骤4,全局特征提取:首先线性连接四个残差模块,构成完整注意力机制模块,然后对注意力机制的输出进行线性变换得到点云特征,最后对点云特征进行最大池化操作和
平均池化操作,将得到的最大池化特征映射和平均池化特征映射进行合并,得到全局特征;
[0012]步骤5,点云数据体素化:对原始输入点云进行坐标归一化,根据体素分辨率确定每个点的体素编号,以体素中每个点的平均特征作为当前的体素特征;
[0013]步骤6,局部特征提取:对体素化结果进行稀疏子流形卷积操作,以提取点云局部特征;
[0014]步骤7,去体素化处理:使用三线性插值上采样方法对步骤6提取到的局部特征进行去体素化处理,将每个体素的特征映射到对应点云中,得到局部特征;
[0015]步骤8,特征融合:将步骤4和步骤7中得到的全局特征和局部特征进行拼接融合,经过多个多层感知机处理得到最终语义分割的结果。
[0016]步骤1具体为:
[0017]步骤1.1,输入三维物体的点云数据P={p1,p2,

,p
i
,

,p
N
},其中p
i
表示第i个点的位置信息,N为输入点云中点的个数,包含点云三维坐标信息;
[0018]步骤1.2,输入点云先经过Linear层进行线性变换,该层通常包括权重矩阵和偏置项,其计算公式为y=wx+b,其中w是权重矩阵,x是输入数据,b是偏执项,y是输出数据;
[0019]步骤1.3,在Linear层后添加Batch

Normalization层;
[0020]步骤1.4,在Batch

Normalization层添加ReLU激活函数,对输入数据进行非线性映射,将所有负值置为0,保留所有正值不变;
[0021]步骤1.5,将步骤1.4的输出再次经过步骤1.2

步骤1.4处理,得到嵌入特征d
pe
为嵌入特征每个点包含的特征维数。
[0022]步骤2具体为:
[0023]步骤2.1,将嵌入特征模块输出F
in
经过线性层进行线性变换得到查询Q、关键字K和值V矩阵,对应的计算公式如式(1)所示:
[0024][0025]式(1)中:
[0026]W
q
、W
k
和W
v
——代表共享可学习线性变换层的权重矩阵;
[0027]d
a
——代表Q和K的维度;
[0028]步骤2.2,在得到Q、K和V矩阵之后,使用查询矩阵和关键字矩阵通过矩阵点积来计算注意力权重具体的计算公式如式(2)所示,
[0029][0030]步骤2.3,将注意力权重通过SoftMax算子和l1Norm进行归一化处理得到注意力图,归一化后的结果用A=α
i,j
表示,具体的计算公式如式(3)所示。
[0031][0032]步骤2.4,将得到的归一化结果和值向量进行加权和,得到偏移注意力的输出特征F
sa
,具体的计算公式如式(4)所示,
[0033]F
sa
=A
·
V
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4);
[0034]步骤2.5,将偏移注意力的输出特征F
sa
和最开始输入的嵌入特征F
in
进行相加得到最终的输出特征F
end
,具体的计算公式如式(5)所示,
[0035]F
end
=LBR(F
in

F
sa
)+F
in
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)。
[0036]步骤5具体如下:
[0037]步骤5.1,对输入的点云数据进行坐标归一化处理,平移所有点到以重心为原点的局部坐标系中,所有点除以坐标二范数的最大值max||p
i
||2来将这些点标准化到单位球体中,坐标就缩放到了[

1,1]之间;
[0038]步骤5.2,然后将[
...

【技术保护点】

【技术特征摘要】
1.基于联合Transformer与稀疏卷积的点云语义分割方法,其特征在于,首先采用Transformer中的核心注意力机制对原始点云数据进行逐点的全局特征提取,然后将原始点云数据体素化,通过稀疏子流形卷积对体素化后的点云数据进行局部特征提取,最后将提取到的全局特征和局部特征进行融合,得到最终的语义分割结果。2.根据权利要求1所述的基于联合Transformer与稀疏卷积的点云语义分割方法,其特征在于,具体按照以下步骤实施:步骤1,特征嵌入:输入点云数据,使用由两个级联的LBR组成的共享神经网络将原始位置编码和输入特征合并到一个基于坐标的编码模块中;步骤2,计算偏移注意力:将嵌入特征输入到注意力机制模块进行进一步的特征提取,具体为,首先通过线性变换将点云映射到低维特征空间,然后计算每个点与周围点之间的偏移向量,利用偏移向量指导注意力的计算;步骤3,构建残差模块:将偏移注意力的输入与输出相加,从而完成残差模块的构建;步骤4,全局特征提取:首先线性连接四个残差模块,构成完整注意力机制模块,然后对注意力机制的输出进行线性变换得到点云特征,最后对点云特征进行最大池化操作和平均池化操作,将得到的最大池化特征映射和平均池化特征映射进行合并,得到全局特征;步骤5,点云数据体素化:对原始输入点云进行坐标归一化,根据体素分辨率确定每个点的体素编号,以体素中每个点的平均特征作为当前的体素特征;步骤6,局部特征提取:对体素化结果进行稀疏子流形卷积操作,以提取点云局部特征;步骤7,去体素化处理:使用三线性插值上采样方法对步骤6提取到的局部特征进行去体素化处理,将每个体素的特征映射到对应点云中,得到局部特征;步骤8,特征融合:将步骤4和步骤7中得到的全局特征和局部特征进行拼接融合,经过多个多层感知机处理得到最终语义分割的结果。3.根据权利要求2所述的基于联合Transformer与稀疏卷积的点云语义分割方法,其特征在于,所述步骤1具体为:步骤1.1,输入三维物体的点云数据P={p1,p2,

,p
i
,

,p
N
},其中p
i
表示第i个点的位置信息,N为输入点云中点的个数,包含点云三维坐标信息;步骤1.2,输入点云先经过Linear层进行线性变换,该层通常包括权重矩阵和偏置项,其计算公式为y=wx+b,其中w是权重矩阵,x是输入数据,b是偏执项,y是输出数据;步骤1.3,在Linear层后添加Batch

Normalization层;步骤1.4,在Batch

Normalization层添加ReLU激活函数,对输入数据进行非线性映射,将所有负值置为0,保留所有正值不变;步骤1.5,将步骤1.4的输出再次经过步骤1.2

步骤1.4处理,得到嵌入特征d
pe
为嵌入特征每个点包含的特征维数。4.根据权利要求2所述的基于联合Transformer与稀疏卷积的点云语义分割方法,其特征在于,所述步骤2具体为:步骤2.1,将嵌入特征模块输出F
in
经过线性层进行线性变换得到查询Q、关键字K和值V矩阵,对应的计算公式如式(1)所示:
式(1)中:W
q
、W
k
和W
v
——代表共享可学习线性变换层的权重矩阵;d
a
——代表Q和K的维度;步骤2.2,在得到Q、K和V矩阵之后,使用查询矩阵和关键字矩阵通过矩阵点积来计算注意力权重具体的计算公式如式(2)所示,步骤2.3,将注意力权重通过SoftMax算子和l1Norm进行归一化处理得到注意力图,归一化后的结果用A=α
i,j
表示,具体的计算公式如式(3)所示,步骤2.4,将得到的归一化结果和值向量进行加权和,得到偏移注意力的输出特征F
sa
,具体的计算公式如式(4)所示,F
sa
=A
·
V
ꢀꢀꢀꢀꢀ
(4);步骤2.5,将偏移注意力的输出特征F
sa
和最开始输入的嵌入特征F
in
进行相加得到最终的输出特征F
end
,具体的计算公式如式(5)所示,F
end
=LBR(F
in

F
...

【专利技术属性】
技术研发人员:宁小娟李志寰陆志伟吕志勇金海燕
申请(专利权)人:西安理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1