【技术实现步骤摘要】
一种基于Transformer的3D实例分割方法、系统和设备
[0001]本专利技术涉及计算机视觉领域,具体涉及一种基于
Transformer
的
3D
实例分割方法
、
系统和设备
。
技术介绍
[0002]3D
实例分割是
3D
场景理解的一项基本任务,旨在预测场景中每个对象的语义标签和二值前景掩码
。
随着
AR/VR、3D
室内扫描
、
自动驾驶的普及,
3D
实例分割已成为促进场景理解的关键技术
。
[0003]目前,
3D
实例分割方法大致分为三类:基于提议的
、
基于分组的和基于查询的方法
。
基于查询的方法被视为一类基于
Transformer
的查询式方法,其中每个物体实例被表示为一个实例查询
。
查询式方法需要在整个场景中分布大量查询,以覆盖场景中前景物体的大部分,以便每个覆盖的物体实例上有一个或多个查询
。
然后,
Transformer
解码器通过迭代地聚焦于多层点云特征来学习实例查询
。
最终,实例查询将点云特征聚合起来,以并行生成所有实例的掩码
。
故查询的分布对实例分割的结果有很大的影响,而现有的基于查询的方法查询分布的覆盖率和重复率差,故提出一种基于
Transformerr/>的
3D
实例分割方法
。
技术实现思路
[0004]针对现有技术的不足,本专利技术提出了一种基于
Transformer
的
3D
实例分割方法,以优化查询的初始化过程,实现高覆盖率和低重复率的查询分布
。
为了抑制了噪声背景查询对分割结果的干扰,本专利还设计了一个带有对比损失的去噪模块,以将噪声背景查询从实例查询中排除
。
[0005]本专利技术的目的可以通过以下技术方案实现:
[0006]第一方面,本申请提出一种基于
Transformer
的
3D
实例分割方法,包括:
[0007]获取输入点云的多级特征和种子点;
[0008]聚合种子点的特征;通过平移操作和交并比引导的非极大值抑制操作筛选聚合后的种子点,得到查询点;
[0009]基于多级特征和查询点的特征的相似度将多级特征分成不相交的集合;
[0010]将查询点和对应的集合进行聚类处理,得到查询的输出;
[0011]将查询的输出输入多层感知机,输出实例分割结果
。
[0012]在一些实施例中,将查询点与真实中心点进行编码,得到去干扰的查询点;基于去干扰的查询点确定查询的输出特征;
[0013]其中,真实中心点从真实标注中获取实例的中心点并进行重新采样获取,满足:
Q
gt
~
N(C
gt
,
σ2)
[0014]其中,
N
表示高斯分布,
σ
表示偏差,
C
gt
表示均值
。
[0015]在一些实施例中,所述基于去干扰的查询点确定查询的输出特征,包括以下步骤:
[0016]将查询的输出与数据集中的真实标注进行匹配,具有最小匹配成本的查询与扰动
后的真实中心点形成正样本对;鼓励正样本查询的输出特征与相应中心点的输出特征一致,并基于对比损失将不匹配的噪声背景查询远离实例,对比损失满足:
[0017][0018]其中,
d(.,.)
是距离度量函数,
ε
是对比学习中的温度参数;
K
为查询的数量;
N
gt
为真实标注的数量,
β
为真实标注
j
生成的扰动的真实中心点个数;查询
i
和真实标注
j
的扰动中心点构成正样本对,
q
i
代表查询
i
的特征,代表真实标注
j
的第
m
个扰动点的特征
。
[0019]在一些实施例中,所述聚合种子点的特征,包括以下步骤:
[0020]根据
Mask3D
将原始点云划分为多个超点,根据超点划分对多级特征中的最后一级特征
F2做平均池化以获得超点特征
F
super
;
[0021]对超点特征
F
super
以及种子点特征
F
seed
做交叉注意力,
[0022][0023]其中
Q
=
F
seed
W
q
,
K
=
F
super
W
k
,
V
=
F
super
W
v
,
C
为特征通道数,
W
q
、W
k
、W
v
为线性映射层;
[0024]在采用交叉注意力更新完种子点特征后,使用自注意力更新种子点特征:
[0025][0026]其中
Q'
=
F'
seed
W
q
,
K'
=
F'
seed
W
k
,
V'
=
F'
seed
W
v
;
[0027]自注意力更新后,采用由多层感知机组成的前馈神经网络更新种子点的特征
。
[0028]在一些实施例中,所述通过平移操作和交并比引导的非极大值抑制操作筛选聚合后的种子点,得到查询点,包括以下步骤:
[0029]通过多层感知机来预测每个种子点
P
seed
相对于其匹配实例的中心点的坐标偏移;获得这个坐标偏移量后,将其加到原始坐标
p
上,具体如下:
[0030]p
=
MLP(s)+p
,其中
s
指的是特征;
[0031]通过计算超点特征和种子点特征之间的点积,得到种子点
P
seed
对应的实例掩码
M
ins
;通过对
Sigmoid
函数输出的值应用
0.5
的阈值来获得最终的掩码,具体如下所示:
[0032][0033]使用上述获得的掩码
M
b
计算交并比,并采用交并比引导的非极大值抑制来过滤掉多余的种子本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.
一种基于
Transformer
的
3D
实例分割方法,其特征在于,包括:获取输入点云的多级特征和种子点;聚合种子点的特征;通过平移操作和交并比引导的非极大值抑制操作筛选聚合后的种子点,得到查询点;基于多级特征和查询点的特征的相似度将多级特征分成不相交的集合;将查询点和对应的集合进行聚类处理,得到查询的输出;将查询的输出输入多层感知机,输出实例分割结果
。2.
根据权利要求1所述的基于
Transformer
的
3D
实例分割方法,其特征在于,还包括,将查询点与真实中心点进行编码,得到去干扰的查询点;基于去干扰的查询点确定查询的输出特征;其中,真实中心点从真实标注中获取实例的中心点并进行重新采样获取,满足:
Q
gt
~
N(C
gt
,
σ2)
其中,
N
表示高斯分布,
σ
表示偏差,
C
gt
表示均值
。3.
根据权利要求2所述的基于
Transformer
的
3D
实例分割方法,其特征在于,所述基于去干扰的查询点确定查询的输出特征,包括以下步骤:将查询的输出与数据集中的真实标注进行匹配,具有最小匹配成本的查询与扰动后的真实中心点形成正样本对;鼓励正样本查询的输出特征与相应中心点的输出特征一致,并基于对比损失将不匹配的噪声背景查询远离实例,对比损失满足:其中,
d(.,.)
是距离度量函数,
ε
是对比学习中的温度参数;
K
为查询的数量;
N
gt
为真实标注的数量,
β
为真实标注
j
生成的扰动的真实中心点个数;查询
i
和真实标注
j
的扰动中心点构成正样本对,
q
i
代表查询
i
的特征,代表真实标注
j
的第
m
个扰动点的特征
。4.
根据权利要求1所述的基于
Transformer
的
3D
实例分割方法,其特征在于,所述聚合种子点的特征,包括以下步骤:根据
Mask3D
将原始点云划分为多个超点,根据超点划分对多级特征中的最后一级特征
F2做平均池化以获得超点特征
F
super
;对超点特征
F
super
以及种子点特征
F
seed
做交叉注意力,其中
Q
=
F
seed
W
q
,
K
=
F
super
W
k
,
V
=
F
super
W
v
,
C
为特征通道数,
W
q
、W
k
、W
v
为线性映射层;在采用交叉注意力更新完种子点特征后,使用自注意力更新种子点特征:其中
Q
′
=
F
′
seed
W
q
,
K
′
=
F
′
seed
W
k
,
V
′
=
F
′
seed
W
v
;自注意力更新后,采用由多层感知机组成的前馈神经网络更新种子点的特征
...
【专利技术属性】
技术研发人员:张天柱,杨文飞,张哲,吴枫,
申请(专利权)人:深空探测实验室天都实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。