一种基于混合注意力和动态融合的点云语义分割方法技术

技术编号：40574770 阅读：9 留言：0更新日期：2024-03-06 17:15

本发明专利技术提出了一种基于混合注意力和动态融合的点云语义分割方法，首先输入一组N×d的点云数据，使用点对间的几何关系和语义关系去得到增强的局部特征表示，在每个编码层中首先使用基于几何的注意力获取几何聚合特征，紧接着再使用基于语义的注意力得到语义聚合特征，获取多尺度的编码特征后，需要进行特征解码和上采样恢复点云分辨率。在解码器端得到上采样点云后，使用边缘动态融合模块聚合周围邻居点的信息来缓解信息损失和不匹配问题。为了改善编解码特征之间的语义不一致性，提出一种动态交叉注意力解码器去增强编解码特征，缩小它们之间的语义差距。在逐步上采样和特征解码得到原始点云分辨率的融合特征后，通过全连接层获得分割结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及点云语义分割方法领域，具体涉及一种基于混合注意力和动态融合的点云语义分割方法。

技术介绍

1、近些年来，3d点云由于在自动驾驶、机器人、增强现实等许多应用中的巨大潜力而受到广泛的关注。其中点云语义分割是3d场景理解中的一项基本任务，旨在预测场景中每个对象的语义标签。点云是一组以不规则且无序的方式分布在三维空间中的点，其中每个点主要由其笛卡尔坐标(x,y,z)来表征，有时也会包括颜色、法线、强度等信息。尽管卷积神经网络在图像视觉取得了巨大的成功，包括图像识别、检测、分割等领域，但是由于点云不规则的数据结构形式，使得很难直接应用卷积神经网络来处理点云。

2、近年来的一些方法为了将卷积网络引入点云领域，他们将不规则的点云先通过转换的方法投影成规则的数据结构，例如通过体素化和多视角化得到体素网格点云和多视角图像。然后再应用三维和二维卷积神经网络进行处理。然而这些方法需要额外的预处理步骤，增加了计算负担，同时投影的方法不可避免地会造成信息损失，带来量化误差。这些缺点和限制促使了基于点的方法的提出。这类方法直接对点云进行处理，它们通常使用k最邻近算法构建局部结构，然后通过多层感知机等特征算子提取特征，使得整个处理过程变得简洁。但由于真实点云环境中复杂多变的物体和场景，使得点云语义分割任务仍面临着很多挑战。

3、点云语义分割的方法通常采用编码器-解码器结构，编码器端通过特征提取算子获取特征表示，并使用下采样不断降低输入点云的分辨率，这有利于减小计算负担和增大感受野。在解码器端使用插值的上采样方法逐步恢复点

技术实现思路

1、针对上面的问题，首先提出一种边缘动态融合的方法来缓解上采样过程中的信息损失和不匹配，具体是在插值后，动态融合周围邻居点的信息来增强插值特征。其次为了缓解编解码特征语义不一致的问题，提出一种动态交叉注意力解码器增强编解码特征，从而实现更好的特征融合。同时为了在编码器端提取到更丰富的编码特征，提出一种混合注意力编码器，使用几何关系和语义关系在不同的特征阶段获取相应的聚合特征。

2、本专利技术提出一种基于混合注意力和动态融合的点云语义分割方法，所述方法包括以下步骤：

3、步骤1：输入点云数据n×d；其中n为点的数目，d是点云的输入特征维度；

4、步骤2：使用点对间的几何关系和语义关系得到增强的局部特征表示；

5、步骤3：在每个编码层中首先使用基于几何关系的注意力获取几何聚合特征，再使用基于语义关系的注意力得到语义聚合特征；

6、步骤4：在解码器端插值得到上采样点云后，使用边缘动态融合模块聚合周围邻居点的信息来缓解信息损失和不匹配问题；

7、步骤5：使用动态交叉注意力解码器去增强编解码特征，缩小它们之间的语义差距，实现更好的特征融合；

8、步骤6：逐步上采样和特征解码得到原始点云分辨率的融合特征后，通过全连接层获得分割结果。

9、进一步，步骤2具体实现方法为，首先使用k最邻近算法得到每个点的k个邻居点，然后分别建立中心点和邻居点之间的几何与语义关系，其中几何关系定义为：

10、gik＝mlp[cik，ci-cik，deu(ci-cik)，dma(ci-cik)]

11、其中，ci，cik分别是中心点和邻居点的位置坐标，ci-cik表示二者间的相对坐标，deu(ci-cik)，dma(ci-cik)分别表示欧几里得距离和曼哈顿距离，具体定义为：

12、

14、其中，i为中心点的序号，k是第k个邻居点，(xi，yi，zi)为中心点的位置坐标，(xik，yik，zik)为第k个邻居点的位置坐标；

15、邻居点的坐标cik提供了该点在整个点云中的全局位置信息，ci-cik则提供了局部的相对位置信息，而deu(ci-cik)，dma(ci-cik)则能提供邻居点在空间中的分布情况信息，最后使用一层mlp来编码这些位置信息，对于语义关系，使用中心点和邻居点的特征差值sik来表示，即：

16、sik＝fi-fik

17、其中，fi为中心点的特征值；fik为邻居点的特征值；

18、特征差值能反映出点对之间的语义差距，能更好地表征邻域中的语义关系，再将上面的几何关系和语义关系拼接在一起得到增强的局部特征fikaug表示，即：

19、fikaug＝(gik，sik)。

20、进一步，步骤3具体实现方法为，利用几何关系来学习注意力系数去加权增强的局部特征，得到几何聚合特征fig，即：

21、

22、其中，g是一个符号，表示几何聚合特征；

23、其中，用一层mlp来学习几何注意力系数，softmax激活函数进行系数归一化；

24、利用语义关系学习注意力系数来加权增强的局部特征，得到语义聚合特征fis，即：

25、

26、其中，s是一个符号，表示语义聚合特征；

27、同样的，用一层mlp来学习语义注意力系数，softmax激活函数进行系数归一化。

28、进一步，步骤4的边缘动态融合模块具体为，首先通过一个邻域差异聚合模块聚合邻域信息，即：

29、fag＝a(mlp(fj-fup))

30、其中，fup是上采样的插值特征，fj是邻域点的特征，mlp用于提取特征差信息，a是最大池化函数来聚合信息，fag是聚合邻域信息的特征；为了能根据具体场景动态地融合邻域信息，将聚合特征fag和插值特征fup相加后通过一个转换网络φ和激活函数σ学习得到权重系数，即：

31、w＝σ(φ(fag+fup))

32、最后将权重系数w对聚合特征进行加权，再与插值特征相加得到最后的输出特征，即：

33、fou＝fup+w*fag。

34、进一步，步骤5中的采用动态交叉注意力解码器去增强编解码特征的具体方法为，对于编码特征其中，r表示实数域，n为点的数目，d1，d2是特征维度；通常d2会大于d1，首先使用通道级池化将本文档来自技高网...

【技术保护点】

1.一种基于混合注意力和动态融合的点云语义分割方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，步骤2具体实现方法为，首先使用K最邻近算法得到每个点的K个邻居点，然后分别建立中心点和邻居点之间的几何与语义关系，其中几何关系定义为：

3.根据权利要求2所述的方法，其特征在于，步骤3具体实现方法为，利用几何关系来学习注意力系数去加权增强的局部特征,得到几何聚合特征fig，即：

4.根据权利要求3所述的方法，其特征在于，步骤4的边缘动态融合模块具体为，首先通过一个邻域差异聚合模块聚合邻域信息，即：

5.根据权利要求4所述的方法，其特征在于，步骤5中的采用动态交叉注意力解码器去增强编解码特征的具体方法为，对于编码特征其中，R表示实数域，N为点的数目，D1，D2是特征维度；通常D2会大于D1，首先使用通道级池化将二者的特征维度进行对齐，即在Fd特征维度每个相邻的通道中选择出最大响应值，最终得到对齐的解码特征接下来为了得到交叉注意力系数，将编码特征Fe和对齐的解码特征Fa相加，然后分别通过两个线性层获得两个注意

...

【技术特征摘要】

1.一种基于混合注意力和动态融合的点云语义分割方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，步骤2具体实现方法为，首先使用k最邻近算法得到每个点的k个邻居点，然后分别建立中心点和邻居点之间的几何与语义关系，其中几何关系定义为：

3.根据权利要求2所述的方法，其特征在于，步骤3具体实现方法为，利用几何关系来学习注意力系数去加权增强的局部特征,得到几何聚合特征fig，即：

4.根据权利要求3所述的方法，其特征在于，步骤4的边缘动态融合模块具体为，首先通过一...

【专利技术属性】
技术研发人员：凌强，周策，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人