一种基于相机和激光融合的三维语义分割方法技术

技术编号：41135469 阅读：5 留言：0更新日期：2024-04-30 18:06

本发明专利技术公开了一种基于相机和激光融合的三维语义分割方法，包括以下步骤：将相机图像与激光点云数据分别输入相机模块与激光模块提取图像与激光点云数据特征，得到相机图像特征图与激光点云数据特征图，输入融合模块进行特征融合，得到融合后的相机图像特征和激光点云数据特征，并分别输入相机模块与激光模块，得到相机图像特征图和激光点云数据特征图，然后输入监督模块计算损失函数，更新三维语义分割网络的参数权重，得到训练好的三维语义分割网络；获取相机图像和激光点云数据，输入训练好的三维语义分割网络，得到激光点云数据与相机图像的语义分割结果；该方法有效结合图像的纹理信息与激光的距离信息，提高了语义分割的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自动驾驶与语义分割，具体涉及一种基于相机和激光融合的三维语义分割方法。

技术介绍

1、在自动驾驶领域，语义分割对于场景理解是非常重要的。语义分割任务是为每一个相机像素、激光点云输入分配一个对应的语义标签。目前主要存在两类方法，基于相机和基于激光雷达的方法。

2、相机图像包含三个通道的色彩数据，因此具有更丰富外观信息，例如颜色、纹理。但是相机作为被动式传感器，容易受到照明条件、天气的影响，另外由于相机是2d传感器缺乏深度信息，通常情况下很难得到周围环境的准确距离信息。激光雷达属于主动式传感器，通过向外部发射激光并接收反射激光算出准确距离，在不同光照条件下性能几乎不受影响。但是，由于点云稀疏、分布不规则、缺乏纹理，因此在小物体、远距离、结构相似的场景下分割效果较差。

3、目前基于相机图像和激光点云融合方案结合了基于相机和基于激光雷达两种方法的优点，通过考虑图像的纹理和激光的距离，达到三维语义分割的目的。但是，该方法存在激光雷达分割缺乏纹理特征和图像分割缺乏距离的问题。

技术实现思路

1、针对现有技术中的上述不足，本专利技术提供了一种基于相机和激光融合的三维语义分割方法。

2、为了达到上述专利技术目的，本专利技术采用的技术方案为：

3、一种基于相机和激光融合的三维语义分割方法，包括以下步骤：

4、s1、将相机图像输入三维语义分割网络的相机模块提取图像特征，得到原始大小的相机图像特征图；

5、s2、将激光

6、s3、将步骤s1中相机图像特征图与步骤s2中激光点云数据特征图输入三维语义分割网络的融合模块进行特征融合，得到融合后的相机图像特征和激光点云数据特征；

7、s4、将步骤s3中得到的融合后的图像特征与激光点云数据特征分别输入相机模块与激光模块，得到相机图像特征图和激光点云数据特征图；

8、s5、将步骤s4中得到的相机图像特征图和激光点云数据特征图输入三维语义分割网络的监督模块，采用自监督模式或有监督模式计算损失函数；

9、s6、根据步骤s5中计算的损失函数，计算三维语义分割网络的相机模块、激光模块、融合模块以及监督模块的梯度，并采用梯度下降法更新三维语义分割网络的参数权重，得到训练好的三维语义分割网络；

10、s7、获取相机图像和激光点云数据，输入步骤s6中训练好的三维语义分割网络，得到激光点云数据与相机图像的语义分割结果。

11、进一步地，相机模块与激光模块由编码器和解码器构成，其中，编码器中的特征图尺寸逐层减小，解码器中的特征图尺寸逐层增加，并在图像尺寸相同的编码器层和解码器层之间加入跳跃连接结构。

12、进一步地，步骤s1具体包括：

13、s11、获取相机采集的相机图像，将相机图像输入编码器中，采用卷积神经网络提取相机图像的局部特征，得到相机图像特征图；

14、s12、根据步骤s11中得到的相机图像特征图，利用池化层逐层降低相机图像特征图的尺寸；

15、s13、将降低尺寸的相机图像特征图输入解码器中，采用卷积神经网络和双线性上采样方法逐层恢复相机图像特征图的尺寸，得到原始大小的相机图像特征图。

16、进一步地，步骤s2具体包括：

17、s21、获取激光雷达采集的激光点云数据，将激光点云数据进行相机平面的投影，得到二维激光点云数据；

18、s22、将步骤s21中得到的二维激光点云数据输入编码器中，采用卷积神经网络提取二维激光点云数据的局部特征，得到激光点云数据特征图；

19、s23、根据步骤s22中得到的激光点云数据特征图，利用池化层逐层降低激光点云数据特征图的尺寸；

20、s24、将降低尺寸的激光点云数据特征图输入解码器中，利用卷积神经网络和双线性上采样方法逐层恢复激光点云数据特征图的尺寸，得到原始大小的激光点云数据特征图。

21、进一步地，将激光点云数据进行相机平面的投影的计算公式为：

22、[x′i，y′i，z′i]t＝k×tr×[xi，yi，zi，1]t

23、

24、ml[ui][vi]＝1

25、其中，x′i、y′i、z′i分别表示第i个激光点云数据在相机坐标系下的位置，t表示转置，k表示相机的内参，tr表示激光到相机的转移矩阵，xi、yi、zi表示第i个激光点云数据在x、y与z轴上的位置，ui、vi分别表示第i个激光点云在相机平面的垂直和水平方向上的索引，ml表示激光雷达掩码。

26、进一步地，融合模块由拼接模块、卷积层、滑动窗口注意力模块构成，其中，滑动窗口注意力模块由第一滑动窗口注意力层和第二滑动窗口注意力层构成，第一滑动窗口注意力层由层标准化模块、w-msa模块以及多层感知器模块构成，第二滑动窗口注意力层由层标准化模块、sw-msa模块以及多层感知器模块构成。

27、进一步地，步骤s3具体包括：

28、s31、将步骤s1中相机图像特征图与步骤s2中激光点云数据特征图输入融合模块的拼接模块，得到相机与激光雷达的拼接特征；

29、s32、将步骤s31中得到的相机与激光雷达的拼接特征输入卷积层，得到相机与激光雷达的融合特征；

30、s33、将步骤s32中得到的相机与激光雷达的融合特征输入滑动窗口注意力模块，得到相机与激光雷达的融合注意力特征；

31、s34、将步骤s33中得到的相机与激光雷达的融合注意力特征与步骤s32中得到的相机与激光雷达的融合特征按比例融入步骤s1中图像特征图和步骤s2中激光点云数据特征图中，得到融合后的相机图像特征和激光点云数据特征。

32、进一步地，步骤s34中融合后的图像特征与激光点云数据特征的计算公式为：

33、cfusion＝corigin+a1×selfattension×fusionfeature

34、lfusion＝lorigin+a2×selfattension×fusionfeature

35、其中，cfusion表示融合后的相机图像特征，corigin表示原始大小的相机图像特征，a1、a2分别表示融合比例因子，selfattension表示相机与激光雷达的融合注意力特征，fusionfeature表示相机与激光雷达的融合特征，lfusion表示融合后的激光点云数据特征，lorigin表示原始大小的激光点云数据特征。

36、进一步地，将步骤s4中得到的相机图像特征图和激光点云数据特征图输入监督模块，采用自监督模式计算损失函数的具体过程为：

37、监督模块通过加入置信度的pidnet网络产生伪标签，同时保留高置信度像素与激光点云数据，通过设置相机掩膜和激光雷达掩膜，得到自监督模式的损失函数，即：

38、ls本文档来自技高网...

【技术保护点】

1.一种基于相机和激光融合的三维语义分割方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于相机和激光融合的三维语义分割方法，其特征在于，相机模块与激光模块由编码器和解码器构成，其中，编码器中的特征图尺寸逐层减小，解码器中的特征图尺寸逐层增加，并在图像尺寸相同的编码器层和解码器层之间加入跳跃连接结构。

3.根据权利要求2所述的一种基于相机和激光融合的三维语义分割方法，其特征在于，步骤S1具体包括：

4.根据权利要求2所述的一种基于相机和激光融合的三维语义分割方法，其特征在于，步骤S2具体包括：

5.根据权利要求4所述的一种基于相机和激光融合的三维语义分割方法，其特征在于，将激光点云数据进行相机平面的投影的计算公式为：

6.根据权利要求1所述的一种基于相机和激光融合的三维语义分割方法，其特征在于，融合模块由拼接模块、卷积层、滑动窗口注意力模块构成，其中，滑动窗口注意力模块由第一滑动窗口注意力层和第二滑动窗口注意力层构成，第一滑动窗口注意力层由层标准化模块、W-MSA模块以及多层感知器模块构成，第二滑动窗口注意

7.根据权利要求6所述的一种基于相机和激光融合的三维语义分割方法，其特征在于，步骤S3具体包括：

8.根据权利要求7所述的一种基于相机和激光融合的三维语义分割方法，其特征在于，步骤S34中融合后的图像特征与激光点云数据特征的计算公式为：

9.根据权利要求1所述的一种基于相机和激光融合的三维语义分割方法，其特征在于，将步骤S4中得到的相机图像特征图和激光点云数据特征图输入监督模块，采用自监督模式计算损失函数的具体过程为：

10.根据权利要求1所述的一种基于相机和激光融合的三维语义分割方法，其特征在于，将步骤S4中得到的相机图像特征图和激光点云数据特征图输入监督模块，采用有监督模式计算损失函数的具体过程为：

...

【技术特征摘要】

1.一种基于相机和激光融合的三维语义分割方法，其特征在于，包括以下步骤：

3.根据权利要求2所述的一种基于相机和激光融合的三维语义分割方法，其特征在于，步骤s1具体包括：

4.根据权利要求2所述的一种基于相机和激光融合的三维语义分割方法，其特征在于，步骤s2具体包括：

5.根据权利要求4所述的一种基于相机和激光融合的三维语义分割方法，其特征在于，将激光点云数据进行相机平面的投影的计算公式为：

6.根据权利要求1所述的一种基于相机和激光融合的三维语义分割方法，其特征在于，融合模块由拼接模块、卷积层、滑动窗口注意力模块构成，其中，滑动窗口注意力模块由第...

【专利技术属性】
技术研发人员：肖卓凌，王天越，胡信为，向禹骄，张新辰，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人