本发明专利技术涉及一种基于LiDAR(激光雷达)和图像融合的街道场景语义分割方法,包括:输入LiDAR点云和图像并进行预处理;将点云投影到图像中后,对图像进行上下文信息的融合得到融合信息;使用点云语义分割网络提取融合信息中的粗粒度特征;使用图像语义分割网络提取图像高维语义特征,计算偏移量得到对齐后的图像语义特征;将图像语义特征和粗粒度特征融合后得到融合语义特征,使用点云语义分割网络提取融合语义特征的细粒度的语义特征,得到语义分割结果;采用一种简单且有效的前融合策略来融合图像上下文信息和LiDAR点云信息这两种不同模态的信息,以此来生成语义类别特征;有效的增强所提取点云的特征的判别力,提升模型对场景分割的准确率。分割的准确率。分割的准确率。
【技术实现步骤摘要】
一种基于LiDAR和图像融合的街道场景语义分割方法
[0001]本专利技术涉及计算机视觉领域,尤其涉及一种基于LiDAR和图像融合的街道场景语义分割方法。
技术介绍
[0002]图像包含了丰富的色彩信息和纹理信息,但是存在尺度、遮挡等问题,相对图像而言,点云包含了三维的几何结构和深度信息,但是点云具有稀疏不一致的问题。
[0003]LiDAR点云和图像信息融合主要思想是利用LiDAR和相机两种传感器对环境感知的不同优势进行互补,提高模型对街道场景的感知理解能力。
[0004]以街道场景点云语义分割为例,随着自动驾驶的快速发展,3D场景感知受到了越来越多的关注,街道场景语义分割对自动驾驶汽车的环境感知和规划十分重要。目前,街道场景分割的方法可以分为三类:基于投影的方法,基于体素的方法和基于多视图融合的方法。Cortinhal等人利用球形投影机制将LiDAR点云投影成为伪图像,然后利用一个编码
‑
解码结构的网络来获得语义信息。Kochanov等人利用残差网络ResNetXt
‑
101和空洞空间金字塔池化(ASPP)构建了一个增强的网络结构,并利用KPConv作为分割头替换掉KNN后处理过程。Zhang等人利用极坐标的鸟瞰图投影替代了常规的基于2D网络的鸟瞰投影(BEV)。基于投影的方法不可避免的会损失和改变原有的几何拓扑结构,导致无法有效的对几何信息进行建模。基于体素的方法将LiDAR点云栅格化到一系列的体素网格中,并使用3D卷积来获得语义分割结果。Tang等人设计了一些策略来加速3D卷积的计算,以更少的计算量和内存消耗来提高性能。考虑到LiDAR点云的稀疏性和密度变化等固有特性,Zhou等人采用在柱坐标系下将LiDAR点云划分到不同的扇区,并设计了一种非对称残差块结构以进一步减少计算消耗。基于多视图融合的方法结合了基于体素和基于投影或基于点的操作对LiDAR点云进行分割。例如,Wang等人在开始时结合来自BEV的逐点的信息和伪图像信息,然后使用一个深度学习网络来提取特征。Cheng等人采用基于点和基于体素的融合策略实现了更好的分割性能。Xu等人通过门控融合机制融合了基于点、基于投影和基于体素的操作,进而构建了一个深度融合网络。由于LiDAR点云缺少丰富的颜色和纹理信息,这些方法的性能也受到了限制。
[0005]为了充分利用LiDAR点云和图像的优势信息进行互补,在基于LiDAR点云的3D目标检测任务中,一些研究者开始探索LiDAR和图像信息的融合方法。例如,Xie等人通过对3D点进行逐点卷积并应用特征聚合操作来融合图像和LiDAR点云的特征。Yoo等人采用一种跨视图空间特征融合策略来融合图像和LiDAR点云的特征,实现了更好的检测性能。Huang等人提出了一种激光雷达引导的图像融合模块来增强在不同尺度上与图像语义特征对应的LiDAR点云特征。Vora等人将LiDAR点云投影到图像上,并将图像特征附加到每个点上,然后使用一个LiDAR检测器实现目标检测。
[0006]综上,现有的LiDAR点云语义分割方法仅使用点云的信息来提取特征,而没有研究如何充分利用图像信息和LiDAR点云的优势进行互补,以进一步提高模型对街道场景的感
知能力。
技术实现思路
[0007]本专利技术针对现有技术中存在的技术问题,提供一种基于LiDAR和图像融合的街道场景语义分割方法,首先采用一种简单且有效的前融合策略来融合图像上下文信息和LiDAR点云信息这两种不同模态的信息,以此来生成街道场景语义类别特征。在此基础上,提出一个偏移矫正方法来解决相机和LiDAR之间的弱时空同步问题(表现为将点云投影到图像平面,属于某个物体的投影点可能会落到物体外),以更好的融合图像语义特征和LiDAR点云特征,从而有效的增强所提取点云的特征的判别力,进一步提升模型对街道场景分割的准确率。
[0008]根据本专利技术的第一方面,提供了一种基于LiDAR和图像融合的街道场景语义分割方法,包括:步骤1,输入LiDAR点云和图像并进行预处理;步骤2,将点云投影到图像中后,对所述图像进行上下文信息的融合得到融合信息;步骤3,使用点云语义分割网络提取所述融合信息中的粗粒度特征;使用图像语义分割网络提取图像高维语义特征,计算偏移量得到对齐后的图像语义特征;步骤4,将所述图像语义特征和所述粗粒度特征融合后得到融合语义特征,使用点云语义分割网络提取所述融合语义特征的细粒度的语义特征,得到语义分割结果。
[0009]在上述技术方案的基础上,本专利技术还可以作出如下改进。
[0010]可选的,所述步骤1中对输入的所述点云进行预处理的过程包括:将所述点云的XYZ坐标变换到柱坐标空间,计算在柱坐标系下所述点云的范围,确定该范围对应的最大值和最小值;根据设置的参数将各个所述点云划分到一系列的圆柱分区中。
[0011]可选的,所述步骤2包括:步骤201,根据点云的原始坐标、位姿变换矩阵、相机内参矩阵,将点云投影到图像平面,生成投影索引;其中,,R表示实数,表示LiDAR点云中点的数量;步骤202,将落在图像平面外的点过滤掉,对投影索引更新后保存到内存中;步骤203,根据更新后的投影索引坐标,在图像平面上,以投影点为中心,以大小为w
×
w的窗口进行上下文信息采样,并将所述窗口中每个像素位置的RGB颜色值作为特征聚合到一起得到图像上下文信息;将所述图像上下文信息附加到原始点云的特征后面根据点云体素划分的索引对特征进行处理。
[0012]可选的,所述步骤202中更新后的所述投影索引为:;其中,;H
×
W为图像的大小。
[0013]可选的,所述步骤203中得到所述图像上下文信息的过程为:;;其中,sample()表示用于采样的函数,reshape()表示将指定的矩阵变换成特定维数矩阵的函数,I表示图像,N
i
表示过滤后的点云的点的数量。
[0014]可选的,所述步骤3中所述点云语义分割网络为UNet结构网络;所述图像语义分割网络为DeepLab。
[0015]可选的,所述步骤3中基于所述图像高维语义特征,计算偏移量得到对齐后的图像语义特征的过程为:使用所述投影索引Idx将所述粗粒度的语义特征投影到图像平面,得到和所述图像高维语义特征具有相同形状的伪图像特征;将所述粗粒度的语义特征和所述伪图像特征融合后得到融合后的特征;将融合后的特征输入到一个两层的深度卷积网络中进行偏移学习得到所述偏移量Offset;基于所述偏移量Offset更新所述投影索引Idx并进行反向投影;根据更新后的所述投影索引Idx的位置将对应的所述图像高维语义特征提取出来得到对齐后的图像语义特征。
[0016]可选的,所述步骤4中得到所述融合语义特征的过程包括:将所述图像语义特征附加在所述粗粒度的语义特征后面,和粗粒度的语义特征相融合得到融合语义特征相融合得到融合语义特征相融合得到融合语义特征。
[0017]可选的,所述步骤4中使用一个基于LiDAR语义分割的结构的本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于LiDAR和图像融合的街道场景语义分割方法,其特征在于,所述语义分割方法包括:步骤1,输入LiDAR点云和图像并进行预处理;步骤2,将点云投影到图像中后,对所述图像进行上下文信息的融合得到融合信息;步骤3,使用点云语义分割网络提取所述融合信息中的粗粒度特征;使用图像语义分割网络提取图像高维语义特征,计算偏移量得到对齐后的图像语义特征;步骤4,将所述图像语义特征和所述粗粒度特征融合后得到融合语义特征,使用点云语义分割网络提取所述融合语义特征的细粒度的语义特征,得到语义分割结果。2.根据权利要求1所述的语义分割方法,其特征在于,所述步骤1中对输入的所述点云进行预处理的过程包括:将所述点云的XYZ坐标变换到柱坐标空间,计算在柱坐标系下所述点云的范围,确定该范围对应的最大值和最小值;根据设置的参数将各个所述点云划分到一系列的圆柱分区中。3.根据权利要求1所述的语义分割方法,其特征在于,所述步骤2包括:步骤201,根据点云的原始坐标、位姿变换矩阵、相机内参矩阵,将点云投影到图像平面,生成投影索引;其中,,R表示实数,表示LiDAR点云中点的数量;步骤202,将落在图像平面外的点过滤掉,对投影索引更新后保存到内存中;步骤203,根据更新后的投影索引坐标,在图像平面上,以投影点为中心,以大小为w
×
w的窗口进行上下文信息采样,并将所述窗口中每个像素位置的RGB颜色值作为特征聚合到一起得到图像上下文信息;将所述图像上下文信息附加到原始点云的特征后面根据点云体素划分的索引对特征进行处理。4.根据权利要求3所述的语义分割方法,其特征在于,所述步骤202中更新后的所述投影索引为:;其中,;H
×
W为图像的大小。5...
【专利技术属性】
技术研发人员:陶文兵,赵蔺,刘李漫,
申请(专利权)人:武汉图科智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。