一种基于级联特征交互的点云图像深度补全方法技术

技术编号:36081444 阅读:13 留言:0更新日期:2022-12-24 10:55
本发明专利技术公开了一种基于级联特征交互的点云图像深度补全方法,属于自动驾驶领域,包括:获取自动驾驶场景三维点云和场景二维RGB图像,根据多个残差模块构建编码器,根据多个上采样模块构建解码器,分别构建点云和图像的神经网络,在点云和图像的神经网络之间,构建多个级联特征交互模块,构建特征交互的点云和图像双分支神经网络模型,在特征交互的点云和图像双分支神经网络模型输入场景三维点云和场景二维RGB维图像,输出场景稠密深度图,通过使用置信度图加权的方式融合两个分支输出的场景深度图,得到可信度更高的深度图。该方法相比于其他的基于图像和点云融合的模型,在以图像和低线束激光雷达点云为输入的情况下具有更好的深度感知性能。更好的深度感知性能。更好的深度感知性能。

【技术实现步骤摘要】
一种基于级联特征交互的点云图像深度补全方法


[0001]本专利技术涉及自动驾驶
,更具体的涉及一种基于级联特征交互的点云图像深度补全方法。

技术介绍

[0002]深度感知是自动驾驶系统中十分基础且重要的感知技术,它的目的是获取周围场景的精确且稠密的深度信息,基于获得的稠密深度信息,自动驾驶的许多高层感知任务如语义分割、目标检测、三维场景重建等都能获得很大程度上的性能提升。现阶段自动驾驶主要依赖相机和激光雷达两种传感器进行深度感知,相机和激光雷达两种传感器各有优缺点,相机传感器收集的图像数据能获取场景的丰富纹理和色彩信息,但受光照条件影响较大,激光雷达传感器收集的点云数据能获得场景的精确深度信息且不受光照影响,但点云数据十分稀疏,无法提供足够的有效信息。
[0003]现有技术中存在基于纯图像的深度感知方案和基于图像和激光雷达点云的的深度感知方案。
[0004]在基于纯图像的深度感知方案中主要有单目深度估计的深度感知方案,单目深度估计,顾名思义,就是利用一张或者唯一视角下的RGB图像,估计图像中每个像素相对拍摄源的距离。基于监督学习的单目深度估计方法直接以二维图像作为输入,以深度图为输出,使用ground truth深度图作为监督信息,训练深度模型;此外,由于深度标签数据获取难度较高,目前有很多算法基于无监督模型,即仅仅使用两个摄像机采集的双目图像数据进行联合训练。其中双目数据可彼此预测对方,从而获取相应的视差数据,再根据视差与深度的关系进行演化,亦或是将双目图像中各个像素点的对应问题看作是立体匹配问题进行训练。
[0005]在基于图像和激光雷达点云的的深度感知方案中,考虑到相机和激光雷达两种传感器各有优缺点,目前自动驾驶感知系统通常基于多传感器感知融合的方案,通过融合图像和点云两种传感器数据,实现两种传感器数据的优势互补,从而达到提升深度感知能力的目的。按照融合阶段,现有异构多传感器融合感知方案可以划分为前期融合、中期融合和后期融合三种融合方式,其中前期融合又叫数据层融合,是在原始数据层面进行两种感知数据的融合,其主要思路是利用相机和激光雷达的坐标转换关系,将三维点云投影到二维图像平面,再通过通道拼接或者直接相加等方式进行融合,这种融合方案存在的问题主要体现在难以实现两种异构传感器数据在空间上的对齐,导致融合粒度较粗,融合效果不佳;后期融合又叫结果层融合,其主要思路是针对两种传感器数据分别执行感知任务,然后将两种传感器数据各自的感知结果进行融合,这种方案实现起来很简单,但其缺点也很明显,没有实现充分实现两种模态数据间的信息交互和优势互补,融合效果也提升有限,并且有时融合结果甚至会比单一感知模态情况下的感知结果更差。中期融合又叫特征层融合,通过分别对两种感知数据提取特征,然后对提取到的特征进行融合,优势是可以针对单一感知模态数据设计网络充分提取特征,但也存在缺点,同样无法有效实现两种感知数据的充
分交互。
[0006]目前基于纯图像的深度估计方法可以划分为传统方法、基于机器学习的方法和基于深度学习的方法。传统方法基于双目或者多目图像,采用立体匹配技术,利用三角测量法将两幅图像之间的视差信息转为深度信息,从图像中估计场景深度信息,这种方法缺点在于在弱纹理区域和重复纹理区域匹配困难、计算量大、对光照敏感、应用范围有限。基于机器学习的单目图像深度估计,使用马尔科夫随机场(Markov Random Field,MRF)对深度关系构建概率图模型,通过最小化能量函数实现图像深度估计,这种方法的缺点是算法精度低且耗时长、人为假设多、处理过程繁琐,很难估计出正确的场景深度信息,无法应用于实际场景。基于深度学习的方法也是目前用的比较多的方法,通过输入RGB图像,训练模型学习图像到深度图的映射关系。这种方法的缺点是模型性能严重依赖数据质量,因此在关照条件不佳的场合比如夜间、隧道等环境下模型性能会严重下降。
[0007]基于图像和激光雷达点云融合的方案是现阶段自动驾驶深度感知的主流方案,克服了基于纯图像方案的缺点。当前点云图像融合深度感知技术中,基于前融合的方案虽然能够最大程度上保留数据的原始信息,但现有技术实现难以实现细粒度的异构感知数据空间对齐和融合,往往导致融合效果不佳;基于后融合的方案在决策层面融合两种传感器数据的感知结果,实现起来简单,但由于两种传感器各有局限,两种模态间缺乏交互,无法实现两种模态间的优势互补,因此融合效果不佳,并且有时会因为两种传感器的感知结果相悖导致感知效果更差。目前使用比较多的融合方案是基于特征层的多模态融合感知,这种方式的优点是无需考虑数据的空间对齐,但当前的各类基于特征层融合的技术实现在融合粒度上依然不够精细,往往将其中一种模态作为另一种模态的辅助补充信息或者仅通过简单相加等方式进行融合,导致两种模态间的交互不足,融合不够充分。

技术实现思路

[0008]本专利技术为了解决上述方案存在的深度感知精度不足、异构感知数据融合效果不佳的问题,实现点云和图像两种传感器数据的细粒度融合和充分交互,提出了一种双分支异构感知数据级联交互网络,在多个尺度上对两种模态的对应特征进行融合,并将融合后的特征输入到各自模态对应的分支网络中,提高了了两个分支网路的信息丰富程度和深度感知能力,此外,引入辅助任务的思想,通过引入一个图像重构任务,引导模型学习图像中的场景结构信息,使输出深度图结构信息更加完整。最后通过置信度图,将两个分支网络的输出深度图中的高可信度深度值作为最终模型输出,得到融合感知结果。
[0009]本专利技术实施例提供一种基于级联特征交互的点云图像深度补全方法,包括:
[0010]获取自动驾驶场景三维点云和场景二维RGB图像;
[0011]根据多个Resnet34的残差模块构建对场景三维点云和场景二维RGB图像进行特征提取的两个编码器;
[0012]根据多个上采样模块构建对场景三维点云和场景二维RGB图像进行特征还原的两个解码器;
[0013]将场景三维点云提取和还原分支的编码器与解码器连接,构建场景三维点云分支神经网络;
[0014]将场景二维RGB图像提取和还原分支的编码器与解码器连接,构建场景二维RGB图
像分支神经网络;
[0015]将场景三维点云分支神经网络和场景二维RGB图像分支神经网络中两个编码器的残差模块的各层级相互对应设置;
[0016]构建多个级联特征交互模块,每个级联特征交互模块的输入与两个编码器的残差模块的对应层级输出连接,每个级联特征交互模块的输出与两个编码器的下一对应层级连接,构建特征交互的点云和图像双分支神经网络模型;
[0017]在特征交互的点云和图像双分支神经网络模型输入场景三维点云和场景二RGB维图像,输出场景深度图;
[0018]通过使用置信度图加权的方式融合场景深度图,得到新的场景深度图。
[0019]优选地,对场景三维点云和场景二维RGB图像进行特征提取的两个编码器均包括五个级联的残差模块,对场景三维点云和场景二维RGB图像进行特征还原的两个解码器均包括本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于级联特征交互的点云图像深度补全方法,其特征在于,包括:获取自动驾驶场景三维点云和场景二维RGB图像;根据多个级联的Resnet34的残差模块,构建对场景三维点云和场景二维RGB图像进行特征提取的两个编码器;根据多个级联的上采样模块,构建对场景三维点云和场景二维RGB图像进行特征还原的两个解码器;将场景三维点云提取和还原分支的编码器的输出与解码器的输入连接,构建场景三维点云分支神经网络;将场景二维RGB图像提取和还原分支的编码器的输出与解码器的输入连接,构建场景二维RGB图像分支神经网络;将场景三维点云分支神经网络和场景二维RGB图像分支神经网络中两个编码器的残差模块的各层级一一对应设置;根据一个1x1卷积、三个空洞率分别为1、2、4的空洞卷积、和一个1x1卷积按顺序搭建一个特征交互模块、并级联,获得多个级联特征交互模块,每个级联特征交互模块的输入与两个编码器的残差模块的对应层级输出连接,每个级联特征交互模块的输出与两个编码器的下一对应层级连接,构建特征交互的点云和图像双分支神经网络模型;在特征交互的点云和图像双分支神经网络模型输入场景三维点云和场景二RGB维图像,输出两幅场景深度图;通过使用置信度图加权的方式融合两幅场景深度图,得到新的一幅场景深度图。2.如权利要求1所述的一种基于级联特征交互的点云图像深度补全方法,所述对场景三维点云和场景二维RGB图像进行特征提取的两个编码器均包括五个级联的残差模块,对场景三维点云和场景二维RGB图像进行特征还原的两个解码器均包括五个级联的上采样模块,在对场景三维点云进行特征提取的编码器中,残差模块的卷积神经网络采用稀疏卷积神经网络,卷积核为3x3;在对场景二维RGB图像进行特征提取的编码器中,残差模块的卷积神经网络采用标准的卷积神经网络,卷积核为3x3。3.如权利要求1所述的一种基于级联特征交互的点云图像深度补全方法,其特征在于,所述三维点云分支神经网络和场景二维RGB图像分支神经网络均包括多个不同的卷积层、池化层、激活层、转置卷积层和跨尺度特征连接层。4.如权利要求1所述的一种基于级...

【专利技术属性】
技术研发人员:梁韵基陈能真刘磊於志文
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1