当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于注意力机制的视觉与激光雷达多模态数据融合方法技术

技术编号:29134606 阅读:198 留言:0更新日期:2021-07-02 22:30
本发明专利技术公开了一种基于注意力机制的视觉与激光雷达多模态数据融合方法,所述方法包括:同时采集自动驾驶车辆的激光雷达点云数据以及相机RGB图像;对激光雷达点云数据以及相机RGB图像进行预处理;通过球坐标变换将点云数据转换成距离图像;将距离图像和RGB图像输入预先建立和训练好的距离图像融合模型,输出最终的融合特征图;所述距离图像融合模型采用自注意机制对距离图像和RGB图像进行融合;将最终的融合特征图与带有坐标信息的距离图像连接到一起,通过空间坐标转换从二维图像还原到空间点云的表示形式。本发明专利技术的方法使用自注意机制有效地融合了多源信息,使两种数据优势互补,提高了3D目标检测算法的准确性。

【技术实现步骤摘要】
一种基于注意力机制的视觉与激光雷达多模态数据融合方法
本专利技术涉及自动驾驶
,提出一种基于注意力机制的视觉与激光雷达多模态数据融合方法。
技术介绍
近些年来,无人驾驶
发展迅速,在无人驾驶技术中感知技术是不可或缺的一环。无人驾驶车辆依赖激光雷达、相机、轮速里程计等传感器对环境进行感知,如车道线检测、3D目标检测都属于无人驾驶技术的基本功能。环境感知可以为汽车反馈道路信息,以便对车辆的驾驶行为提供更为精准的控制,从而提高驾驶的安全性和舒适性。作为自动驾驶(辅助驾驶)系统的基础功能之一,3D目标检测可以认为是环境感知中极为重要的一环,主要是检测场景中的车辆、行人等交通参与者。该功能为自动驾驶车辆后续的规划和控制提供空间障碍物的分布信息,关系到驾驶安全性问题,如果出现错误则有可能造成非常严重的后果。当前,国内外均对3D目标检测技术有了一定的研究,从硬件角度出发,针对3D目标检测任务的数据输入来源主要来自于相机和激光雷达这两类传感器。相机作为针孔模型的感光元器件,会提供类似于人眼直观感受的RGB图像信息;而激光雷达作为一种主动采集式的传感器,能够通过发射接收激光,得到场景中目标的真实空间坐标信息。从领域当前的研究现状来看,这两种传感器都广泛应用于3D目标检测。然而,这两种传感器都有着很明显的缺陷。对于相机来说,RGB图像作为一种稠密的2D表现方式,通过像素位置和像素数值来表达空间信息,压缩了Z轴的深度信息,这会导致3D目标检测任务中难以预测物体的空间绝对位置;另外,相机镜头还对光线的变化十分敏感,时常会出现过曝或者过暗的情形,在这种场景下采集到的数据难以辨识,缺失有效信息。而对于激光雷达来说,虽然可以得到目标精确的空间位置信息,但是激光雷达作为主动式传感器,只能接受由传感器发射的激光信号,无法接受物体通过可见光反射的信号,所以无法得到物体的颜色纹理等特征信息;再者,激光的波长十分短,这又导致激光雷达的数据对于特殊天气十分敏感,比如在雨雪天气下得到的激光雷达点云通常会出现很多噪点。综上所述,如果使用图像作为主要的输入信息,在光照变化等条件导致图像信息缺失的时候,检测系统将会出现严重的失灵,此外图像中缺乏空间距离信息也造成了检测的短板。激光雷达点云虽然可以克服光照变化的问题,但点云的稀疏性和无序性也限制了其检测能力。因此,针对单纯使用车载相机或激光雷达时检测能力不足的问题,一种新颖的思路是考虑结合更多的传感器,并进行数据融合以提高对环境感知的能力。但现阶段大量的实验表明,如果只是简单的对激光雷达获得的点云信息和相机获得的RGB图像做像素级融合,不仅不会对感知算法的精度提升,反而会起到负面作用,通常都会在一定程度上降低感知精度。
技术实现思路
本专利技术的目的在于克服上述技术缺陷,提出了一种基于注意力机制的视觉和激光雷达多模态数据融合方法,可以有效地通过RGB特征提升点云的信息量,该过程是一种点云特征增强的方式,使用增强后的点云做3D目标检测可以验证该方法的有效性。为实现上述目的,本专利技术的实施例1提出了一种基于注意力机制的视觉与激光雷达多模态数据融合方法,所述方法包括:同时采集自动驾驶车辆的激光雷达点云数据以及相机RGB图像;对激光雷达点云数据以及相机RGB图像进行预处理;通过球坐标变换将点云数据转换成距离图像;将距离图像和RGB图像输入预先建立和训练好的距离图像融合模型,输出最终的融合特征图;所述距离图像融合模型采用自注意机制对距离图像和RGB图像进行融合;将最终的融合特征图与带有坐标信息的距离图像连接到一起,通过空间坐标转换从二维图像还原到空间点云的表示形式。作为上述方法的一种改进,所述对激光雷达点云数据以及相机RGB图像进行预处理;具体包括:对激光雷达点云数据以及相机RGB图像进行标定和对齐;根据点云数据与RGB图像的对应信息,对对RGB图像进行裁剪,只保留图像下半部分三分之一的尺寸。作为上述方法的一种改进,所述通过球坐标变换将点云数据转换成距离图像;具体包括:将原始的激光雷达点云数据表示为[N,4]的矩阵,其中,N为一帧场景中的点云数量,每一个点的四维特征为[x,y,z,i],x、y、z表示空间坐标,i表示激光反射强度;将点云数据通过球坐标变换转换成距离图像,具体变换公式为:其中,u、v代表点云转换后在距离图像中的像素坐标;f是激光雷达的俯仰角,fdown为中心点向下的角度,f=fdown+fup,fup为中心点向上的角度;w和h分别表示转换后的距离图像的宽度和高度;r代表点距离激光雷达的中心的绝对距离:距离图像的每一个像素点对应空间中的一个点,包含了点云数据的5个特征:x、y、z、激光反射强度i和深度r。作为上述方法的一种改进,所述距离图像融合模型包括:encoder模块、第一注意力特征融合模块、第二注意力特征融合模块和decoder模块,其中,encoder模块和decoder模块是对称的;所述encoder模块包括:对距离图像进行处理的第一Range降采样子模块、对距离图像进行处理的第二Range降采样子模块、对RGB图像进行处理的RGB降采样子模块以及对融合图像进行处理的降采样子模块;其中,第一Range降采样子模块和第二Range降采样子模块均包含一层空洞卷积单元、一层批归一化单元以及一层激活函数单元;RGB降采样子模块包含一层卷积单元、一层批归一化单元以及一层激活函数单元;降采样子模块包含一层卷积单元、一层批归一化单元以及一层激活函数单元;所述第一注意力特征融合模块和第二注意力特征融合模块均包括:距离图特征提取单元、第一RGB图像特征提取单元、第二RGB图像特征提取单元、注意力图生成单元、融合向量生成单元以及融合特征图生成单元;距离图特征提取单元、第一RGB图像特征提取单元和第二RGB图像特征提取单元均由两层卷积层组成;所述距离图特征提取单元,用于提取距离图像的Range特征,输出至注意力图生成单元;所述第一RGB图像特征提取单元,用于提取RGB图像的RGB特征,输出至注意力图生成单元;所述注意力图生成单元,用于将Range特征矩阵转换为Range向量,将RGB特征矩阵转换为RGB向量,然后将Range向量和RGB向量进行叉乘得到注意力图,输出至融合向量生成单元;所述第二RGB图像特征提取单元,用于提取RGB图像的RGB特征,输入融合向量生成单元;所述融合向量生成单元,用于将RGB特征转换成向量,与注意力图进行叉乘得到融合向量,输出至融合特征图生成单元;所述融合特征图生成单元,用于将融合向量进行重新拼接,形成融合特征图;decoder模块,用于将融合特征图恢复到原始输入图像的尺寸,包括两个上采样子模块,每个上采样子模块都是由一层反卷积、一层批归一化以及一层激活层组成。作为上述方法的一种改进,所述方法还包括:利用数据集KITTI对距离图像融合模型进行训练的步骤。作为上本文档来自技高网
...

【技术保护点】
1.一种基于注意力机制的视觉与激光雷达多模态数据融合方法,所述方法包括:/n同时采集自动驾驶车辆的激光雷达点云数据以及相机RGB图像;/n对激光雷达点云数据以及相机RGB图像进行预处理;/n通过球坐标变换将点云数据转换成距离图像;/n将距离图像和RGB图像输入预先建立和训练好的距离图像融合模型,输出最终的融合特征图;所述距离图像融合模型采用自注意机制对距离图像和RGB图像进行融合;/n将最终的融合特征图与带有坐标信息的距离图像连接到一起,通过空间坐标转换从二维图像还原到空间点云的表示形式。/n

【技术特征摘要】
1.一种基于注意力机制的视觉与激光雷达多模态数据融合方法,所述方法包括:
同时采集自动驾驶车辆的激光雷达点云数据以及相机RGB图像;
对激光雷达点云数据以及相机RGB图像进行预处理;
通过球坐标变换将点云数据转换成距离图像;
将距离图像和RGB图像输入预先建立和训练好的距离图像融合模型,输出最终的融合特征图;所述距离图像融合模型采用自注意机制对距离图像和RGB图像进行融合;
将最终的融合特征图与带有坐标信息的距离图像连接到一起,通过空间坐标转换从二维图像还原到空间点云的表示形式。


2.根据权利要求1所述的基于注意力机制的视觉与激光雷达多模态数据融合方法,其特征在于,所述对激光雷达点云数据以及相机RGB图像进行预处理;具体包括:
对激光雷达点云数据以及相机RGB图像进行标定和对齐;
根据点云数据与RGB图像的对应信息,对对RGB图像进行裁剪,只保留图像下半部分三分之一的尺寸。


3.根据权利要求2所述的基于注意力机制的视觉与激光雷达多模态数据融合方法,其特征在于,所述通过球坐标变换将点云数据转换成距离图像;具体包括:
将原始的激光雷达点云数据表示为[N,4]的矩阵,其中,N为一帧场景中的点云数量,每一个点的四维特征为[x,y,z,i],x、y、z表示空间坐标,i表示激光反射强度;
将点云数据通过球坐标变换转换成距离图像,具体变换公式为:



其中,u、v代表点云转换后在距离图像中的像素坐标;f是激光雷达的俯仰角,fdown为中心点向下的角度,f=fdown+fup,fup为中心点向上的角度;w和h分别表示转换后的距离图像的宽度和高度;r代表点距离激光雷达的中心的绝对距离:



距离图像的每一个像素点对应空间中的一个点,包含了点云数据的5个特征:x、y、z、激光反射强度i和深度r。


4.根据权利要求3所述的基于注意力机制的视觉与激光雷达多模态数据融合方法,其特征在于,所述距离图像融合模型包括:encoder模块、第一注意力特征融合模块、第二注意力特征融合模块和decoder模块,其中,encoder模块和decoder模块是对称的;
所述encoder模块包括:对距离图像进行处理的第一Range降采样子模块、对距离图像进行处理的第二Range降采样子模块、对RGB图像进行处理的RGB降采样子模块以及对融合图像进行处理的降采样子模块;其中,第一Range降采样子模块和第二Range降采样子模块均包含一层空洞卷积单元、一层批归一化单元以及一层激活函数单元;RGB降采样子模块包含一层卷积单元、一层批归一化单元以及一层激活函数单元;降采样子模块包含一层卷积单元、一层批归一化单元以及一层激活函数单元;
所述第一注意力特征融合模块和第二注...

【专利技术属性】
技术研发人员:张新钰李骏王力兰天蔚李志伟卢一倩
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1