一种基于注意力机制的视觉与激光雷达多模态数据融合方法技术

技术编号：29134606 阅读：198 留言：0更新日期：2021-07-02 22:30

本发明专利技术公开了一种基于注意力机制的视觉与激光雷达多模态数据融合方法，所述方法包括：同时采集自动驾驶车辆的激光雷达点云数据以及相机RGB图像；对激光雷达点云数据以及相机RGB图像进行预处理；通过球坐标变换将点云数据转换成距离图像；将距离图像和RGB图像输入预先建立和训练好的距离图像融合模型，输出最终的融合特征图；所述距离图像融合模型采用自注意机制对距离图像和RGB图像进行融合；将最终的融合特征图与带有坐标信息的距离图像连接到一起，通过空间坐标转换从二维图像还原到空间点云的表示形式。本发明专利技术的方法使用自注意机制有效地融合了多源信息，使两种数据优势互补，提高了3D目标检测算法的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于注意力机制的视觉与激光雷达多模态数据融合方法
本专利技术涉及自动驾驶
，提出一种基于注意力机制的视觉与激光雷达多模态数据融合方法。
技术介绍
近些年来，无人驾驶
发展迅速，在无人驾驶技术中感知技术是不可或缺的一环。无人驾驶车辆依赖激光雷达、相机、轮速里程计等传感器对环境进行感知，如车道线检测、3D目标检测都属于无人驾驶技术的基本功能。环境感知可以为汽车反馈道路信息，以便对车辆的驾驶行为提供更为精准的控制，从而提高驾驶的安全性和舒适性。作为自动驾驶(辅助驾驶)系统的基础功能之一，3D目标检测可以认为是环境感知中极为重要的一环，主要是检测场景中的车辆、行人等交通参与者。该功能为自动驾驶车辆后续的规划和控制提供空间障碍物的分布信息，关系到驾驶安全性问题，如果出现错误则有可能造成非常严重的后果。当前，国内外均对3D目标检测技术有了一定的研究，从硬件角度出发，针对3D目标检测任务的数据输入来源主要来自于相机和激光雷达这两类传感器。相机作为针孔模型的感光元器件，会提供类似于人眼直观感受的RGB图像信息；而激光雷达作为一种主动采集式的传感器，能够通过发射接收激光，得到场景中目标的真实空间坐标信息。从领域当前的研究现状来看，这两种传感器都广泛应用于3D目标检测。然而，这两种传感器都有着很明显的缺陷。对于相机来说，RGB图像作为一种稠密的2D表现方式，通过像素位置和像素数值来表达空间信息，压缩了Z轴的深度信息，这会导致3D目标检测任务中难以预测物体的空间绝对位置；另外，相机镜头还对光线的变化...

【技术保护点】
1.一种基于注意力机制的视觉与激光雷达多模态数据融合方法，所述方法包括：/n同时采集自动驾驶车辆的激光雷达点云数据以及相机RGB图像；/n对激光雷达点云数据以及相机RGB图像进行预处理；/n通过球坐标变换将点云数据转换成距离图像；/n将距离图像和RGB图像输入预先建立和训练好的距离图像融合模型，输出最终的融合特征图；所述距离图像融合模型采用自注意机制对距离图像和RGB图像进行融合；/n将最终的融合特征图与带有坐标信息的距离图像连接到一起，通过空间坐标转换从二维图像还原到空间点云的表示形式。/n

【技术特征摘要】
1.一种基于注意力机制的视觉与激光雷达多模态数据融合方法，所述方法包括：
同时采集自动驾驶车辆的激光雷达点云数据以及相机RGB图像；
对激光雷达点云数据以及相机RGB图像进行预处理；
通过球坐标变换将点云数据转换成距离图像；
将距离图像和RGB图像输入预先建立和训练好的距离图像融合模型，输出最终的融合特征图；所述距离图像融合模型采用自注意机制对距离图像和RGB图像进行融合；
将最终的融合特征图与带有坐标信息的距离图像连接到一起，通过空间坐标转换从二维图像还原到空间点云的表示形式。

2.根据权利要求1所述的基于注意力机制的视觉与激光雷达多模态数据融合方法，其特征在于，所述对激光雷达点云数据以及相机RGB图像进行预处理；具体包括：
对激光雷达点云数据以及相机RGB图像进行标定和对齐；
根据点云数据与RGB图像的对应信息，对对RGB图像进行裁剪，只保留图像下半部分三分之一的尺寸。

3.根据权利要求2所述的基于注意力机制的视觉与激光雷达多模态数据融合方法，其特征在于，所述通过球坐标变换将点云数据转换成距离图像；具体包括：
将原始的激光雷达点云数据表示为[N，4]的矩阵，其中，N为一帧场景中的点云数量，每一个点的四维特征为[x,y,z,i]，x、y、z表示空间坐标，i表示激光反射强度；
将点云数据通过球坐标变换转换成距离图像，具体变换公式为：

其中，u、v代表点云转换后在距离图像中的像素坐标；f是激光雷达的俯仰角，fdown为中心点向下的角度，f＝fdown+fup，fup为中心点向上的角度；w和h分别表示转换后的距离图像的宽度和高度；r代表点距离激光雷达的中心的绝对距离：

距离图像的每一个像素点对应空间中的一个点，包含了点云数据的5个特征：x、y、z、激光反射强度i和深度r。

4.根据权利要求3所述的基于注意力机制的视觉与激光雷达多模态数据融合方法，其特征在于，所述距离图像融合模型包括：encoder模块、第一注意力特征融合模块、第二注意力特征融合模块和decoder模块，其中，encoder模块和decoder模块是对称的；
所述encoder模块包括：对距离图像进行处理的第一Range降采样子模块、对距离图像进行处理的第二Range降采样子模块、对RGB图像进行处理的RGB降采样子模块以及对融合图像进行处理的降采样子模块；其中，第一Range降采样子模块和第二Range降采样子模块均包含一层空洞卷积单元、一层批归一化单元以及一层激活函数单元；RGB降采样子模块包含一层卷积单元、一层批归一化单元以及一层激活函数单元；降采样子模块包含一层卷积单元、一层批归一化单元以及一层激活函数单元；
所述第一注意力特征融合模块和第二注...

【专利技术属性】
技术研发人员：张新钰，李骏，王力，兰天蔚，李志伟，卢一倩，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人