一种基于扩散模型的自动驾驶多模态感知方法及系统技术方案

技术编号：40598603 阅读：6 留言：0更新日期：2024-03-12 22:02

本发明专利技术涉及一种基于扩散模型的自动驾驶多模态感知方法及系统，其包括：获取环境信息的2D图像特征，并生成一组与2D图像特征相同的随机噪声；将随机噪声作为输入信号输入扩散模型，利用扩散模型的逆扩散过程，将随机噪声进行逐步的逆扩散得到图像深度信息；将图像深度信息与2D图像特征相结合得到完整的3D特征，对3D特征的高度方向进行压缩，以得到图像模态的鸟瞰图视角特征，同时获取点云雷达模态的鸟瞰图视角特征；将图像模态的鸟瞰图视角特征与点云雷达模态的鸟瞰图视角特征进行融合，得到完整的鸟瞰图特征，以通过地图分割任务头实现地图分割任务。本发明专利技术可以有效提升多模态感知能力，可以在计算机视觉领域中广泛应用。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种计算机视觉，特别是关于一种基于扩散模型的自动驾驶多模态感知方法及系统。

技术介绍

1、深度估计是计算机视觉领域的一个重要任务，它的目标是确定图像中每个像素到场景中物体的距离或深度信息。深度估计在许多应用中都具有关键作用，包括自动驾驶、三维重建、虚拟现实、增强现实和机器人导航等领域。

2、自动驾驶多模态感知是一种先进的技术，它通过整合多种传感器，如摄像头、激光雷达、雷达等，来获取丰富的环境信息，从而使自动驾驶系统能够更全面地感知和理解周围道路和交通状况，提高驾驶决策的准确性和安全性，以实现自主驾驶汽车的可靠运行。这些传感器相互补充，帮助车辆构建精确的环境地图，检测障碍物、行人和其他车辆，以及实时适应不同的驾驶场景和条件；但是目前的鸟瞰图视角感知工作不够精确。

技术实现思路

1、针对上述问题，本专利技术的目的是提供一种基于扩散模型的自动驾驶多模态感知方法及系统，可以有效提升多模态感知能力。

2、为实现上述目的，本专利技术采取以下技术方案：一种基于扩散模型的自动驾驶多模态感知方法，其包括：获取环境信息的2d图像特征，并生成一组与2d图像特征相同的随机噪声；将随机噪声作为输入信号输入扩散模型，利用扩散模型的逆扩散过程，将随机噪声进行逐步的逆扩散得到图像深度信息；将图像深度信息与2d图像特征相结合得到完整的3d特征，对3d特征的高度方向进行压缩，以得到图像模态的鸟瞰图视角特征，同时获取点云雷达模态的鸟瞰图视角特征；将图像模态的鸟瞰图视角特征与点云雷达

3、进一步，获取环境信息的2d图像特征，包括：

4、通过图像采集设备获取环境图像；

5、将环境图像输入通过预训练得到编码器和多尺度特征提取模块，提取得到包含丰富语义信息和多尺度空间信息的2d图像特征。

6、进一步，在扩散模型的逆扩散过程中，将点云雷达的深度信息作为控制条件，以约束扩散过程。

7、进一步，将随机噪声进行逐步的逆扩散得到图像深度信息，包括：

8、对3d点云数据进行逆增广以还原初始状态的点云数据，将3d点云坐标转换投射到图像坐标系，得到图像坐标系下的点云雷达坐标；

9、提取点云雷达坐标z轴方向的信息作为深度信息。

10、进一步，获取点云雷达模态的鸟瞰图视角特征，包括：

11、对点云雷达模态，通过稀疏编码器提取点云特征，点云特征包括点云雷达完整的几何和语义信息；

12、将点云特征与2d图像特征相融合，将融合后的图像沿高度方向压缩，以得到点云雷达模态的鸟瞰图视角特征。

13、进一步，将2d图像特征与点云特征相融合，包括：

14、通过编码器对深度信息进行特征提取，得到多尺度深度特征；

15、多尺度深度特征利用自注意力与每一步的随机噪声特征进行计算，以将图像特征与点云雷达特征进行融合。

16、进一步，对深度信息进行特征提取，包括：

17、通过设定深度损失函数，以约束深度分布的拟合，并将深度信息作为标签，去约束深度特征的拟合；

18、深度损失函数为：depth loss＝crossentropy(dpredict，d)，其中，crossentropy表示交叉熵损失，dpredict表示预测深度和d表示真实深度。

19、一种基于扩散模型的自动驾驶多模态感知系统，其包括：第一处理模块，获取环境信息的2d图像特征，并生成一组与2d图像特征相同的随机噪声；第二处理模块，将随机噪声作为输入信号输入扩散模型，利用扩散模型的逆扩散过程，将随机噪声进行逐步的逆扩散得到图像深度信息；第三处理模块，将图像深度信息与2d图像特征相结合得到完整的3d特征，对3d特征的高度方向进行压缩，以得到图像模态的鸟瞰图视角特征，同时获取点云雷达模态的鸟瞰图视角特征；第四理模块，将图像模态的鸟瞰图视角特征与点云雷达模态的鸟瞰图视角特征进行融合，得到完整的鸟瞰图特征，以通过地图分割任务头实现地图分割任务。

20、一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行上述方法中的任一方法。

21、一种计算设备，其包括：一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行上述方法中的任一方法的指令。

22、本专利技术由于采取以上技术方案，其具有以下优点：

23、1、对于直线分割的情况，本专利技术体现了更好的表现效果，本专利技术可以通过生成更精确的深度分布，更好的解决透视视角畸变的问题。

24、2、相比于其他方法，本专利技术采用更有效的多模态融合方式，即利用扩散模型去融合点云和图像特征，有效提升多模态感知能力。

本文档来自技高网...

【技术保护点】

1.一种基于扩散模型的自动驾驶多模态感知方法，其特征在于，包括：

2.如权利要求1所述基于扩散模型的自动驾驶多模态感知方法，其特征在于，获取环境信息的2D图像特征，包括：

3.如权利要求1所述基于扩散模型的自动驾驶多模态感知方法，其特征在于，在扩散模型的逆扩散过程中，将点云雷达的深度信息作为控制条件，以约束扩散过程。

4.如权利要求1所述基于扩散模型的自动驾驶多模态感知方法，其特征在于，将随机噪声进行逐步的逆扩散得到图像深度信息，包括：

5.如权利要求1所述基于扩散模型的自动驾驶多模态感知方法，其特征在于，获取点云雷达模态的鸟瞰图视角特征，包括：

6.如权利要求5所述基于扩散模型的自动驾驶多模态感知方法，其特征在于，将2D图像特征与点云特征相融合，包括：

7.如权利要求6所述基于扩散模型的自动驾驶多模态感知方法，其特征在于，对深度信息进行特征提取，包括：

8.一种基于扩散模型的自动驾驶多模态感知系统，其特征在于，包括：

9.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一

10.一种计算设备，其特征在于，包括：一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行如权利要求1至7所述方法中的任一方法的指令。

...

【技术特征摘要】

1.一种基于扩散模型的自动驾驶多模态感知方法，其特征在于，包括：

2.如权利要求1所述基于扩散模型的自动驾驶多模态感知方法，其特征在于，获取环境信息的2d图像特征，包括：

4.如权利要求1所述基于扩散模型的自动驾驶多模态感知方法，其特征在于，将随机噪声进行逐步的逆扩散得到图像深度信息，包括：

5.如权利要求1所述基于扩散模型的自动驾驶多模态感知方法，其特征在于，获取点云雷达模态的鸟瞰图视角特征，包括：

6.如权利要求5所述基于扩散模型的自动驾驶多模态感知方法，...

【专利技术属性】
技术研发人员：吕科，宁童，薛健，
申请(专利权)人：中国科学院大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人