基于大语言模型的自动驾驶多模态感知决策方法及装置制造方法及图纸

技术编号:41533768 阅读:23 留言:0更新日期:2024-06-03 23:11
本申请提供基于大语言模型的自动驾驶多模态感知决策方法及装置,感知决策方法包括:获取当前时刻的目标区域的RGB图像和红外图像;利用目标检测模型对RGB图像进行处理,得到目标框以及对应的目标检测类别;利用分割模型对红外图像和目标框以及对应的目标检测类别进行处理得到目标掩码图像;利用融合模型对RGB图像、目标掩码图像和红外图像进行融合得到融合特征图;利用大视觉语言模型对表征用户意图的第一prompt信息、表征目标检测类别优先级的第二prompt信息以及融合特征图进行融合处理得到文本信息;利用自然语言大模型对文本信息进行处理得到感知决策结果。本申请提高了交通参与者在自动驾驶车辆感知决策的优先级,提升了自动驾驶车辆的安全性。

【技术实现步骤摘要】

本申请涉及自动驾驶,尤其是涉及基于大语言模型的自动驾驶多模态感知决策方法及装置


技术介绍

1、自动驾驶的发展离不开安全问题,如何准确感知到行驶过程中障碍物,与其保持合适安全距离和做出正确安全的决策一直是自动驾驶领域的重要议题。

2、在道路场景中,感知到影响决策的目标是多种多样的,路况也有极高的不确定性,如何给多种多样的目标分配不同的“注意力”是技术难点。例如一个儿童突然出现在路上,车辆躲避儿童的优先级肯定要比其他非真人障碍的优先级高。

3、针对上述问题,还未提出有效的解决方案。


技术实现思路

1、有鉴于此,本申请提供了基于大语言模型的自动驾驶多模态感知决策方法及装置,以解决上述技术问题。

2、第一方面,本申请实施例提供一种基于大语言模型的自动驾驶多模态感知决策方法,包括:

3、获取当前时刻的目标区域的rgb图像和红外图像;

4、利用目标检测模型对所述rgb图像进行处理,得到目标框以及对应的目标检测类别;

5、利用分割模型对红外图像和目标本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的自动驾驶多模态感知决策方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述分割模型包括图像编码器,提示编码器和掩码解码器;

3.根据权利要求1所述的方法,其特征在于,所述融合模型包括:第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第七卷积层和加法单元;

4.根据权利要求1所述的方法,其特征在于,目标检测类别优先级为:交通参与者、道路标志和交通信号和道路障碍物。

5.根据权利要求4所述的方法,其特征在于,所述文本信息的内容包括按照目标检测类别优先级进行排序的图像文本描述。<...

【技术特征摘要】

1.一种基于大语言模型的自动驾驶多模态感知决策方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述分割模型包括图像编码器,提示编码器和掩码解码器;

3.根据权利要求1所述的方法,其特征在于,所述融合模型包括:第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第七卷积层和加法单元;

4.根据权利要求1所述的方法,其特征在于,目标检测类别优先级为:交通参与者、道路标志和交通信号和道路障碍物。

5.根据权利要求4所述的方法,其特征在于,所述文本信息的内容包括按照目标检测类别优先级进行排序的图像文本描述。

6.根据权利...

【专利技术属性】
技术研发人员:李志伟李伟婷姜延欢王坤峰沈甜雨王力谭启凡李辉谢晓明
申请(专利权)人:北京化工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1