当前位置: 首页 > 专利查询>清华大学专利>正文

使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法及装置制造方法及图纸

技术编号:43398110 阅读:51 留言:0更新日期:2024-11-19 18:15
本申请提供一种使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法及装置,涉及目标检测技术领域,构建边缘案例图像文本对数据集,基于第一边缘案例图像的文本描述构建第一问题提示文本,将第一边缘案例图像和第一问题提示文本输入多模态大语言模型,得到标记目标位置和名称的图像和答案文本,基于第一边缘案例图像和边缘案例图像对应的文本描述和多模态大语言模型的输出结果,对多模态大语言模型进行微调,得到训练完毕的多模态大语言模型,将待检测图像输入训练完毕的多模态大语言模型,得到目标检测结果。通过构建的边缘案例图像文本对数据集对多模态大语言模型进行微调,在目标检测中显著提高其检测准确率。

【技术实现步骤摘要】

本申请涉及目标检测,特别是涉及使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法及装置


技术介绍

1、自动驾驶汽车需要对周围环境有敏锐的感知,以促进路线规划和行为决策。目前提出的基于深度学习的物体检测模型,如yolo(you only look once)系列的模型,能够通过处理来自摄像头的视频片段来识别周围物体,从而有效地检测道路上的常见物体。

2、虽然目标检测模型在确定目标的训练数据集的检测方面取得了优异的性能,但是,车辆在现实道路上不可避免地会遇到复杂而罕见的场景,例如路面损坏造成的深坑,或者由于特殊事件而临时竖立的交通引导标志。这些罕见的物体或场景被称为边缘案例,虽然不常见,但当它们发生时,会对交通安全产生重大影响。

3、由于边缘案例的训练数据的稀缺性,若目标检测模型在零次或少次学习边缘案例的情况下,使目标检测模型的有效性和鲁棒性面临重大挑战,导致检测的准确率下降。


技术实现思路

1、本申请提供一种使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法及装置,以解决上述问本文档来自技高网...

【技术保护点】

1.一种使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法,其特征在于,所述方法包括:

2.根据权利要求1所述的使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法,其特征在于,将所述第一边缘案例图像和所述第一问题提示文本输入多模态大语言模型,得到所述第一问题提示文本对应的答案文本,包括:

3.根据权利要求2所述的使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法,其特征在于,将所述第一边缘案例图像和所述第一问题提示文本输入多模态大语言模型,得到标记有目标的位置框和名称的第一边缘案例图像,包括:

4.根据权利要求1所述的使用多模态大语言模型针...

【技术特征摘要】

1.一种使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法,其特征在于,所述方法包括:

2.根据权利要求1所述的使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法,其特征在于,将所述第一边缘案例图像和所述第一问题提示文本输入多模态大语言模型,得到所述第一问题提示文本对应的答案文本,包括:

3.根据权利要求2所述的使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法,其特征在于,将所述第一边缘案例图像和所述第一问题提示文本输入多模态大语言模型,得到标记有目标的位置框和名称的第一边缘案例图像,包括:

4.根据权利要求1所述的使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法,其特征在于,构建边缘案例图像文本对数据集,包括:

5.根据权利要求1所述的使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法,其特征在于,所述多模态大语言模型是通过文本损失和位置损失对所述多模态大语言模型中的模态对齐层、预训练的大语言模型以及边界框解码器进行微调得到的,所述文本损失是通过所述第一问题提示文本对应的答案文本和所述第一边缘案例图像的文本描述计算得到的,所述位置损失是通过...

【专利技术属性】
技术研发人员:陶晓明刘天启秦艳君
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1