【技术实现步骤摘要】
本申请涉及目标检测,特别是涉及使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法及装置。
技术介绍
1、自动驾驶汽车需要对周围环境有敏锐的感知,以促进路线规划和行为决策。目前提出的基于深度学习的物体检测模型,如yolo(you only look once)系列的模型,能够通过处理来自摄像头的视频片段来识别周围物体,从而有效地检测道路上的常见物体。
2、虽然目标检测模型在确定目标的训练数据集的检测方面取得了优异的性能,但是,车辆在现实道路上不可避免地会遇到复杂而罕见的场景,例如路面损坏造成的深坑,或者由于特殊事件而临时竖立的交通引导标志。这些罕见的物体或场景被称为边缘案例,虽然不常见,但当它们发生时,会对交通安全产生重大影响。
3、由于边缘案例的训练数据的稀缺性,若目标检测模型在零次或少次学习边缘案例的情况下,使目标检测模型的有效性和鲁棒性面临重大挑战,导致检测的准确率下降。
技术实现思路
1、本申请提供一种使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法
...【技术保护点】
1.一种使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法,其特征在于,所述方法包括:
2.根据权利要求1所述的使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法,其特征在于,将所述第一边缘案例图像和所述第一问题提示文本输入多模态大语言模型,得到所述第一问题提示文本对应的答案文本,包括:
3.根据权利要求2所述的使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法,其特征在于,将所述第一边缘案例图像和所述第一问题提示文本输入多模态大语言模型,得到标记有目标的位置框和名称的第一边缘案例图像,包括:
4.根据权利要求1所述的使
...【技术特征摘要】
1.一种使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法,其特征在于,所述方法包括:
2.根据权利要求1所述的使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法,其特征在于,将所述第一边缘案例图像和所述第一问题提示文本输入多模态大语言模型,得到所述第一问题提示文本对应的答案文本,包括:
3.根据权利要求2所述的使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法,其特征在于,将所述第一边缘案例图像和所述第一问题提示文本输入多模态大语言模型,得到标记有目标的位置框和名称的第一边缘案例图像,包括:
4.根据权利要求1所述的使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法,其特征在于,构建边缘案例图像文本对数据集,包括:
5.根据权利要求1所述的使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法,其特征在于,所述多模态大语言模型是通过文本损失和位置损失对所述多模态大语言模型中的模态对齐层、预训练的大语言模型以及边界框解码器进行微调得到的,所述文本损失是通过所述第一问题提示文本对应的答案文本和所述第一边缘案例图像的文本描述计算得到的,所述位置损失是通过...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。