一种基于多模态大语言模型的驾驶场景理解方法技术

技术编号:44928702 阅读:24 留言:0更新日期:2025-04-08 19:09
本发明专利技术属于一种基于多模态大语言模型的驾驶场景理解方法,属于自动驾驶技术领域,本发明专利技术通过引入LoRA微调技术,对InternVL2‑26B模型进行了高效的指令微调,旨在提升自动驾驶系统在复杂和多变驾驶环境中的理解能力,尤其是在面对不同驾驶条件和多样化场景要素时的适应性和准确性。在对驾驶场景的广泛评估中,本发明专利技术展示了其在提高模型性能方面的显著潜力,有助于提升自动驾驶系统在复杂环境下的场景理解能力,对推动自动驾驶技术的发展具有重要意义。本发明专利技术通过微调多模态大语言模型来提高其在自动驾驶场景中的图像理解能力,从而能够输出驾驶场景理解任务的自然语言结果,解决现有技术在现实世界驾驶场景理解这一长尾问题上的局限性。

【技术实现步骤摘要】

本专利技术属于自动驾驶,具体涉及一种基于多模态大语言模型的驾驶场景理解方法


技术介绍

1、多模态大语言模型是一种结合深度学习、自然语言处理、计算机视觉和语音识别技术的先进人工智能模型,旨在综合处理和理解包括文本、图像、声音以及视频在内的多种模态的数据。模型的核心特点是利用深度神经网络,如transformer等对序列数据进行处理,并从大量多模态数据中学习到复杂的特征和模式。多模态大语言模型通过先进的自然语言处理技术提取文本数据的深层语义信息,并能够生成流畅、相关的文本内容。模型的一大创新之处在于其跨模态融合能力,即将不同模态的数据信息有效整合,实现数据之间的互补和增强,例如能够理解图像内容并生成描述性文本,或根据文本内容生成相应的图像。多模态大语言模型在大规模多模态数据集上进行预训练,掌握了广泛的知识和信息,进而可以通过微调的方式适应特定的应用场景和需求。总而言之,多模态大语言模型代表了近年来自然语言处理和人工智能领域的一个重大进步,其在理解和生成多模态数据方面的独特能力,不仅提升了各自模态内部的分析深度,而且实现了模态间信息的有机结合和互补,为相关领域本文档来自技高网...

【技术保护点】

1.一种基于多模态大语言模型的驾驶场景理解方法,其特征在于,其实现过程包括如下步骤:

【技术特征摘要】

1.一种基于多模态大语言模型的驾驶场景理解...

【专利技术属性】
技术研发人员:聂一鸣张烨肖良赵大伟刘帅商尔科李萌萌
申请(专利权)人:中国人民解放军军事科学院国防科技创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1