一种基于多模态大模型的意图理解交互方法技术

技术编号：44969432 阅读：27 留言：0更新日期：2025-04-12 01:42

本发明专利技术公开了一种基于多模态大模型的意图理解交互方法，包括：明确当前交互场景下的用户完成目标所需的细粒度任务；进行细粒度任务分类和多模态相关子任务分解；收集细粒度任务的训练数据以及多模态任务和相关子任务的数据集；通过所述训练数据和数据集训练多模态大模型；利用训练完成的多模态大模型进行交互控制，处理用户输入。本发明专利技术特别适用于需要复杂人机交互的场景，如智能助手和虚拟助理等领域，能够显著提升系统对环境变化的感知和对用户需求的响应能力，减少对多模态任务数据集收集依赖，为人机交互技术的发展提供了重要参考和支持。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工智能(ai)与人机交互(hci)，特别涉及一种基于多模态大模型的意图理解交互方法，旨在通过处理多种数据模态(如文本、图像、语音等)实现对用户复杂指令的精准识别与反馈。

技术介绍

1、随着人工智能技术的快速发展，多模态大模型的研究和应用逐渐成为智能交互系统中的关键技术。多模态任务的核心在于通过整合多种模态的信息源，如文本、图像、语音等，提升系统对用户意图的理解能力。这种方式能够更加准确地识别用户意图，进而提升人机交互的质量和效率。然而，尽管多模态大模型具备强大的潜力，当前的技术发展仍面临着复杂性和成本均较高的挑战。

2、首先，多模态任务的复杂性使得模型理解用户意图的难度显著增加。与传统的单模态任务相比，多模态任务需要处理来自多个模态的不同类型数据，这使得用户的意图识别变得更加复杂，可能需要多个简单的任务步骤才能实现用户的目标。而如何针对用户的输入意图通过有效的任务拆分和规划从而精确完成用户目标是多模态任务的一大挑战。

3、其次，多模态任务的数据收集难度大、成本高也是其推广应用的另一阻碍。要实现高质...

【技术保护点】

1.一种基于多模态大模型的意图理解交互方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于多模态大模型的意图理解交互方法，其特征在于，所述根据所述细粒度任务的类型进行分类包括：将需要多种模态信息的细粒度任务分为多模态理解交互任务，将仅需单一模态信息能够解决的细粒度任务分为单模态任务，将需要根据具体应用场景进行问答的细粒度任务分为专属应用领域问答任务，所述专属应用领域问答任务需要利用RAG技术读取相关文档后进行回答。

3.根据权利要求1所述的基于多模态大模型的意图理解交互方法，其特征在于，所述收集所述细粒度任务的训练数据包括：

<...

【技术特征摘要】

1.一种基于多模态大模型的意图理解交互方法，其特征在于，包括以下步骤：

3.根据权利要求1所述的基于...

【专利技术属性】
技术研发人员：曹斌，盛晓杰，陈孙来，李甜甜，范菁，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人