【技术实现步骤摘要】
本专利技术属于人工智能(ai)与人机交互(hci),特别涉及一种基于多模态大模型的意图理解交互方法,旨在通过处理多种数据模态(如文本、图像、语音等)实现对用户复杂指令的精准识别与反馈。
技术介绍
1、随着人工智能技术的快速发展,多模态大模型的研究和应用逐渐成为智能交互系统中的关键技术。多模态任务的核心在于通过整合多种模态的信息源,如文本、图像、语音等,提升系统对用户意图的理解能力。这种方式能够更加准确地识别用户意图,进而提升人机交互的质量和效率。然而,尽管多模态大模型具备强大的潜力,当前的技术发展仍面临着复杂性和成本均较高的挑战。
2、首先,多模态任务的复杂性使得模型理解用户意图的难度显著增加。与传统的单模态任务相比,多模态任务需要处理来自多个模态的不同类型数据,这使得用户的意图识别变得更加复杂,可能需要多个简单的任务步骤才能实现用户的目标。而如何针对用户的输入意图通过有效的任务拆分和规划从而精确完成用户目标是多模态任务的一大挑战。
3、其次,多模态任务的数据收集难度大、成本高也是其推广应用的另一阻碍。要实现高质
...【技术保护点】
1.一种基于多模态大模型的意图理解交互方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于多模态大模型的意图理解交互方法,其特征在于,所述根据所述细粒度任务的类型进行分类包括:将需要多种模态信息的细粒度任务分为多模态理解交互任务,将仅需单一模态信息能够解决的细粒度任务分为单模态任务,将需要根据具体应用场景进行问答的细粒度任务分为专属应用领域问答任务,所述专属应用领域问答任务需要利用RAG技术读取相关文档后进行回答。
3.根据权利要求1所述的基于多模态大模型的意图理解交互方法,其特征在于,所述收集所述细粒度任务的训练数据包括:
< ...【技术特征摘要】
1.一种基于多模态大模型的意图理解交互方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于多模态大模型的意图理解交互方法,其特征在于,所述根据所述细粒度任务的类型进行分类包括:将需要多种模态信息的细粒度任务分为多模态理解交互任务,将仅需单一模态信息能够解决的细粒度任务分为单模态任务,将需要根据具体应用场景进行问答的细粒度任务分为专属应用领域问答任务,所述专属应用领域问答任务需要利用rag技术读取相关文档后进行回答。
3.根据权利要求1所述的基于...
【专利技术属性】
技术研发人员:曹斌,盛晓杰,陈孙来,李甜甜,范菁,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。