基于多模态模型的意图识别方法、装置、设备及存储介质制造方法及图纸

技术编号:43301455 阅读:32 留言:0更新日期:2024-11-12 16:17
本申请涉及意图识别技术领域,提供了基于多模态模型的意图识别方法、装置、设备及存储介质。该方法包括:获取文本指令信息和目标视频;将所述文本指令信息输入预设的文本特征提取模型,得到文本指令特征信息;对所述目标视频进行分帧处理,得到所述目标视频对应的视频帧序列;将所述视频帧序列输入预设的视觉特征提取模型,得到视觉特征信息;将所述文本指令特征信息与所述视觉特征信息进行融合,得到融合特征信息,并将所述融合特征信息输入预设的多模态模型,得到用户意图文本。将该方法应用于机器人时,能够使机器人在复杂任务中,减少对人类频繁指令的依赖,从而实现更加流畅和高效的人机协作。

【技术实现步骤摘要】

本申请涉及意图识别,尤其涉及一种基于多模态模型的意图识别方法、装置、设备及存储介质


技术介绍

1、当将自然语言命令融入机器人控制策略的理念应用于人机协作时,人类用户可能需要在长期任务的每一步与机器人进行对话。这种情况在人与人之间的协作中很少发生,因为人类能够依靠他们对任务的共享知识来跟踪合作伙伴的进度。这种差异源于人类之间的默契和共同经验的积累,使得他们可以在不频繁沟通的情况下高效合作。然而,机器人目前缺乏这种共同知识和默契,必须通过频繁的自然语言交流来确保任务的正确执行和进度跟踪。这反映了当前机器人在理解和预测人类意图方面的局限性,需要进一步提升机器人在复杂任务中的自主性和智能化水平,以减少对人类频繁指令的依赖,从而实现更加流畅和高效的人机协作。


技术实现思路

1、本申请提供一种基于多模态模型的意图识别方法、装置、设备及存储介质。以解决上述
技术介绍
提出的问题。

2、第一方面,本申请提供一种基于多模态模型的意图识别方法,包括:

3、获取文本指令信息和目标视频;p>

4、将所述本文档来自技高网...

【技术保护点】

1.一种基于多模态模型的意图识别方法,其特征在于,包括:

2.根据权利要求1所述的基于多模态模型的意图识别方法,其特征在于,所述获取文本指令信息和目标视频,包括:

3.根据权利要求1所述的基于多模态模型的意图识别方法,其特征在于,所述将所述视频帧序列输入预设的视觉特征提取模型,得到视觉特征信息,包括:

4.根据权利要求1所述的基于多模态模型的意图识别方法,其特征在于,所述多模态模型的训练方法,包括:

5.根据权利要求4所述的基于多模态模型的意图识别方法,其特征在于,所述基于所述多个任务的训练数据对所述专家混合模型进行多任务训练,得到所述多模...

【技术特征摘要】

1.一种基于多模态模型的意图识别方法,其特征在于,包括:

2.根据权利要求1所述的基于多模态模型的意图识别方法,其特征在于,所述获取文本指令信息和目标视频,包括:

3.根据权利要求1所述的基于多模态模型的意图识别方法,其特征在于,所述将所述视频帧序列输入预设的视觉特征提取模型,得到视觉特征信息,包括:

4.根据权利要求1所述的基于多模态模型的意图识别方法,其特征在于,所述多模态模型的训练方法,包括:

5.根据权利要求4所述的基于多模态模型的意图识别方法,其特征在于,所述基于所述多个任务的训练数据对所述专家混合模型进行多任务训练,得到所述多模态模型,包括:

6.根据权利要求5所述的基于多模态模型的意图识别方法,其特征在于,所述获取...

【专利技术属性】
技术研发人员:柳荣强唐诗崔伊然邓煜平邓翔孙腾
申请(专利权)人:深圳若愚科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1