【技术实现步骤摘要】
本申请涉及意图识别,尤其涉及一种基于多模态模型的意图识别方法、装置、设备及存储介质。
技术介绍
1、当将自然语言命令融入机器人控制策略的理念应用于人机协作时,人类用户可能需要在长期任务的每一步与机器人进行对话。这种情况在人与人之间的协作中很少发生,因为人类能够依靠他们对任务的共享知识来跟踪合作伙伴的进度。这种差异源于人类之间的默契和共同经验的积累,使得他们可以在不频繁沟通的情况下高效合作。然而,机器人目前缺乏这种共同知识和默契,必须通过频繁的自然语言交流来确保任务的正确执行和进度跟踪。这反映了当前机器人在理解和预测人类意图方面的局限性,需要进一步提升机器人在复杂任务中的自主性和智能化水平,以减少对人类频繁指令的依赖,从而实现更加流畅和高效的人机协作。
技术实现思路
1、本申请提供一种基于多模态模型的意图识别方法、装置、设备及存储介质。以解决上述
技术介绍
提出的问题。
2、第一方面,本申请提供一种基于多模态模型的意图识别方法,包括:
3、获取文本指令信息和目标视频;
...【技术保护点】
1.一种基于多模态模型的意图识别方法,其特征在于,包括:
2.根据权利要求1所述的基于多模态模型的意图识别方法,其特征在于,所述获取文本指令信息和目标视频,包括:
3.根据权利要求1所述的基于多模态模型的意图识别方法,其特征在于,所述将所述视频帧序列输入预设的视觉特征提取模型,得到视觉特征信息,包括:
4.根据权利要求1所述的基于多模态模型的意图识别方法,其特征在于,所述多模态模型的训练方法,包括:
5.根据权利要求4所述的基于多模态模型的意图识别方法,其特征在于,所述基于所述多个任务的训练数据对所述专家混合模型进行多任
...【技术特征摘要】
1.一种基于多模态模型的意图识别方法,其特征在于,包括:
2.根据权利要求1所述的基于多模态模型的意图识别方法,其特征在于,所述获取文本指令信息和目标视频,包括:
3.根据权利要求1所述的基于多模态模型的意图识别方法,其特征在于,所述将所述视频帧序列输入预设的视觉特征提取模型,得到视觉特征信息,包括:
4.根据权利要求1所述的基于多模态模型的意图识别方法,其特征在于,所述多模态模型的训练方法,包括:
5.根据权利要求4所述的基于多模态模型的意图识别方法,其特征在于,所述基于所述多个任务的训练数据对所述专家混合模型进行多任务训练,得到所述多模态模型,包括:
6.根据权利要求5所述的基于多模态模型的意图识别方法,其特征在于,所述获取...
【专利技术属性】
技术研发人员:柳荣强,唐诗,崔伊然,邓煜平,邓翔,孙腾,
申请(专利权)人:深圳若愚科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。