【技术实现步骤摘要】
本申请涉及具身智能,特别涉及一种基于多模态语义对齐的智能体自适应决策方法及装置。
技术介绍
1、在现代智能服务领域,具身智能体(如服务机器人、智能助手等)被广泛应用于家庭、商业场所、医疗护理等多种复杂环境。这些智能体需要与人类进行自然、高效的交互,同时根据实时环境信息做出准确的决策。
2、目前,具身智能体通常采用多模态交互技术来实现与环境和用户的交互。这些技术主要涉及语音识别、计算机视觉和触觉感知等模态的数据采集与处理,这些模态数据在采集后通常通过简单的融合方法(如加权平均或特征拼接)进行整合,以支持智能体的决策,也有使用多模态大模型例如lmms等。
3、然而,由于不同模态数据的特征空间和语义表达方式存在差异,特别是针对人机协作场景中的语义歧义、模态冲突多发的情况,导致智能体在执行任务时可能出现误解或错误操作,还未有更合适和准确的智能体决策方案。
技术实现思路
1、本申请实施例提供了一种基于多模态语义对齐的智能体自适应决策方法及装置。为了对披露的实施例的一些方面有一
...【技术保护点】
1.一种基于多模态语义对齐的智能体自适应决策方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述统一语义表示和预先训练的生成对抗网络,生成决策结果,包括:
3.根据权利要求1所述的方法,其特征在于,所述多模态数据包括视觉序列、语音序列以及触觉序列;
4.根据权利要求3所述的方法,其特征在于,所述上下文向量序列组包括视觉上下文向量序列、声学上下文向量序列以及触觉上下文向量序列;
5.根据权利要求1所述的方法,其特征在于,所述依赖关系包括上下文向量序列组,所述上下文向量序列组包括视觉上下文
...【技术特征摘要】
1.一种基于多模态语义对齐的智能体自适应决策方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述统一语义表示和预先训练的生成对抗网络,生成决策结果,包括:
3.根据权利要求1所述的方法,其特征在于,所述多模态数据包括视觉序列、语音序列以及触觉序列;
4.根据权利要求3所述的方法,其特征在于,所述上下文向量序列组包括视觉上下文向量序列、声学上下文向量序列以及触觉上下文向量序列;
5.根据权利要求1所述的方法,其特征在于,所述依赖关系包括上下文向量序列组,所述上下文向量序列组包括视觉上下文向量...
【专利技术属性】
技术研发人员:杨隐峰,朱小芳,何保山,
申请(专利权)人:杭州泛嘉科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。