基于多模态语义对齐的智能体自适应决策方法及装置制造方法及图纸

技术编号:46212901 阅读:7 留言:0更新日期:2025-08-26 19:16
本申请公开了一种基于多模态语义对齐的智能体自适应决策方法及装置,方法包括:通过多模态传感器阵列采集语音信息、视觉信息和触觉信息进行时间戳同步,得到时间对齐的多模态数据;根据预设分层注意力机制,将多模态数据进行细粒度语义对齐,得到统一语义表示,预设分层注意力机制包括模态内注意力层与跨模态注意力层,模态内注意力层用于捕捉多模态数据的依赖关系并基于依赖关系提取各模态数据内部的关键特征,跨模态注意力层用于根据关键特征对各模态数据进行语义对齐和语义融合;根据统一语义表示和预先训练的生成对抗网络,生成决策结果。因此,采用本申请实施例,智能体在执行任务时不会出现误解或错误操作,从而提升了智能体决策的准确性。

【技术实现步骤摘要】

本申请涉及具身智能,特别涉及一种基于多模态语义对齐的智能体自适应决策方法及装置


技术介绍

1、在现代智能服务领域,具身智能体(如服务机器人、智能助手等)被广泛应用于家庭、商业场所、医疗护理等多种复杂环境。这些智能体需要与人类进行自然、高效的交互,同时根据实时环境信息做出准确的决策。

2、目前,具身智能体通常采用多模态交互技术来实现与环境和用户的交互。这些技术主要涉及语音识别、计算机视觉和触觉感知等模态的数据采集与处理,这些模态数据在采集后通常通过简单的融合方法(如加权平均或特征拼接)进行整合,以支持智能体的决策,也有使用多模态大模型例如lmms等。

3、然而,由于不同模态数据的特征空间和语义表达方式存在差异,特别是针对人机协作场景中的语义歧义、模态冲突多发的情况,导致智能体在执行任务时可能出现误解或错误操作,还未有更合适和准确的智能体决策方案。


技术实现思路

1、本申请实施例提供了一种基于多模态语义对齐的智能体自适应决策方法及装置。为了对披露的实施例的一些方面有一个基本的理解,下面给本文档来自技高网...

【技术保护点】

1.一种基于多模态语义对齐的智能体自适应决策方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述统一语义表示和预先训练的生成对抗网络,生成决策结果,包括:

3.根据权利要求1所述的方法,其特征在于,所述多模态数据包括视觉序列、语音序列以及触觉序列;

4.根据权利要求3所述的方法,其特征在于,所述上下文向量序列组包括视觉上下文向量序列、声学上下文向量序列以及触觉上下文向量序列;

5.根据权利要求1所述的方法,其特征在于,所述依赖关系包括上下文向量序列组,所述上下文向量序列组包括视觉上下文向量序列、声学上下文...

【技术特征摘要】

1.一种基于多模态语义对齐的智能体自适应决策方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述统一语义表示和预先训练的生成对抗网络,生成决策结果,包括:

3.根据权利要求1所述的方法,其特征在于,所述多模态数据包括视觉序列、语音序列以及触觉序列;

4.根据权利要求3所述的方法,其特征在于,所述上下文向量序列组包括视觉上下文向量序列、声学上下文向量序列以及触觉上下文向量序列;

5.根据权利要求1所述的方法,其特征在于,所述依赖关系包括上下文向量序列组,所述上下文向量序列组包括视觉上下文向量...

【专利技术属性】
技术研发人员:杨隐峰朱小芳何保山
申请(专利权)人:杭州泛嘉科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1