基于多模态语义对齐的智能体自适应决策方法及装置制造方法及图纸

技术编号：46212901 阅读：7 留言：0更新日期：2025-08-26 19:16

本申请公开了一种基于多模态语义对齐的智能体自适应决策方法及装置，方法包括：通过多模态传感器阵列采集语音信息、视觉信息和触觉信息进行时间戳同步，得到时间对齐的多模态数据；根据预设分层注意力机制，将多模态数据进行细粒度语义对齐，得到统一语义表示，预设分层注意力机制包括模态内注意力层与跨模态注意力层，模态内注意力层用于捕捉多模态数据的依赖关系并基于依赖关系提取各模态数据内部的关键特征，跨模态注意力层用于根据关键特征对各模态数据进行语义对齐和语义融合；根据统一语义表示和预先训练的生成对抗网络，生成决策结果。因此，采用本申请实施例，智能体在执行任务时不会出现误解或错误操作，从而提升了智能体决策的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及具身智能，特别涉及一种基于多模态语义对齐的智能体自适应决策方法及装置。

技术介绍

1、在现代智能服务领域，具身智能体（如服务机器人、智能助手等）被广泛应用于家庭、商业场所、医疗护理等多种复杂环境。这些智能体需要与人类进行自然、高效的交互，同时根据实时环境信息做出准确的决策。

2、目前，具身智能体通常采用多模态交互技术来实现与环境和用户的交互。这些技术主要涉及语音识别、计算机视觉和触觉感知等模态的数据采集与处理，这些模态数据在采集后通常通过简单的融合方法（如加权平均或特征拼接）进行整合，以支持智能体的决策，也有使用多模态大模型例如lmms等。

3、然而，由于不同模态数据的特征空间和语义表达方式存在差异，特别是针对人机协作场景中的语义歧义、模态冲突多发的情况，导致智能体在执行任务时可能出现误解或错误操作，还未有更合适和准确的智能体决策方案。

技术实现思路

1、本申请实施例提供了一种基于多模态语义对齐的智能体自适应决策方法及装置。为了对披露的实施例的一些方面有一...

【技术保护点】

1.一种基于多模态语义对齐的智能体自适应决策方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述统一语义表示和预先训练的生成对抗网络，生成决策结果，包括：

3.根据权利要求1所述的方法，其特征在于，所述多模态数据包括视觉序列、语音序列以及触觉序列；

4.根据权利要求3所述的方法，其特征在于，所述上下文向量序列组包括视觉上下文向量序列、声学上下文向量序列以及触觉上下文向量序列；

5.根据权利要求1所述的方法，其特征在于，所述依赖关系包括上下文向量序列组，所述上下文向量序列组包括视觉上下文向量序列、声学上下文...

【技术特征摘要】

1.一种基于多模态语义对齐的智能体自适应决策方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述统一语义表示和预先训练的生成对抗网络，生成决策结果，包括：

3.根据权利要求1所述的方法，其特征在于，所述多模态数据包括视觉序列、语音序列以及触觉序列；

4.根据权利要求3所述的方法，其特征在于，所述上下文向量序列组包括视觉上下文向量序列、声学上下文向量序列以及触觉上下文向量序列；

5.根据权利要求1所述的方法，其特征在于，所述依赖关系包括上下文向量序列组，所述上下文向量序列组包括视觉上下文向量...

【专利技术属性】
技术研发人员：杨隐峰，朱小芳，何保山，
申请(专利权)人：杭州泛嘉科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人