以控制为中心的自监督学习的双阶段通用智能体训练方法技术

技术编号：40419637 阅读：17 留言：0更新日期：2024-02-20 22:38

本发明专利技术公开了一种以控制为中心的自监督学习的双阶段通用智能体训练方法，属于人工智能感知决策技术领域，包括以下步骤：步骤1、设计多模态的决策基础模型，包括编码器和控制解码器；步骤2、收集跨领域跨模态跨具身的多任务数据集；步骤3、使用以控制为中心的自监督损失函数通过自监督学习训练多模态的决策基础模型；步骤4、通过多模态指令对齐的模仿学习来训练多模态的决策基础模型；步骤5、将训练完成的多模态的决策基础模型部署到平台中进行测试使用。本发明专利技术提供了一种以控制为中心的自监督学习的双阶段通用智能体训练方法，具有卓越的适应性，能够适应跨领域、跨场景和跨具身的广泛决策任务。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工智能感知决策，尤其是涉及一种以控制为中心的自监督学习的双阶段通用智能体训练方法。

技术介绍

1、目前，大量研究已经证明使用深度强化学习模型对单一任务进行优化可以取得优秀的结果，但是这些模型并没有在不同类别任务之间迁移的能力，特定模型只能在特定任务中使用。即使在强化学习中从少量数据中学习策略非常重要，但是当任务变得复杂，每项任务都需要人工提供的大规模数据集和长时间的训练，此时强化学习的优势就难以实现。这是由于直接与环境交互风险高，且学习效率较低。因此，通过预训练一个通用智能体适用于多种环境和多种任务，可以显著提升模型学习效率并降低构建此类数据集和模型的负担。scott reed等提出了一种训练通用智能体的方法。这种方法通过使用模仿学习收集的不同任务的大规模数据集来预训练transformer模型，使其能在多个领域的任务上展现出较好的能力，（reed s, zolna k, parisotto e, et al. a generalist agent[j]. arxivpreprint arxiv:2205.06175, ...

【技术保护点】

1.一种以控制为中心的自监督学习的双阶段通用智能体训练方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的以控制为中心的自监督学习的双阶段通用智能体训练方法，其特征在于：所述编码器包括状态编码器、提示编码器和动作编码器，所述状态编码器通过视觉变换器ViT对原始图像状态进行编码，通过编码学习器TokenLearner压缩编码信息；所述提示编码器为CLIP模型，完成不同模态信息到统一空间的编码转换；所述动作编码器将不同数据集中的多样化动作空间统一编码，完成一致的动作表示。

3.根据权利要求2所述的以控制为中心的自监督学习的双阶段通用智能体训练方法，其特征在于：所...

【技术特征摘要】

1.一种以控制为中心的自监督学习的双阶段通用智能体训练方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的以控制为中心的自监督学习的双阶段通用智能体训练方法，其特征在于：所述编码器包括状态编码器、提示编码器和动作编码器，所述状态编码器通过视觉变换器vit对原始图像状态进行编码，通过编码学习器tokenlearner压缩编码信息；所述提示编码器为clip模型，完成不同模态信息到统一空间的编码转换；所述动作编码器将不同数据集中的多样化动作空间统一编码，完成一致的动作表示。

3.根据权利要求2所述的以控制为中心的自监督学习的双阶段通用智能体训练方法，其特征在于：所述控制解码器包括自注意力模块和跨注意力模块，所述自注意力模块专注于利用所述状态编码器和...

【专利技术属性】
技术研发人员：巴钟杰，魏耀，陈烨灵，黄鹏，程鹏，王庆龙，秦湛，任奎，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人