【技术实现步骤摘要】
本专利技术属于人工智能感知决策,尤其是涉及一种以控制为中心的自监督学习的双阶段通用智能体训练方法。
技术介绍
1、目前,大量研究已经证明使用深度强化学习模型对单一任务进行优化可以取得优秀的结果,但是这些模型并没有在不同类别任务之间迁移的能力,特定模型只能在特定任务中使用。即使在强化学习中从少量数据中学习策略非常重要,但是当任务变得复杂,每项任务都需要人工提供的大规模数据集和长时间的训练,此时强化学习的优势就难以实现。这是由于直接与环境交互风险高,且学习效率较低。因此,通过预训练一个通用智能体适用于多种环境和多种任务,可以显著提升模型学习效率并降低构建此类数据集和模型的负担。scott reed等提出了一种训练通用智能体的方法。这种方法通过使用模仿学习收集的不同任务的大规模数据集来预训练transformer模型,使其能在多个领域的任务上展现出较好的能力,(reed s, zolna k, parisotto e, et al. a generalist agent[j]. arxivpreprint arxiv:2205.06175,
...【技术保护点】
1.一种以控制为中心的自监督学习的双阶段通用智能体训练方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的以控制为中心的自监督学习的双阶段通用智能体训练方法,其特征在于:所述编码器包括状态编码器、提示编码器和动作编码器,所述状态编码器通过视觉变换器ViT对原始图像状态进行编码,通过编码学习器TokenLearner压缩编码信息;所述提示编码器为CLIP模型,完成不同模态信息到统一空间的编码转换;所述动作编码器将不同数据集中的多样化动作空间统一编码,完成一致的动作表示。
3.根据权利要求2所述的以控制为中心的自监督学习的双阶段通用智能体训练
...【技术特征摘要】
1.一种以控制为中心的自监督学习的双阶段通用智能体训练方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的以控制为中心的自监督学习的双阶段通用智能体训练方法,其特征在于:所述编码器包括状态编码器、提示编码器和动作编码器,所述状态编码器通过视觉变换器vit对原始图像状态进行编码,通过编码学习器tokenlearner压缩编码信息;所述提示编码器为clip模型,完成不同模态信息到统一空间的编码转换;所述动作编码器将不同数据集中的多样化动作空间统一编码,完成一致的动作表示。
3.根据权利要求2所述的以控制为中心的自监督学习的双阶段通用智能体训练方法,其特征在于:所述控制解码器包括自注意力模块和跨注意力模块,所述自注意力模块专注于利用所述状态编码器和...
【专利技术属性】
技术研发人员:巴钟杰,魏耀,陈烨灵,黄鹏,程鹏,王庆龙,秦湛,任奎,
申请(专利权)人:浙江大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。