System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 以控制为中心的自监督学习的双阶段通用智能体训练方法技术_技高网
当前位置: 首页 > 专利查询>浙江大学专利>正文

以控制为中心的自监督学习的双阶段通用智能体训练方法技术

技术编号:40419637 阅读:3 留言:0更新日期:2024-02-20 22:38
本发明专利技术公开了一种以控制为中心的自监督学习的双阶段通用智能体训练方法,属于人工智能感知决策技术领域,包括以下步骤:步骤1、设计多模态的决策基础模型,包括编码器和控制解码器;步骤2、收集跨领域跨模态跨具身的多任务数据集;步骤3、使用以控制为中心的自监督损失函数通过自监督学习训练多模态的决策基础模型;步骤4、通过多模态指令对齐的模仿学习来训练多模态的决策基础模型;步骤5、将训练完成的多模态的决策基础模型部署到平台中进行测试使用。本发明专利技术提供了一种以控制为中心的自监督学习的双阶段通用智能体训练方法,具有卓越的适应性,能够适应跨领域、跨场景和跨具身的广泛决策任务。

【技术实现步骤摘要】

本专利技术属于人工智能感知决策,尤其是涉及一种以控制为中心的自监督学习的双阶段通用智能体训练方法


技术介绍

1、目前,大量研究已经证明使用深度强化学习模型对单一任务进行优化可以取得优秀的结果,但是这些模型并没有在不同类别任务之间迁移的能力,特定模型只能在特定任务中使用。即使在强化学习中从少量数据中学习策略非常重要,但是当任务变得复杂,每项任务都需要人工提供的大规模数据集和长时间的训练,此时强化学习的优势就难以实现。这是由于直接与环境交互风险高,且学习效率较低。因此,通过预训练一个通用智能体适用于多种环境和多种任务,可以显著提升模型学习效率并降低构建此类数据集和模型的负担。scott reed等提出了一种训练通用智能体的方法。这种方法通过使用模仿学习收集的不同任务的大规模数据集来预训练transformer模型,使其能在多个领域的任务上展现出较好的能力,(reed s, zolna k, parisotto e, et al. a generalist agent[j]. arxivpreprint arxiv:2205.06175, 2022)。这个工作进一步表明了构建使用模型预训练构建通用智能体的可能性。sun等提出了一个预训练方案,通过使用一系列控制中心的目标函数来构建一个智能体,(sun y, ma s, madaan r, et al. smart: self-supervised multi-task pretraining with control transformers[j]. arxiv preprint arxiv:2301.09816, 2023)。这个预训练的模型允许使用现有的强化学习或模仿学习技术,根据下游任务设计来微调模型。

2、上述的各种方法虽然都是使用预训练方法来提升智能体的通用性,但都不够实际。仅使用模仿学习在大量数据集上进行训练,需要大量的训练成本,并且在大部分任务上都无法取得更好的性能;使用微调技术对预训练模型进行优化更为可取,但是该方法需要针对每一种下游任务都进行微调,且对于其他未经过微调的任务,不具备通用性。


技术实现思路

1、本专利技术的目的是提供一种以控制为中心的自监督学习的双阶段通用智能体训练方法,解决上述技术存在的现有的预训练方法难以以实际情况为主、训练成本大、通用性差的问题。

2、为实现上述目的,本专利技术提供一种以控制为中心的自监督学习的双阶段通用智能体训练方法,包括以下步骤:

3、步骤1、设计多模态的决策基础模型,包括编码器和控制解码器,所述编码器处理多模态的输入,所述控制解码器进行基于多模态编码的预测;

4、步骤2、收集跨领域跨模态跨具身的多任务数据集,通过最短路径算法和专家算法收集habitat和meta-world仿真平台的轨迹数据,每个轨迹数据的序列表示为,其中代表每个序列的多模态指令,代表序列中第个状态和动作;

5、步骤3、使用以控制为中心的自监督损失函数通过自监督学习训练多模态的决策基础模型;

6、步骤4、通过多模态指令对齐的模仿学习来训练多模态的决策基础模型;

7、步骤5、将训练完成的多模态的决策基础模型部署到平台中进行测试使用。

8、优选的,所述编码器包括状态编码器、提示编码器和动作编码器,所述状态编码器通过视觉变换器vit对原始图像状态进行编码,通过编码学习器tokenlearner压缩编码信息;所述提示编码器为clip模型,完成不同模态信息到统一空间的编码转换;所述动作编码器将不同数据集中的多样化动作空间统一编码,完成一致的动作表示。

9、优选的,所述控制解码器包括自注意力模块和跨注意力模块,所述自注意力模块专注于利用所述状态编码器和所述动作编码器提供的状态和动作序列编码,在序列的上下文中进行准确的预测;所述跨注意力模块专注于结合所述提示编码器的输出和状态和动作序列编码,完成不同编码之间的有效融合。

10、优选的,步骤3中使用以控制为中心的损失函数通过自监督学习训练多模态的决策基础模型的具体过程如下:

11、s301、从数据集中的序列中截取上下文长度为的子序列,每个训练批次表示为;

12、s302、将训练序列中的状态和动作分别输入给状态编码器和动作编码器,状态编码器分为两部分,视觉编码器模块vit和编码学习器tokenlearner,视觉编码器模块对图片内容进行编码,然后使用编码学习器压缩编码信息,动作编码器为线性编码器;

13、s303、将s302获得的状态和动作编码输入给控制解码器模块,控制解码器模块为多层自注意力模块组成,根据给定的掩码进行预测,获得预测编码序列;

14、s304、将s303中控制解码器模块输出的预测的状态和动作编码序列与真实的动作和状态对比,使用以控制为中心的自监督损失函数,计算损失;

15、s305、利用梯度下降更新多模态的决策基础模型的所有参数。

16、优选的,所述自监督损失函数的具体计算表达式如下:

17、 ;

18、其中,表示前向动力预测损失,具体表达式如下:

19、;

20、式中,是根据变量类型选择的损失函数,对于状态隐空间向量和连续动作,使用均方误差,而对于离散动作,使用交叉熵损失,表示决策模型网络的参数,表示可学习的前向预测网络的参数,表示使用动量vit模型中学到的状态嵌入来编码下一个观测值,上划线表示梯度停止,表示t时刻到t+i时刻的所有状态o或动作a;

21、表示逆向动力预测损失,具体表达式如下:

22、 ;

23、式中,表示可学习的逆向预测网络的参数;

24、表示随机掩码后验控制预测损失,具体表达式如下:

25、;

26、式中,表示可学习的随机掩码预测网络的参数,表示随机屏蔽个动作和个状态,模型根据剩余的序列预测被屏蔽的动作,是随着训练轮次变化而变化的超参数。

27、优选的,步骤4中通过多模态指令对齐的模仿学习来训练多模态的决策基础模型的具体过程如下:

28、s401、从序列中截取上下文长度为的子序列,每个训练批次表示为;

29、s402、将训练序列中的状态和动作分别输入给状态编码器和动作编码器,并将多模态指令输入给提示编码器,提示编码器以clip编码器构成,文本指令使用文本编码器进行编码,图像指令使用图像编码器进行编码;

30、s403、将多层跨注意力模块添加至控制解码器模块中的自注意力模块之间,并选择性冻结部分自注意力模块和全部编码器参数;

31、s404、将s402获得的状态和动作编码输入给控制解码器模块,控制解码器模块根据自回归掩码进行预测,获得预测的动作编码;

32、s405、将s404中控制解码器模块输出的预测的动作编码与真实的动作和状态进行对比,使用改进的模仿学习损失,计算损失,具体公式如下:

33本文档来自技高网...

【技术保护点】

1.一种以控制为中心的自监督学习的双阶段通用智能体训练方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的以控制为中心的自监督学习的双阶段通用智能体训练方法,其特征在于:所述编码器包括状态编码器、提示编码器和动作编码器,所述状态编码器通过视觉变换器ViT对原始图像状态进行编码,通过编码学习器TokenLearner压缩编码信息;所述提示编码器为CLIP模型,完成不同模态信息到统一空间的编码转换;所述动作编码器将不同数据集中的多样化动作空间统一编码,完成一致的动作表示。

3.根据权利要求2所述的以控制为中心的自监督学习的双阶段通用智能体训练方法,其特征在于:所述控制解码器包括自注意力模块和跨注意力模块,所述自注意力模块专注于利用所述状态编码器和所述动作编码器提供的状态和动作序列编码,在序列的上下文中进行准确的预测;所述跨注意力模块专注于结合所述提示编码器的输出和状态和动作序列编码,完成不同编码之间的有效融合。

4.根据权利要求3所述的以控制为中心的自监督学习的双阶段通用智能体训练方法,其特征在于,步骤3中使用以控制为中心的损失函数通过自监督学习训练多模态的决策基础模型的具体过程如下:

5.根据权利要求4所述的以控制为中心的自监督学习的双阶段通用智能体训练方法,其特征在于,所述自监督损失函数的具体计算表达式如下:

6.根据权利要求5所述的以控制为中心的自监督学习的双阶段通用智能体训练方法,其特征在于,步骤4中通过多模态指令对齐的模仿学习来训练多模态的决策基础模型的具体过程如下:

...

【技术特征摘要】

1.一种以控制为中心的自监督学习的双阶段通用智能体训练方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的以控制为中心的自监督学习的双阶段通用智能体训练方法,其特征在于:所述编码器包括状态编码器、提示编码器和动作编码器,所述状态编码器通过视觉变换器vit对原始图像状态进行编码,通过编码学习器tokenlearner压缩编码信息;所述提示编码器为clip模型,完成不同模态信息到统一空间的编码转换;所述动作编码器将不同数据集中的多样化动作空间统一编码,完成一致的动作表示。

3.根据权利要求2所述的以控制为中心的自监督学习的双阶段通用智能体训练方法,其特征在于:所述控制解码器包括自注意力模块和跨注意力模块,所述自注意力模块专注于利用所述状态编码器和...

【专利技术属性】
技术研发人员:巴钟杰魏耀陈烨灵黄鹏程鹏王庆龙秦湛任奎
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1