【技术实现步骤摘要】
本专利技术涉及离线强化学习,尤其涉及一种用于离线强化学习的模型融合方法。
技术介绍
1、近年来研究表明,在大量和多样化的数据集上通过自监督或无监督方式预训练的模型具有巨大的潜力,能够很好地将其迁移到其他任务中去。研究者们通过使用特定数据微调预训练大模型的方式来实现下游任务的解决方案,在这个过程中涉及两个步骤:(1)使用各种超参数配置方案微调模型;(2)保留在验证集上达到最优性能的模型并丢弃剩余模型。一方面丢弃模型造成了资源浪费,最常见的做法是将多个模型的输出集成(ensemble)之后加权平均得到最后结果,这样的集成输出有时可以超过最好的单一模型但是大大增加了模型推理过程中的计算开销;另一方面,保留验证集上最好的单一模型可能不是分布外(out-of-distribution)数据的最佳模型。
2、基于这两方面的问题,导致通过上述步骤所得到的模型对于机器人控制的训练抖动大,同一任务多个模型方差大,因此针对离线强化学习中机器人操作领域,尤其需要一种性能更优异、表现更鲁棒的模型。
3、以上
技术介绍
内容的公开仅用于辅助理 ...
【技术保护点】
1.一种用于离线强化学习的模型融合方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的用于离线强化学习的模型融合方法,其特征在于,所述初始模型集合包括多个条件序列决策模型,所述操作原始变量是指所述条件序列决策模型中的MLP层参数。
3.根据权利要求2所述的用于离线强化学习的模型融合方法,其特征在于,步骤S4具体包括:
4.根据权利要求2所述的用于离线强化学习的模型融合方法,其特征在于,步骤S2包括:
5.根据权利要求4所述的用于离线强化学习的模型融合方法,其特征在于,步骤S21中对所述初始模型集合中每个模型的MLP
...【技术特征摘要】
1.一种用于离线强化学习的模型融合方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的用于离线强化学习的模型融合方法,其特征在于,所述初始模型集合包括多个条件序列决策模型,所述操作原始变量是指所述条件序列决策模型中的mlp层参数。
3.根据权利要求2所述的用于离线强化学习的模型融合方法,其特征在于,步骤s4具体包括:
4.根据权利要求2所述的用于离线强化学习的模型融合方法,其特征在于,步骤s2包括:
5.根据权利要求4所述的用于离线强化学习的模型融合方法,其特征在于,步骤s21中对所述初始模型集合中每个模型的mlp层参数进行外积运算生成高阶协方差张量,以进行张量典型相关性分析。
6.根据权利要求4所述的用于离线强化学习的模型融合方法,其特征在于,步骤s22中包括:根据各模型的mlp层参数的协方差张量构建优化问题以最大化所述初始模型集合中各模型的mlp层参数的张量之间的相关性,并采用交叉最小二乘法求解各模型的mlp层参数的变换矩阵;其中,在构建优化问...
【专利技术属性】
技术研发人员:常永哲,谭俊波,杨再辉,王学谦,
申请(专利权)人:清华大学深圳国际研究生院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。