一种用于离线强化学习的模型融合方法技术

技术编号:46567991 阅读:1 留言:0更新日期:2025-10-10 21:16
本发明专利技术公开了一种用于离线强化学习的模型融合方法,包括:获取初始模型集合;对所述初始模型集合中每个模型的操作原始变量进行张量典型相关性分析,生成变换矩阵;将所述初始模型集合中的其中一个模型作为基准模型,并通过所述变换矩阵将除所述基准模型之外的其他所有模型的操作原始变量映射至低维度子空间,再回映射至所述基准模型的空间,生成中间模型集合;对所述中间模型集合中每个模型的操作原始变量进行融合,生成融合后的操作原始变量;根据融合后的操作原始变量,生成最终融合模型。本发明专利技术提出的用于离线强化学习的模型融合方法,性能更优异,表现更鲁棒,可以解决现有模型对于机器人控制的训练抖动大,同一任务多个模型方差大等问题。

【技术实现步骤摘要】

本专利技术涉及离线强化学习,尤其涉及一种用于离线强化学习的模型融合方法


技术介绍

1、近年来研究表明,在大量和多样化的数据集上通过自监督或无监督方式预训练的模型具有巨大的潜力,能够很好地将其迁移到其他任务中去。研究者们通过使用特定数据微调预训练大模型的方式来实现下游任务的解决方案,在这个过程中涉及两个步骤:(1)使用各种超参数配置方案微调模型;(2)保留在验证集上达到最优性能的模型并丢弃剩余模型。一方面丢弃模型造成了资源浪费,最常见的做法是将多个模型的输出集成(ensemble)之后加权平均得到最后结果,这样的集成输出有时可以超过最好的单一模型但是大大增加了模型推理过程中的计算开销;另一方面,保留验证集上最好的单一模型可能不是分布外(out-of-distribution)数据的最佳模型。

2、基于这两方面的问题,导致通过上述步骤所得到的模型对于机器人控制的训练抖动大,同一任务多个模型方差大,因此针对离线强化学习中机器人操作领域,尤其需要一种性能更优异、表现更鲁棒的模型。

3、以上
技术介绍
内容的公开仅用于辅助理解本专利技术的构思及本文档来自技高网...

【技术保护点】

1.一种用于离线强化学习的模型融合方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的用于离线强化学习的模型融合方法,其特征在于,所述初始模型集合包括多个条件序列决策模型,所述操作原始变量是指所述条件序列决策模型中的MLP层参数。

3.根据权利要求2所述的用于离线强化学习的模型融合方法,其特征在于,步骤S4具体包括:

4.根据权利要求2所述的用于离线强化学习的模型融合方法,其特征在于,步骤S2包括:

5.根据权利要求4所述的用于离线强化学习的模型融合方法,其特征在于,步骤S21中对所述初始模型集合中每个模型的MLP层参数进行外积运算生...

【技术特征摘要】

1.一种用于离线强化学习的模型融合方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的用于离线强化学习的模型融合方法,其特征在于,所述初始模型集合包括多个条件序列决策模型,所述操作原始变量是指所述条件序列决策模型中的mlp层参数。

3.根据权利要求2所述的用于离线强化学习的模型融合方法,其特征在于,步骤s4具体包括:

4.根据权利要求2所述的用于离线强化学习的模型融合方法,其特征在于,步骤s2包括:

5.根据权利要求4所述的用于离线强化学习的模型融合方法,其特征在于,步骤s21中对所述初始模型集合中每个模型的mlp层参数进行外积运算生成高阶协方差张量,以进行张量典型相关性分析。

6.根据权利要求4所述的用于离线强化学习的模型融合方法,其特征在于,步骤s22中包括:根据各模型的mlp层参数的协方差张量构建优化问题以最大化所述初始模型集合中各模型的mlp层参数的张量之间的相关性,并采用交叉最小二乘法求解各模型的mlp层参数的变换矩阵;其中,在构建优化问...

【专利技术属性】
技术研发人员:常永哲谭俊波杨再辉王学谦
申请(专利权)人:清华大学深圳国际研究生院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1