一种离线强化学习训练方法、设备及存储介质技术

技术编号:41860491 阅读:28 留言:0更新日期:2024-06-27 18:33
本发明专利技术涉及一种离线强化学习训练方法、设备及存储介质,该方法包括以下步骤:设置数据集,构建强化学习框架;从数据集中获取样本数据后传输至强化学习框架,使用噪声来约束状态转移和状态值估计,结合目标网络和损失函数训练网络,得到训练后的强化学习模型。与现有技术相比,本发明专利技术证明了状态转移和状态值估计是在离线状态下对MuZero系列方法影响最大的部分,并在观测映射到的潜在状态空间中添加噪声,通过对比有噪声和无噪声时状态转移或者状态值估计的结果,来约束模型对于数据集外潜在状态的估计,本发明专利技术能够有效解决推导状态不恰当问题,训练得到更优的强化学习模型。

【技术实现步骤摘要】

本专利技术涉及机器学习,尤其是涉及一种离线强化学习训练方法、设备及存储介质


技术介绍

1、强化学习算法通过不断地与环境进行交互获得数据,来训练一个智能体,使其能够解决特定的决策问题。在游戏领域的应用表明,经过充分训练的强化学习算法,能成功达到甚至超越人类的最强水平。然而,强化学习算法在训练时,需要与环境交互获取实时数据,这样就约束了强化学习能应用的领域。为了解决强化学习算法数据利用率低下的问题,相关研究人员提出了离线强化学习算法(作为对照,需要一直和环境进行交互的被称为在线强化学习算法)。与传统强化学习算法在训练时需要不断和环境交互不同,离线强化学习算法只需在预先收集好的数据集上进行训练,这样能够增加将强化学习部署到更多应用的可能性。

2、现有一些离线强化学习算法可以在给定的数据集上训练并实现很好的效果,然而,这些离线强化学习算法主要专注的是机器人模拟的应用场景。其中,智能体接收到的输入均为机器人传感器给出的诸如:摩擦力,方向等参数,这些低维输入处理起来相对方便、也少有冗余,但是这些算法并没有在更高维、更复杂的任务上进行验证。

3本文档来自技高网...

【技术保护点】

1.一种离线强化学习训练方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种离线强化学习训练方法,其特征在于,所述数据集存储在数据库中。

3.根据权利要求1所述的一种离线强化学习训练方法,其特征在于,所述强化学习框架包括表征模块,所述表征模块分别连接有动态模块和预测模块,所述表征模块用于将智能体的观测映射到一个潜在状态空间之中;

4.根据权利要求3所述的一种离线强化学习训练方法,其特征在于,所述步骤S2具体包括以下步骤:

5.根据权利要求4所述的一种离线强化学习训练方法,其特征在于,所述步骤S21具体是通过表征模块将智能体的观测映...

【技术特征摘要】

1.一种离线强化学习训练方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种离线强化学习训练方法,其特征在于,所述数据集存储在数据库中。

3.根据权利要求1所述的一种离线强化学习训练方法,其特征在于,所述强化学习框架包括表征模块,所述表征模块分别连接有动态模块和预测模块,所述表征模块用于将智能体的观测映射到一个潜在状态空间之中;

4.根据权利要求3所述的一种离线强化学习训练方法,其特征在于,所述步骤s2具体包括以下步骤:

5.根据权利要求4所述的一种离线强化学习训练方法,其特征在于,所述步骤s21具体是通过表征模块将智能体的观测映射到一个潜在状态空间中,以得到对应的潜在状态。

6.根据权利要求4所述的一种离线强化学习训练方法,其特征在于,所...

【专利技术属性】
技术研发人员:赵琛牛雅哲黄凯鑫刘宇袁春
申请(专利权)人:上海人工智能创新中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1