【技术实现步骤摘要】
本专利技术涉及机器学习,尤其是涉及一种离线强化学习训练方法、设备及存储介质。
技术介绍
1、强化学习算法通过不断地与环境进行交互获得数据,来训练一个智能体,使其能够解决特定的决策问题。在游戏领域的应用表明,经过充分训练的强化学习算法,能成功达到甚至超越人类的最强水平。然而,强化学习算法在训练时,需要与环境交互获取实时数据,这样就约束了强化学习能应用的领域。为了解决强化学习算法数据利用率低下的问题,相关研究人员提出了离线强化学习算法(作为对照,需要一直和环境进行交互的被称为在线强化学习算法)。与传统强化学习算法在训练时需要不断和环境交互不同,离线强化学习算法只需在预先收集好的数据集上进行训练,这样能够增加将强化学习部署到更多应用的可能性。
2、现有一些离线强化学习算法可以在给定的数据集上训练并实现很好的效果,然而,这些离线强化学习算法主要专注的是机器人模拟的应用场景。其中,智能体接收到的输入均为机器人传感器给出的诸如:摩擦力,方向等参数,这些低维输入处理起来相对方便、也少有冗余,但是这些算法并没有在更高维、更复杂的任务上进行验
3本文档来自技高网...
【技术保护点】
1.一种离线强化学习训练方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种离线强化学习训练方法,其特征在于,所述数据集存储在数据库中。
3.根据权利要求1所述的一种离线强化学习训练方法,其特征在于,所述强化学习框架包括表征模块,所述表征模块分别连接有动态模块和预测模块,所述表征模块用于将智能体的观测映射到一个潜在状态空间之中;
4.根据权利要求3所述的一种离线强化学习训练方法,其特征在于,所述步骤S2具体包括以下步骤:
5.根据权利要求4所述的一种离线强化学习训练方法,其特征在于,所述步骤S21具体是通过表征
...【技术特征摘要】
1.一种离线强化学习训练方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种离线强化学习训练方法,其特征在于,所述数据集存储在数据库中。
3.根据权利要求1所述的一种离线强化学习训练方法,其特征在于,所述强化学习框架包括表征模块,所述表征模块分别连接有动态模块和预测模块,所述表征模块用于将智能体的观测映射到一个潜在状态空间之中;
4.根据权利要求3所述的一种离线强化学习训练方法,其特征在于,所述步骤s2具体包括以下步骤:
5.根据权利要求4所述的一种离线强化学习训练方法,其特征在于,所述步骤s21具体是通过表征模块将智能体的观测映射到一个潜在状态空间中,以得到对应的潜在状态。
6.根据权利要求4所述的一种离线强化学习训练方法,其特征在于,所...
【专利技术属性】
技术研发人员:赵琛,牛雅哲,黄凯鑫,刘宇,袁春,
申请(专利权)人:上海人工智能创新中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。