基于优胜劣汰的深度强化学习策略网络存储方法及设备技术

技术编号:25399076 阅读:49 留言:0更新日期:2020-08-25 23:04
一种基于优胜劣汰的深度强化学习策略网络的存储方法,该方法包括:获取当前训练周期的结果和策略网络;判断所述当前训练周期的结果是否满足策略网络测试要求;在判断所述当前训练周期的结果满足所述策略网络测试要求的情况下,进行策略网络测试;获得该策略网络测试的结果;判断所述策略网络测试的结果是否满足保存要求;在判断所述策略网络测试的结果满足保存要求的情况下,保存所述策略网络以及所述策略网络测试的结果。

【技术实现步骤摘要】
基于优胜劣汰的深度强化学习策略网络存储方法及设备
本专利技术涉及一种深度强化学习的策略网络的存储方法,更具体地涉及一种基于优胜劣汰的在深度强化学习训练时挑选训练过程中最优的策略网络并存储的方法和设备。
技术介绍
深度强化学习是机器学习中的一个分支,融合了深度学习与强化学习,较好的解决了从低层次的感知到高层次的决策问题。深度强化学习的过程可以理解为通过深度学习的感知能力获取环境的信息,再通过强化学习使得智能体具有一定的决策能力。强化学习算法理论的形成可以追溯到上个世界七八十年代,几十年来强化学习算法一直在不断的更新迭代。与常见的监督学习、无监督学习不同,强化学习的本质是一种以环境反馈作为输入的、适应环境的机器学习方法。它模仿了自然界中人类或动物学习的基本途径,通过与环境不断交互和试错的过程,利用评价性的反馈信号来优化所采取的行为决策。在深度强化学习中有两个主要的组成部,为智能体(Agent)和环境(Environment)。智能体是指采用深度强化学习进行学习的事物本身,可以通过学习而自动获取有价值信息的计算机(或者含有计算机的机器),环境本文档来自技高网...

【技术保护点】
1.一种基于优胜劣汰的深度强化学习策略网络的存储方法,该方法包括:/n获取当前训练周期的结果和策略网络;/n判断所述当前训练周期的结果是否满足策略网络测试要求;/n在判断所述当前训练周期的结果满足所述策略网络测试要求的情况下,进行策略网络测试;/n获得该策略网络测试的结果;/n判断所述策略网络测试的结果是否满足保存要求;和/n在判断所述策略网络测试的结果满足保存要求的情况下,保存所述策略网络以及所述策略网络测试的结果。/n

【技术特征摘要】
1.一种基于优胜劣汰的深度强化学习策略网络的存储方法,该方法包括:
获取当前训练周期的结果和策略网络;
判断所述当前训练周期的结果是否满足策略网络测试要求;
在判断所述当前训练周期的结果满足所述策略网络测试要求的情况下,进行策略网络测试;
获得该策略网络测试的结果;
判断所述策略网络测试的结果是否满足保存要求;和
在判断所述策略网络测试的结果满足保存要求的情况下,保存所述策略网络以及所述策略网络测试的结果。


2.如权利要求1所述的方法,其中所述获取当前训练周期的结果的步骤包括获取当前训练周期的累计奖励值。


3.如权利要求2所述的方法,其中所述判断当前训练周期的结果是否满足策略网络测试要求的步骤包括:
预设可接受的单周期累计奖励阈值;
比较所述当前训练周期的累计奖励值与该预设可接受的单周期累计奖励阈值;和
通过所述比较步骤确定当前训练周期的累计奖励值是否满足策略网络测试要求。


4.如权利要求1所述的方法,其中所述在判断所述当前训练周期的结果满足所述策略网络测试要求的情况下进行策略网络测试的步骤包括:
设定周期数;
以当前策略网络运行所设定的周期数;和
获得将当前策略网络运行所述设定周期数的累计奖励均值作为该策略网络测试的结果。


5.如权利要...

【专利技术属性】
技术研发人员:赵江李明君蔡志浩王英勋
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1