基于评论家和双经验池的深度确定性策略梯度学习方法技术

技术编号：21454879 阅读：34 留言：0更新日期：2019-06-26 05:04

本发明专利技术提出的用于智能无人系统的基于评论家和双经验池的深度确定性策略梯度强化学习方法及设备，属于人工智能应用技术领域，主要包括：确定所述智能无人系统的智能体的观测空间和动作空间大小，构建行动者actor模块与评论家critic模块；创建所述critic模块中的多个评论家子模块；创建双经验池的环形数组数据结构；进行所述actor模块与critic模块的参数梯度更新与训练过程，在达到了最大的迭代次数或者满足终止条件后训练过程结束。本发明专利技术能够提供一种更高稳定性和更高性能的强化学习方法，使得智能体的性能表现得到有效提升。

全部详细技术资料下载

【技术实现步骤摘要】
基于评论家和双经验池的深度确定性策略梯度学习方法
本专利技术属于计算机人工智能
，具体涉及一种多个评论家和双经验池的深度确定性策略梯度强化学习方法。
技术介绍
近些年来，人工智能技术掀起了巨大浪潮，各种相关的智能信息技术层出不穷，而深度强化学习方法(DeepReinforcementLearning)结合了深度学习的感知能力与强化学习自身的决策能力，更是成为了众人关注的焦点(参见文献[1,2])。不久前，DeepMind基于强化学习方法的AlphaGo围棋程序击败顶级围棋职业选手李世石(参见文献[3])，然后在次年提出升级版本的AlphaGoZero在围棋、国际象棋、日本将棋等棋类击败人类选手和它的“前辈”AlphaGo(参见文献[4])，更是证实了强化学习方法在人工智能发展中的突出地位。在智能无人系统中，强化学习方法发挥了重要的作用，它能够通过训练使无人智能体(机器人，无人机等)具备自主能力与环境自适应能力，对智能无人系统的研究与发展具有重要的影响。探索性能表现更高和稳定性更好的强化学习方法，克服存在的一些不足从而优化强化学习方法也具有重大的意义。强化学习方法可以追溯到上个世纪五十年代，Bellman提出了动态规划方法，基于著名的Bellman方程将最优化问题变成简单的子问题，奠定了强化学习的基础。直到出现标志性发展的1988年，Sutton等提出了时间差分算法(Temporal-Differencelearning，TDlearning，参见文献[2])，介绍了基于时序差分学习方法的新思路，并且成为了强化学习算法发展的基础。此后，典型的强化学习方...

【技术保护点】
1.一种用于智能无人系统的基于评论家和双经验池的深度确定性策略梯度强化学习方法，其中，所述智能无人系统包括一智能体，其特征在于包括以下步骤：步骤1：对智能体所在环境和智能体本身的行为特征进行分析，确定智能体的观测空间大小和动作空间大小；步骤2：基于深度确定性策略梯度(Deep Determistic Policy Gradient)算法，构建根据所述智能体的观测输出决策动作的行动者actor模块和对所述动作进行评价反馈的评论家critic模块，并对所述actor模块和critic模块的参数进行随机初始化；步骤3：对于步骤2中的所述critic模块，创建至少二个独立异构的评论家critic子模块，各critic子模块具有不同的结构和参数以及参数的初始化，所有的critic子模块能够分别对所述动作作出评价反馈，这些反馈评价的平均值作为所述critic模块的最终评价；步骤4：创建经验池，用于保存供所述智能体离线学习的经验池数据；在强化学习过程中，所述智能体按照指定的探索策略在环境中进行探索，在每一步探索中，生成由当前状态s，当前状态s下智能体执行的决策动作a，执行动作a后，所述智能体观测的环...

【技术特征摘要】
1.一种用于智能无人系统的基于评论家和双经验池的深度确定性策略梯度强化学习方法，其中，所述智能无人系统包括一智能体，其特征在于包括以下步骤：步骤1：对智能体所在环境和智能体本身的行为特征进行分析，确定智能体的观测空间大小和动作空间大小；步骤2：基于深度确定性策略梯度(DeepDetermisticPolicyGradient)算法，构建根据所述智能体的观测输出决策动作的行动者actor模块和对所述动作进行评价反馈的评论家critic模块，并对所述actor模块和critic模块的参数进行随机初始化；步骤3：对于步骤2中的所述critic模块，创建至少二个独立异构的评论家critic子模块，各critic子模块具有不同的结构和参数以及参数的初始化，所有的critic子模块能够分别对所述动作作出评价反馈，这些反馈评价的平均值作为所述critic模块的最终评价；步骤4：创建经验池，用于保存供所述智能体离线学习的经验池数据；在强化学习过程中，所述智能体按照指定的探索策略在环境中进行探索，在每一步探索中，生成由当前状态s，当前状态s下智能体执行的决策动作a，执行动作a后，所述智能体观测的环境也随之发生变化的下一状态s′，基于智能体的行为获得的奖励反馈r这四个信息构成的四元组数据＜s，a，r，s′＞，将所述每一步探索中生成的所述四元组数据作为经验数据保存在所述经验池中；步骤5：对于步骤4中的经验池，创建包括两个隔离的经验池A和B，经验池A保存所述智能体所有的四元组数据作为所述智能体学习的经验数据，经验池B则保存累计奖励高于第一特定阈值或者低于第二特定阈值的经验数据；步骤6：对所述actor模块和所述多个critic子模块进行迭代训练和参数更新，每一次迭代训练的数据是从所述经验池中随机抽取定量大小的一批四元组数据＜s，a，r，s′＞，其中一部分是从经验池A中抽取，另一部分是从经验池B中抽取的；步骤7：所述智能体完成所述步骤6的训练后，根据所述actor模块输出决策的动作。2.根据权利要求1所述的一种用于智能无人系统的基于评论家和双经验池的深度确定性策略梯度强化学习方法，其特征在于所述第一特定阈值为所有累计奖励收益的最大值的0.8倍，所述第二特定阈值为所有累计奖励收益的最小值的1.5倍。3.根据权利要求2所述的一种用于智能无人系统的基于评论家和双经验池的深度确定性策略梯度强化学习方法，其特征在于所述经验池B的大小比所述经验池A小，当所述经验池A或经验池B中的经验数据装满后，后续存储的经验数据覆盖最早保存的经验数据。4.根据权利要求3所述的一种用于智能无人系统的基于评论家和双经验池的深度确定性策略梯度强化学习方法，其特征在于所述步骤2的进一步包括以下子步骤：步骤2.1：获得所述观测空间大小state_shape；步骤2.2：所述actor模块采用深度神经网络模型，所述深度神经网络的参数使用零均值的高斯分布初始化；将所述智能体观测到的所述当前状态s作为神经网络的输入，输入大小为所述state_shape，然后经过多个中间隐含层，输出所述决策动作a，输出的大小为所述动作空间大小action_shape；对所述actor模块进行迭代训练，每迭代一定次数时，创建目标行动者target-actor模块，并将所述actor模块的参数复制到所述target-actor模块；步骤2.3：所述critic模块采用深度神经网络模型，所述深度神经网络的参数使用零均值的高斯分布初始化；将所述智能体观测到的当前状态s和所述智能体执行的所述决策动作a作为所述神经网络的输入，输入大小为所述stare_shape加上所述action_shape，然后经过多个中间隐含层，输出一个评价值，即：Q(s，a|θ)，用所述评价值估计所述累计奖励，其中θ为所述深度神经网络参数，s，a为输入；对所述critic模块进行迭代训练，每迭代一定次数时，创建目标评论者target-critic模块，并将与所述critic模块的参数复制到所述target-critic模块。5.根据权利要求4所述的一种用于智能无人系统的基于评论家和双经验池的深度确定性策略梯度强化学习方法，其特征在于所述步骤3的包括以下子步骤：步骤3.1：当参与的评论家有K个时，对于所述critic模块而言，需要构建K个结构不同的critic子模块，构成长度为K的所述critic模块，每一个critic子模块独立地占据所述critic模块中的一个位置；步骤3.2：依次创建所述K个critic子模块，使用深度神经网络作为模型，其中每一个critic子模块的创建过程与步骤2.3中一样，每一个critic子模块的深度神经网络模型是不同的，具有不同的中间隐含层数量和各层节点数，并用不同的初始化分布来初始化网络参数，确保各个critic子模块具有不同的结构，其中，所述K为大于2的自然数；步骤3.3：对于上一步创建完成的容量为K的所述critic模块，使用所述critic模块的K个critic子模块的输出的平均值critic_avg作为所述critic模块的输出。6.根据权利要求1所述的一种用于智能无人系统的基于评论家和双经验池的深度确定性策略梯度强化学习方法，其特征在于所述步骤5包括以下子步骤：步骤5.1：采用环形数组保存所述四元组数据＜s，a，r，s′＞，所述数组每一个单位空间保存一个四元组数据；步骤5.2：对于需要保存的一批新的四元组数据，首先保存到经验池A的数组中，如果这一批四元组数据的累计奖励收益高于第一特定阈值或者低于第二特定阈值，则再将它保存到经验池B的数组中；步骤5.3：依据比例p分别从A和B中进行抽样，抽样的总大小为N，其中从A中随机抽样N*(1-p)个四元组，从B中随机抽样N*p个四元组，其中，N为自然数，p为抽样比率，且0≤p≤1。7....

【专利技术属性】
技术研发人员：王瑞，吴蛟，李瑞英，胡晓惠，
申请(专利权)人：中国科学院软件研究所，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人