基于评论家和双经验池的深度确定性策略梯度学习方法技术

技术编号:21454879 阅读:34 留言:0更新日期:2019-06-26 05:04
本发明专利技术提出的用于智能无人系统的基于评论家和双经验池的深度确定性策略梯度强化学习方法及设备,属于人工智能应用技术领域,主要包括:确定所述智能无人系统的智能体的观测空间和动作空间大小,构建行动者actor模块与评论家critic模块;创建所述critic模块中的多个评论家子模块;创建双经验池的环形数组数据结构;进行所述actor模块与critic模块的参数梯度更新与训练过程,在达到了最大的迭代次数或者满足终止条件后训练过程结束。本发明专利技术能够提供一种更高稳定性和更高性能的强化学习方法,使得智能体的性能表现得到有效提升。

【技术实现步骤摘要】
基于评论家和双经验池的深度确定性策略梯度学习方法
本专利技术属于计算机人工智能
,具体涉及一种多个评论家和双经验池的深度确定性策略梯度强化学习方法。
技术介绍
近些年来,人工智能技术掀起了巨大浪潮,各种相关的智能信息技术层出不穷,而深度强化学习方法(DeepReinforcementLearning)结合了深度学习的感知能力与强化学习自身的决策能力,更是成为了众人关注的焦点(参见文献[1,2])。不久前,DeepMind基于强化学习方法的AlphaGo围棋程序击败顶级围棋职业选手李世石(参见文献[3]),然后在次年提出升级版本的AlphaGoZero在围棋、国际象棋、日本将棋等棋类击败人类选手和它的“前辈”AlphaGo(参见文献[4]),更是证实了强化学习方法在人工智能发展中的突出地位。在智能无人系统中,强化学习方法发挥了重要的作用,它能够通过训练使无人智能体(机器人,无人机等)具备自主能力与环境自适应能力,对智能无人系统的研究与发展具有重要的影响。探索性能表现更高和稳定性更好的强化学习方法,克服存在的一些不足从而优化强化学习方法也具有重大的意义。强化学习方法可以追溯到上个世纪五十年代,Bellman提出了动态规划方法,基于著名的Bellman方程将最优化问题变成简单的子问题,奠定了强化学习的基础。直到出现标志性发展的1988年,Sutton等提出了时间差分算法(Temporal-Differencelearning,TDlearning,参见文献[2]),介绍了基于时序差分学习方法的新思路,并且成为了强化学习算法发展的基础。此后,典型的强化学习方法研究不断地涌现。在1992年,Watkins提出了著名的Q-learning算法(参见文献[5]);在此后的1994年,Rummery等提出了一种在线策略(onpolicy)的Q-learning算法,称为Sarsa学习算法(参见文献[6]);在1999年,Sutton等提出了创新性的策略梯度方法,从而产生了基于策略的强化学习方法(参见文献[7])。近年来,随着人工神经网络的发展和深度学习的浪潮,强化学习方法与深度学习方法结合而形成了深度强化学习,它让强化学习方法的表现得到了突破性的提高。在2014年,Silver等提出确定性策略梯度算法(DeterministicPolicyGradientAlgorithm,即后来的DDPG算法),证明了确定性策略梯度的存在性(参见文献[8])。基于确定性策略梯度,随后涌现出了多种多样的强化学习方法,例如Actor-Critic算法、A3C算法等(参见文献[9]),并掀起了强化学习方法的发展热潮。然而,确定性策略梯度方法在训练时存在稳定性的问题,其中包含的行动者actor模块与评论家critic模块由于稳定性的问题也使得确定性策略梯度方法的性能表现受到限制。这主要是因为actor模块的训练很大程度上依赖critic模块的训练,当critic模块训练的不好或者出现了不稳定的波动,actor模块也会随之受到影响,而智能体的动作策略是由actor模块产生的,所以也会就对智能体的行为表现产生不良的影响。那么,如何解决确定性策略梯度方法中的critic模块的训练稳定性问题是提高智能体表现的关键,这为创建具有更高性能和更高稳定性的无人智能系统指引了研究的方向。以下为参考的相关文献:[1]M.L.Littman,“Reinforcementlearningimprovesbehaviourfromevaluativefeedback,”Nature,vol.521,no.7553,pp.445–451,2015.[2]SuttonRS,BartoAG.“Reinforcementlearning:anintroduction.”Cambridge:MITpress,1998.[3]Wikipediacontributors."AlphaGoversusLeeSedol."Wikipedia,TheFreeEncyclopedia.Wikipedia,TheFreeEncyclopedia,21Jun.2018.[4]Wikipediacontributors."AlphaGoZero."Wikipedia,TheFreeEncyclopedia.Wikipedia,TheFreeEncyclopedia,19Jun.2018.[5]WatkinsCJCH,DayanP.TechnicalNote:Q-Learning[J].MachineLearning,1992,8(3-4):279-292.[6]RummeryGA,NiranjanM.On-LineQ-LearningUsingConnectionistSystems[J].1994.[7]Sutton,R.S.,McAllester,D.A.,Singh,S.P.,andMansour,Y.(1999).Policygradientmethodsforreinforcementlearningwithfunctionapproximation.InNeuralInformationProcessingSystems12,pages1057–1063.[8]SilverD,LeverG,HeessN,etal.Deterministicpolicygradientalgorithms[C]//InternationalConferenceonInternationalConferenceonMachineLearning.JMLR.org,2014.[9]MnihV,Badia,AdriàPuigdomènech,MirzaM,etal.AsynchronousMethodsforDeepReinforcementLearning[J].2016.
技术实现思路
针对现有技术存在的不足,本专利技术提出一种用于智能无人系统的基于评论家和双经验池的深度确定性策略梯度强化学习方法,通过设计多个评论家的深度确定性策略梯度,旨在解决现有技术的训练稳定性问题和提高方法的性能表现,通过设计双经验池来提升训练过程的收敛速度,从而实现一种更高性能个更高稳定性的强化学习方法。第一方面,本专利技术提出一种用于智能无人系统的基于评论家和双经验池的深度确定性策略梯度强化学习方法,其中,所述智能无人系统包括一智能体,其特征在于包括以下步骤:步骤1:对智能体所在环境和智能体本身的行为特征进行分析,确定智能体的观测空间大小和动作空间大小;步骤2:基于深度确定性策略梯度(DeepDetermisticPolicyGradient)算法,构建根据所述智能体的观测输出决策动作的行动者actor模块和对所述动作进行评价反馈的评论家critic模块,并对所述actor模块和critic模块的参数进行随机初始化;步骤3:对于步骤2中的所述critic模块,创建至少二个独立异构的评论家critic子模块,各critic子模块具有不同的结构和参数以及参数的初始化,所有的critic子模块能够分别对所述动作作出评价反馈,这些反馈评价的平均值作为所述critic模块的最终评价;步骤4:创建经验池,用于保存供所述智能体离线学本文档来自技高网
...

【技术保护点】
1.一种用于智能无人系统的基于评论家和双经验池的深度确定性策略梯度强化学习方法,其中,所述智能无人系统包括一智能体,其特征在于包括以下步骤:步骤1:对智能体所在环境和智能体本身的行为特征进行分析,确定智能体的观测空间大小和动作空间大小;步骤2:基于深度确定性策略梯度(Deep Determistic Policy Gradient)算法,构建根据所述智能体的观测输出决策动作的行动者actor模块和对所述动作进行评价反馈的评论家critic模块,并对所述actor模块和critic模块的参数进行随机初始化;步骤3:对于步骤2中的所述critic模块,创建至少二个独立异构的评论家critic子模块,各critic子模块具有不同的结构和参数以及参数的初始化,所有的critic子模块能够分别对所述动作作出评价反馈,这些反馈评价的平均值作为所述critic模块的最终评价;步骤4:创建经验池,用于保存供所述智能体离线学习的经验池数据;在强化学习过程中,所述智能体按照指定的探索策略在环境中进行探索,在每一步探索中,生成由当前状态s,当前状态s下智能体执行的决策动作a,执行动作a后,所述智能体观测的环境也随之发生变化的下一状态s′,基于智能体的行为获得的奖励反馈r这四个信息构成的四元组数据<s,a,r,s′>,将所述每一步探索中生成的所述四元组数据作为经验数据保存在所述经验池中;步骤5:对于步骤4中的经验池,创建包括两个隔离的经验池A和B,经验池A保存所述智能体所有的四元组数据作为所述智能体学习的经验数据,经验池B则保存累计奖励高于第一特定阈值或者低于第二特定阈值的经验数据;步骤6:对所述actor模块和所述多个critic子模块进行迭代训练和参数更新,每一次迭代训练的数据是从所述经验池中随机抽取定量大小的一批四元组数据<s,a,r,s′>,其中一部分是从经验池A中抽取,另一部分是从经验池B中抽取的;步骤7:所述智能体完成所述步骤6的训练后,根据所述actor模块输出决策的动作。...

【技术特征摘要】
1.一种用于智能无人系统的基于评论家和双经验池的深度确定性策略梯度强化学习方法,其中,所述智能无人系统包括一智能体,其特征在于包括以下步骤:步骤1:对智能体所在环境和智能体本身的行为特征进行分析,确定智能体的观测空间大小和动作空间大小;步骤2:基于深度确定性策略梯度(DeepDetermisticPolicyGradient)算法,构建根据所述智能体的观测输出决策动作的行动者actor模块和对所述动作进行评价反馈的评论家critic模块,并对所述actor模块和critic模块的参数进行随机初始化;步骤3:对于步骤2中的所述critic模块,创建至少二个独立异构的评论家critic子模块,各critic子模块具有不同的结构和参数以及参数的初始化,所有的critic子模块能够分别对所述动作作出评价反馈,这些反馈评价的平均值作为所述critic模块的最终评价;步骤4:创建经验池,用于保存供所述智能体离线学习的经验池数据;在强化学习过程中,所述智能体按照指定的探索策略在环境中进行探索,在每一步探索中,生成由当前状态s,当前状态s下智能体执行的决策动作a,执行动作a后,所述智能体观测的环境也随之发生变化的下一状态s′,基于智能体的行为获得的奖励反馈r这四个信息构成的四元组数据<s,a,r,s′>,将所述每一步探索中生成的所述四元组数据作为经验数据保存在所述经验池中;步骤5:对于步骤4中的经验池,创建包括两个隔离的经验池A和B,经验池A保存所述智能体所有的四元组数据作为所述智能体学习的经验数据,经验池B则保存累计奖励高于第一特定阈值或者低于第二特定阈值的经验数据;步骤6:对所述actor模块和所述多个critic子模块进行迭代训练和参数更新,每一次迭代训练的数据是从所述经验池中随机抽取定量大小的一批四元组数据<s,a,r,s′>,其中一部分是从经验池A中抽取,另一部分是从经验池B中抽取的;步骤7:所述智能体完成所述步骤6的训练后,根据所述actor模块输出决策的动作。2.根据权利要求1所述的一种用于智能无人系统的基于评论家和双经验池的深度确定性策略梯度强化学习方法,其特征在于所述第一特定阈值为所有累计奖励收益的最大值的0.8倍,所述第二特定阈值为所有累计奖励收益的最小值的1.5倍。3.根据权利要求2所述的一种用于智能无人系统的基于评论家和双经验池的深度确定性策略梯度强化学习方法,其特征在于所述经验池B的大小比所述经验池A小,当所述经验池A或经验池B中的经验数据装满后,后续存储的经验数据覆盖最早保存的经验数据。4.根据权利要求3所述的一种用于智能无人系统的基于评论家和双经验池的深度确定性策略梯度强化学习方法,其特征在于所述步骤2的进一步包括以下子步骤:步骤2.1:获得所述观测空间大小state_shape;步骤2.2:所述actor模块采用深度神经网络模型,所述深度神经网络的参数使用零均值的高斯分布初始化;将所述智能体观测到的所述当前状态s作为神经网络的输入,输入大小为所述state_shape,然后经过多个中间隐含层,输出所述决策动作a,输出的大小为所述动作空间大小action_shape;对所述actor模块进行迭代训练,每迭代一定次数时,创建目标行动者target-actor模块,并将所述actor模块的参数复制到所述target-actor模块;步骤2.3:所述critic模块采用深度神经网络模型,所述深度神经网络的参数使用零均值的高斯分布初始化;将所述智能体观测到的当前状态s和所述智能体执行的所述决策动作a作为所述神经网络的输入,输入大小为所述stare_shape加上所述action_shape,然后经过多个中间隐含层,输出一个评价值,即:Q(s,a|θ),用所述评价值估计所述累计奖励,其中θ为所述深度神经网络参数,s,a为输入;对所述critic模块进行迭代训练,每迭代一定次数时,创建目标评论者target-critic模块,并将与所述critic模块的参数复制到所述target-critic模块。5.根据权利要求4所述的一种用于智能无人系统的基于评论家和双经验池的深度确定性策略梯度强化学习方法,其特征在于所述步骤3的包括以下子步骤:步骤3.1:当参与的评论家有K个时,对于所述critic模块而言,需要构建K个结构不同的critic子模块,构成长度为K的所述critic模块,每一个critic子模块独立地占据所述critic模块中的一个位置;步骤3.2:依次创建所述K个critic子模块,使用深度神经网络作为模型,其中每一个critic子模块的创建过程与步骤2.3中一样,每一个critic子模块的深度神经网络模型是不同的,具有不同的中间隐含层数量和各层节点数,并用不同的初始化分布来初始化网络参数,确保各个critic子模块具有不同的结构,其中,所述K为大于2的自然数;步骤3.3:对于上一步创建完成的容量为K的所述critic模块,使用所述critic模块的K个critic子模块的输出的平均值critic_avg作为所述critic模块的输出。6.根据权利要求1所述的一种用于智能无人系统的基于评论家和双经验池的深度确定性策略梯度强化学习方法,其特征在于所述步骤5包括以下子步骤:步骤5.1:采用环形数组保存所述四元组数据<s,a,r,s′>,所述数组每一个单位空间保存一个四元组数据;步骤5.2:对于需要保存的一批新的四元组数据,首先保存到经验池A的数组中,如果这一批四元组数据的累计奖励收益高于第一特定阈值或者低于第二特定阈值,则再将它保存到经验池B的数组中;步骤5.3:依据比例p分别从A和B中进行抽样,抽样的总大小为N,其中从A中随机抽样N*(1-p)个四元组,从B中随机抽样N*p个四元组,其中,N为自然数,p为抽样比率,且0≤p≤1。7....

【专利技术属性】
技术研发人员:王瑞吴蛟李瑞英胡晓惠
申请(专利权)人:中国科学院软件研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1