多状态连续动作空间的合作式方法及系统技术方案

技术编号:20657722 阅读:199 留言:0更新日期:2019-03-23 09:06
本发明专利技术提供一种多状态连续动作空间的合作式方法及系统,属于强化学习领域。本发明专利技术方法包括如下步骤:对于任意状态集合中的状态,初始化动作集;对于任意状态集合中的状态和动作集中的动作,初始化相关参数;分别在动作集修正层和策略评估更新层构建相应的协作机制,直至智能体i在状态s下的回报收敛。本发明专利技术还提供了一种实现所述多状态连续动作空间的合作式方法的系统。本发明专利技术的有益效果为:能够很好的处理连续动作空间中多智能体的协作问题。

Cooperative Method and System for Multi-state Continuous Action Space

The invention provides a cooperative method and system for multi-state continuous action space, belonging to the field of reinforcement learning. The method of the invention includes the following steps: initializing the action set for the state in any state set; initializing the relevant parameters for the state in any state set and the action in the action set; constructing the corresponding cooperation mechanism in the action set correction layer and the strategy evaluation update layer, respectively, until the agent I converges under the state S. The invention also provides a system for realizing the cooperative method of the multi-state continuous action space. The beneficial effect of the invention is that the multi-agent cooperation problem in continuous action space can be well handled.

【技术实现步骤摘要】
【国外来华专利技术】多状态连续动作空间的合作式方法及系统
本专利技术涉及强化学习领域,尤其涉及一种多状态连续动作空间的合作式方法及系统。
技术介绍
目前强化学习领域已有很多工作被设计用来学习连续动作空间问题的最优解,然而大部分工作还是集中在单智能体学习上。在多智能体协作领域遇到的一些问题,如非平稳性和随机性问题,依旧是连续动作空间问题上的巨大挑战。现实中有很多研究领域涉及到连续动作空间上的多智能体协作问题,如机器人足球[1]和多人在线竞技游戏[2]。在这类问题中,智能体不仅需要解决连续动作空间上的无穷大动作集选择问题,还需要同其他智能体有效地协作来寻求群体回报最优。到目前为止,已经有很多研究用于解决多智能体环境情况下的协作问题。最常见的为基于Q学习扩展类的算法,如Distributed-Q学习[3]、Hysteretic-Q学习[4]、Lenient学习[5]、Lenient-FAQ[6]、LMRL2[7]、Lenient-DQN[8]和rFMQ[9]。这些算法能解决一定程度的多智能体系统的协作问题,但是它们只能应用在离散的动作空间中。另一方面,一些工作集中于研究连续动作空间下的控制问题,如值函数近似(ValueApproximation)算法[10-14]和策略近似(PolicyApproximation)算法[15-18]。值函数近似类算法按照训练样本估计在状态-动作空间对应的值函数,而策略近似类算法将策略定义为连续空间上的某种分布的概率密度函数,然后直接学习策略。这两类类算法的学习性能依赖于被估计的值函数的特性,而常见的问题中状态-动作对应的值函数通常具有复杂的结构,如非线性性。另一类解决连续动作空间问题的算法为基于蒙特卡洛(Monte-Carlo-based)采样类方法[19,20],这类算法使用采样来解决连续动作空间上的探索问题,可以很方便的和传统的离散类强化学习算法结合。上述两类算法都是设计在单智能体环境中的,并不能直接应用在多智能体协作问题中。因为多智能体环境下,智能体对自己当前策略下回报函数的估计并不能反映其当前的策略[21]。此外还有一些工作研究在连续动作空间的多智能体环境中的问题,但并不是针对多智能体协作问题,如针对公平性的学习算法[22],以及使用连续玻尔兹曼探索策略中算法在稳定状态下的理论模型分析[23]。
技术实现思路
为解决现有技术中的问题,本专利技术提供一种多状态连续动作空间的合作式方法及系统。本专利技术多状态连续动作空间的合作式方法包括如下步骤:(1):对于任意状态s∈S,初始化采样的动作集Ai(s)为集智能体i的连续动作空间中随机样的n个动作,其中,S为状态集合;(2):对于对任意的状态s∈S和动作a∈Ai(s),初始化智能体i在状态s下关于动作a的期望回报Qi(s,a),历史最大回报和加权平均回报Ei(s,a),智能体i在状态s下的平均期望回报Vi(s),初始化在状态s下选择动作a的概率πi(s,a),出现回报最大值的频率的估计Fi(s,a),及探索率li(s)为设定值;(3):重复执行以下步骤直至智能体i在状态s下的回报收敛,(31):初始化状态s←s0;(32):重复以下步骤直到状态s到达终止态(321):判断是否需要更新动作集,如果否,执行步骤(322),如果是,对动作集进行重采样,保留最大回报动作,并在该动作一定范围内采集新的动作作为新的动作集,然后执行步骤(322);(322):对于任意的a∈Ai(s),按照具有最高回报的动作被最高概率的选择原则更新πi(s,a)和Qi(s,a);(323):更新状态:s←s′。本专利技术作进一步改进,在步骤(1)中,设置各状态最开始的采样动作集Ai(s)为连续动作空间中等距离采样的n个动作。本专利技术作进一步改进,采用分片双线性差值算法将n个离散动作转化为连续动作空间上的连续动作。本专利技术作进一步改进,在步骤(31)中,通过协作式采样策略进行重采样,更新动作集,采用可变的探索率li(s)控制所述协作式采样策略在最大回报动作周围采样新动作的范围。本专利技术作进一步改进,所述协作式采样策略的处理方法为:A1:更新探索率li(s):如果当前动作集的平均期望回报大于或等于之前的各动作集的累计平均期望回报Vi(s),则减少探索率li(s)为li(s)δd,否则增加li(s)为li(s)δl,其中,δl为大于1的正实数,δd为小于1的正实数;A2:更新累计平均期望回报:其中αs为学习率;A3:按照探索率li(s)重新采样动作集:计算当前回报最大的动作保留当前集合中具有最大的期望回报的|Ai(s)|/3个动作,并从半径为li(s)的amax的邻域内随机选择2|Ai(s)|/3个新的动作,共同组成新的动作集;A4:初始化每个动作新的动作下的策略πi(s,a)和对应的期望回报Qi(s,a)为起始的设定值。本专利技术作进一步改进,在步骤(32)中,智能体i采用多状态递归频率最大Q值学习算法进行学习更新。本专利技术作进一步改进,所述多状态递归频率最大Q值学习算法的处理方法为:B1:判断当前的动作集是否更新过,如果否,直接执行步骤B2,如果是,初始化当前状态下所有动作对应的Fi(s,a)、和Ei(s,a),然后执行步骤B2;B2:以一定的探索率按照策略πi(s,a)选择状态s下的行为a∈Ai(s);B3:从环境中观察到回报r和下一步状态s′,并更新当前s和a对应的状态动作值Qi(s,a):Qi(s,a)←(1-α)Qi(s,a)+α(r+γmaxa′Qi(s′,a′)),其中,α为学习率,γ为折扣因子,为下一步状态s′时,动作a’时的最大状态动作值;B4:按照递归最大值优先思想估计Ei(s,a);B5:依据Ei(s,a)使用策略爬山算法更新策略πi(s,a),即增加选择具有最大Ei(s,a)值的动作的概率,同时选择减小其它动作的概率。本专利技术还提供了一种实现所述多状态连续动作空间的合作式方法的系统,包括:初始化动作集模块:用于对于任意状态s∈S,初始化采样的动作集Ai(s)为集智能体i的连续动作空间Ai(s)中随机样的n个动作;初始化参数模块:对于对任意的状态s∈S和动作a∈Ai(s),初始化智能体i在状态s下关于动作a的期望回报Qi(s,a),历史最大回报和加权平均回报Ei(s,a),智能体i在状态s下的平均期望回报Vi(s),初始化在状态s下选择动作a的概率πi(s,a),出现回报最大值的频率的估计Fi(s,a),及探索率li(s)为设定值;收敛模块:用于重复执行以下单元直至智能体i在状态s下的回报收敛,动作集修正单元:用于判断是否需要更新动作集,如果否,执行策略评估和更新单元,如果是,对动作集进行重采样,保留最大回报动作,并在该动作一定范围内采集新的动作作为新的动作集,然后执行策略评估和更新单元;策略评估和更新单元:用于对于任意的a∈Ai(s),按照具有最高回报的动作被最高概率的选择原则更新πi(s,a)和Qi(s,a);状态更新单元:用于更新状态s←s′。本专利技术作进一步改进,所述动作集修正单元通过协作式采样策略进行重采样,更新动作集,采用可变的探索率li(s)控制所述协作式采样策略在最大回报动作周围采样新动作的范围。本专利技术作进一步改进,所述策略评估和更新单元采用多状态递归频率最大Q本文档来自技高网
...

【技术保护点】
1.多状态连续动作空间的合作式方法,其特征在于包括如下步骤:(1):对于任意状态s∈S,初始化采样的动作集Ai(s)为集智能体i的连续动作空间

【技术特征摘要】
【国外来华专利技术】1.多状态连续动作空间的合作式方法,其特征在于包括如下步骤:(1):对于任意状态s∈S,初始化采样的动作集Ai(s)为集智能体i的连续动作空间中随机样的n个动作,其中,S为状态集合;(2):对于对任意的状态s∈S和动作a∈Ai(s),初始化智能体i在状态s下关于动作a的期望回报Qi(s,a),历史最大回报和加权平均回报Ei(s,a),智能体i在状态s下的平均期望回报Vi(s),初始化在状态s下选择动作a的概率πi(s,a),出现回报最大值的频率的估计Fi(s,a),及探索率li(s)为设定值;(3):重复执行以下步骤直至智能体i在状态s下的回报收敛,(31):初始化状态s←s0;(32):重复以下步骤直到状态s到达终止态(321):判断是否需要更新动作集,如果否,执行步骤(322),如果是,对动作集进行重采样,保留最大回报动作,并在该动作一定范围内采集新的动作作为新的动作集,然后执行步骤(322);(322):对于任意的a∈Ai(s),按照具有最高回报的动作被最高概率的选择原则更新πi(s,a)和Qi(s,a);(323):更新状态:s←s′。2.根据权利要求1所述的多状态连续动作空间的合作式方法,其特征在于:在步骤(1)中,设置各状态最开始的采样动作集Ai(s)为连续动作空间中等距离采样的n个动作。3.根据权利要求2所述的多状态连续动作空间的合作式方法,其特征在于:采用分片双线性差值算法将n个离散动作转化为连续动作空间上的连续动作。4.根据权利要求1-3任一项所述的多状态连续动作空间的合作式方法,其特征在于:在步骤(31)中,通过协作式采样策略进行重采样,更新动作集,采用可变的探索率li(s)控制所述协作式采样策略在最大回报动作周围采样新动作的范围。5.根据权利要求4所述的多状态连续动作空间的合作式方法,其特征在于:所述协作式采样策略的处理方法为:A1:更新探索率li(s):如果当前动作集的平均期望回报大于或等于之前的各动作集的累计平均期望回报Vi(s),则减少探索率li(s)为li(s)δd,否则增加li(s)为li(s)δl,其中,δl为大于1的正实数,δd为小于1的正实数;A2:更新累计平均期望回报:其中αs为学习率;A3:按照探索率li(s)重新采样动作集:计算当前回报最大的动作保留当前集合中具有最大的期望回报的|Ai(s)|/3个动作,并从半径为li(s)的amax的邻域内随机选择2|Ai(s)|/3个新的动作,共同组成新的动作集;A4:初始化每个动作新的动作下的策略πi(s,a)和对应的期望回报Qi(s,a)为起始的设定值。6.根...

【专利技术属性】
技术研发人员:侯韩旭郝建业张程伟
申请(专利权)人:东莞理工学院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1