The invention provides a cooperative method and system for multi-state continuous action space, belonging to the field of reinforcement learning. The method of the invention includes the following steps: initializing the action set for the state in any state set; initializing the relevant parameters for the state in any state set and the action in the action set; constructing the corresponding cooperation mechanism in the action set correction layer and the strategy evaluation update layer, respectively, until the agent I converges under the state S. The invention also provides a system for realizing the cooperative method of the multi-state continuous action space. The beneficial effect of the invention is that the multi-agent cooperation problem in continuous action space can be well handled.
【技术实现步骤摘要】
【国外来华专利技术】多状态连续动作空间的合作式方法及系统
本专利技术涉及强化学习领域,尤其涉及一种多状态连续动作空间的合作式方法及系统。
技术介绍
目前强化学习领域已有很多工作被设计用来学习连续动作空间问题的最优解,然而大部分工作还是集中在单智能体学习上。在多智能体协作领域遇到的一些问题,如非平稳性和随机性问题,依旧是连续动作空间问题上的巨大挑战。现实中有很多研究领域涉及到连续动作空间上的多智能体协作问题,如机器人足球[1]和多人在线竞技游戏[2]。在这类问题中,智能体不仅需要解决连续动作空间上的无穷大动作集选择问题,还需要同其他智能体有效地协作来寻求群体回报最优。到目前为止,已经有很多研究用于解决多智能体环境情况下的协作问题。最常见的为基于Q学习扩展类的算法,如Distributed-Q学习[3]、Hysteretic-Q学习[4]、Lenient学习[5]、Lenient-FAQ[6]、LMRL2[7]、Lenient-DQN[8]和rFMQ[9]。这些算法能解决一定程度的多智能体系统的协作问题,但是它们只能应用在离散的动作空间中。另一方面,一些工作集中于研究连续动作空间下的控制问题,如值函数近似(ValueApproximation)算法[10-14]和策略近似(PolicyApproximation)算法[15-18]。值函数近似类算法按照训练样本估计在状态-动作空间对应的值函数,而策略近似类算法将策略定义为连续空间上的某种分布的概率密度函数,然后直接学习策略。这两类类算法的学习性能依赖于被估计的值函数的特性,而常见的问题中状态-动作对应的值函数通常具有复杂的结构,如 ...
【技术保护点】
1.多状态连续动作空间的合作式方法,其特征在于包括如下步骤:(1):对于任意状态s∈S,初始化采样的动作集Ai(s)为集智能体i的连续动作空间
【技术特征摘要】
【国外来华专利技术】1.多状态连续动作空间的合作式方法,其特征在于包括如下步骤:(1):对于任意状态s∈S,初始化采样的动作集Ai(s)为集智能体i的连续动作空间中随机样的n个动作,其中,S为状态集合;(2):对于对任意的状态s∈S和动作a∈Ai(s),初始化智能体i在状态s下关于动作a的期望回报Qi(s,a),历史最大回报和加权平均回报Ei(s,a),智能体i在状态s下的平均期望回报Vi(s),初始化在状态s下选择动作a的概率πi(s,a),出现回报最大值的频率的估计Fi(s,a),及探索率li(s)为设定值;(3):重复执行以下步骤直至智能体i在状态s下的回报收敛,(31):初始化状态s←s0;(32):重复以下步骤直到状态s到达终止态(321):判断是否需要更新动作集,如果否,执行步骤(322),如果是,对动作集进行重采样,保留最大回报动作,并在该动作一定范围内采集新的动作作为新的动作集,然后执行步骤(322);(322):对于任意的a∈Ai(s),按照具有最高回报的动作被最高概率的选择原则更新πi(s,a)和Qi(s,a);(323):更新状态:s←s′。2.根据权利要求1所述的多状态连续动作空间的合作式方法,其特征在于:在步骤(1)中,设置各状态最开始的采样动作集Ai(s)为连续动作空间中等距离采样的n个动作。3.根据权利要求2所述的多状态连续动作空间的合作式方法,其特征在于:采用分片双线性差值算法将n个离散动作转化为连续动作空间上的连续动作。4.根据权利要求1-3任一项所述的多状态连续动作空间的合作式方法,其特征在于:在步骤(31)中,通过协作式采样策略进行重采样,更新动作集,采用可变的探索率li(s)控制所述协作式采样策略在最大回报动作周围采样新动作的范围。5.根据权利要求4所述的多状态连续动作空间的合作式方法,其特征在于:所述协作式采样策略的处理方法为:A1:更新探索率li(s):如果当前动作集的平均期望回报大于或等于之前的各动作集的累计平均期望回报Vi(s),则减少探索率li(s)为li(s)δd,否则增加li(s)为li(s)δl,其中,δl为大于1的正实数,δd为小于1的正实数;A2:更新累计平均期望回报:其中αs为学习率;A3:按照探索率li(s)重新采样动作集:计算当前回报最大的动作保留当前集合中具有最大的期望回报的|Ai(s)|/3个动作,并从半径为li(s)的amax的邻域内随机选择2|Ai(s)|/3个新的动作,共同组成新的动作集;A4:初始化每个动作新的动作下的策略πi(s,a)和对应的期望回报Qi(s,a)为起始的设定值。6.根...
【专利技术属性】
技术研发人员:侯韩旭,郝建业,张程伟,
申请(专利权)人:东莞理工学院,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。