一种基于乐观投影的策略梯度多智能体强化学习方法技术

技术编号:38003880 阅读:9 留言:0更新日期:2023-06-30 10:18
本发明专利技术公开了一种基于乐观投影的策略梯度多智能体强化学习方法,属于人工智能领域。本方法包含如下步骤:1、构建智能体初始策略网络;2、构建基于值分解的值函数评估网络;3、基于乐观投影对局部效用函数进行训练更新;4、使用整体Q值对值函数评估网络进行更新;5、使用评估网络指导策略网络更新;6、模型输出决策结果。本方法提出一种基于乐观投影思想的策略梯度多智能体强化学习方法,使用值分解方法构造策略梯度算法中的评论家网络,乐观评估智能体的动作值,从而加强策略搜索的合理性,鼓励探索最优策略,接着根据更加准确的值函数估计指导智能体策略网络的更新,使得其更倾向于选择最优策略。最优策略。最优策略。

【技术实现步骤摘要】
一种基于乐观投影的策略梯度多智能体强化学习方法


[0001]本专利技术使用基于乐观投影的策略梯度多智能体强化学习方法,属于人工智能领域,是一种基于乐观投影通过改进值函数评估方法提高策略梯度强化学习的方法。

技术介绍

[0002]多智能体强化学习方法是在机器学习领域中具有重要意义,近年来被广泛研究和评估,并且在各个领域都表现出越来越大的能力,比如视频游戏、机器人控制、交通信号灯控制、金融市场决策、军事场景对抗等等。但是随着智能体数量上升,强化学习的状态空间呈指数级上升,如何提高多智能体的协作能力成为近年来热门的研究课题。特别是在一些复杂的多智能体协作任务中,智能体倾向于选择次优动作,导致最终难以搜索的全局最优策略。对于多智能体强化学习的研究主要分为两种:(1)基于值的多智能体强化学习方法;(2)基于策略的多智能体强化学习方法。
[0003]基于值的多智能体强化学习专注于学习评估值函数并改变智能体行为,而不是直接学习其策略。它是通过估计每个可能的状态的“价值”来选择特定状态下的最优动作、学习如何产生最大化期望奖励的算法。值分解多智能体强化学习算法是近年来表现最优的方法之一,它通过对每个智能体的效用函数的输出值作非线性变换将其组合到一起,同时约束其满足单调一致性,从而计算整体的动作值函数。例如QMIX、QPLEX等算法在许多任务中取得了最佳的表现。这类方法缓解了多智能体强化学习中的非稳态问题,具有可扩展性,并且在纯合作多智能体任务中表现出了强大的性能。
[0004]策略梯度多智能体强化学习方法能够处理连续型动作以及随机策略的问题。它能够直接学习基于目标的策略以及更复杂的策略。同时,它可以更快地搜寻到好的策略,并且在新的环境中表现地更加出色。近年来,演员

评论家框架将基于值的值函数评估网络引入了基于策略的强化学习算法中,降低了其训练中的方差,提高了训练效率以及表现。但以往的策略梯度多智能体强化学习算法往往是在线学习的,导致样本利用率低;同时值函数评估网络不够精确,也影响了其性能。
[0005]本专利技术将值分解方法引入到了演员

评论家框架中,使用值分解方法代替原来的集中式的值函数评估模块;同时基于乐观投影思想,使用弹性权重方法提高了智能体对动作的评估能力,从而加强了策略梯度多智能体强化学习算法中值函数的性能,根据更精确的值函数网络计算策略网络的梯度,更好地指导策略网络的更新,最终促进了策略梯度多智能体强化学习的决策能力。

技术实现思路

[0006]本专利技术为解决
技术介绍
中存在的技术问题,提供了一种基于乐观投影的策略梯度多智能体强化学习方法。
[0007]本专利技术采用以下技术方案:一种基于乐观投影的策略梯度多智能体强化学习方法,包括如下步骤:
[0008]步骤1,根据强化学习演员

评论家框架构建初始策略网络模块,采用多层感知机和循环神经网络,构建初始决策模型;
[0009]步骤2,根据强化学习演员

评论家框架构建初始值函数评估网络模块,根据值分解多智能体强化学习网络结构,采用多层感知机,构建初始值函数评估模型;
[0010]步骤3,定义智能体局部效用函数为最优动作值函数;基于乐观投影思想以及弹性权重方法对局部效用函数q
i

i
,u
i
)进行更新,其中τ
i
为智能体i的轨迹,u
i
为智能体i的动作;
[0011]步骤4,使用值分解损失函数以及联合动作值Q(τ,u)对值函数评估网络进行更新,其中τ为所有智能体的轨迹,u为智能体的联合动作;
[0012]步骤5,使用值函数网络输出的联合动作值Q(τ,u)以及局部效用函数动作值q
i

i
,u
i
)指导策略网络更新;
[0013]步骤6,使用步骤5中训练好的训练决策模型输出策略概率值;将策略概率处理后根据动作概率p选择动作。
[0014]所述步骤2中的演员

评论家框架中的值函数评估网络由值分解网络结构构成,即每个智能体具有自己的局部效用函数q
i

i
,u
i
),所输出的值通过Mix超网络生成权重进行加权求和,最终输出联合动作值Q(τ,u)。
[0015]所述步骤3中的基于演员

评论家的值函数评估网络模块由具有实际意义的局部效用函数q
i

i
,u
i
)构成,其定义为:
[0016]q
i

i
,u
i
)=max
u

i
Q(τ
i
,u
i
,u

i
),
[0017]其中u

i
为其他智能体的动作;通过该定义,可以使局部效用函数具有实际意义,并辅助决策模型的训练。
[0018]所述步骤3中的局部效用函数q
i

i
,u
i
)基于乐观投影思想进行更新,计算如下:
[0019][0020][0021]其中,表示样本池中均方误差的期望值;γ为折扣系数;τ
i

,u
i

为智能体i下一步的轨迹和动作;D为样本池;δ
i
为时差偏差;II为指示函数,当δ
i
>0成立时为1,否则为0;δ
i
可以体现该样本中状态动作对的好坏,若其为正数则正常更新,若其为负数,则乐观地认为当前动作受到了其他智能体不好的动作的影响,因此降低该样本权重。
[0022]所述步骤3中的局部效用函数q
i

i
,u
i
)基于乐观投影思想以及弹性权重方法进行更新,弹性权重β
e
计算如下:
[0023][0024]其中,当即智能体j没有选取最优动作时为1,否则为0;μ,η为控制弹性权重影响程度的超参数,n为智能体数量,r为单步奖励值;β
e
为弹性权重方法,通过判断其他智能体是否选择当前最优动作,从而判断该样本的重要性,根据该判断调整样本权重,具体为:
[0025]若该样本δ
i
值为负数,当其他智能体选择的动作不是当前最优动作时,则该智能
体动作确实受到了其他智能体动作的影响,当其他智能体选择的非最优动作越多,则判断该影响越大。
[0026]基于此,局部效用函数q
i

i
,u
i
)使用基于乐观投影思想的弹性权重方法进行更新。
[0027]所述步骤4中的基于演员

评论家的值函本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于乐观投影的策略梯度多智能体强化学习方法,其特征在于,包括如下步骤:步骤1,根据强化学习演员

评论家框架构建初始策略网络模块,采用多层感知机和循环神经网络,构建初始决策模型;步骤2,根据强化学习演员

评论家框架构建初始值函数评估网络模块,根据值分解多智能体强化学习网络结构,采用多层感知机,构建初始值函数评估模型;步骤3,定义智能体局部效用函数为最优动作值函数;基于乐观投影思想以及弹性权重方法对局部效用函数q
i

i
,u
i
)进行更新,其中τ
i
为智能体i的轨迹,u
i
为智能体i的动作;步骤4,使用值分解损失函数以及联合动作值Q(τ,u)对值函数评估网络进行更新,其中τ为所有智能体的轨迹,u为智能体的联合动作;步骤5,使用值函数网络输出的联合动作值Q(τ,u)以及局部效用函数动作值q
i

i
,u
i
)指导策略网络更新;步骤6,使用步骤5中训练好的训练决策模型输出策略概率值;将策略概率处理后根据动作概率p选择动作。2.根据权利要求1所述的一种基于乐观投影的策略梯度多智能体强化学习方法,其特征在于,所述步骤2中的演员

评论家框架中的值函数评估网络由值分解网络结构构成,即每个智能体具有自己的局部效用函数q
i

i
,u
i
),所输出的值通过Mix超网络生成权重进行加权求和,最终输出联合动作值Q(τ,u)。3.根据权利要求1所述的一种基于乐观投影的策略梯度多智能体强化学习方法,其特征在于,所述步骤3中的基于演员

评论家的值函数评估网络模块由具有实际意义的局部效用函数q
i

i
,u
i
)构成,其定义为:其中u

i
为其他智能体的动作;通过该定义,使局部效用函数具有实际意义,并辅助决策模型的训练。4.根据权利要求1所述的一种基于乐观投影的策略梯度多智能体强化学习方法,其特征在于,所述步骤3中的局部效用函数q
i

i
,u
i
)基于乐观投影思想进行更新,计算如下:)基于乐观投影思想进行更新,计算如下:其中,表示样本池中均方误差的期望值;γ为折扣系数;τ
i

,u

【专利技术属性】
技术研发人员:王健琦陈佳瑞胡裕静高阳解宇
申请(专利权)人:江苏万维艾斯网络智能产业创新中心有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1