一种多Agent深度强化学习算法制造技术

技术编号:31806132 阅读:15 留言:0更新日期:2022-01-08 11:08
本发明专利技术公开了一种多Agent深度强化学习算法,包括:S1:学习的策略在执行时只使用本地信息,即它们自己的观察结果;S2:智能体之间的通信方法不做任何结构上的假设,即不假设一个可区分的通信渠道;S3:leader层网络只输入全局智能体的状态信息,只作用于每个智能体的输出动作值,并不参与每个智能体的策略执行,既保持每个智能体的独立性,又保证所有智能体群体之间的通信。本发明专利技术通过在分布式执行之前加入集中式预判分配权重,增强了智能体群体之间的决策通信,提高了Leader_MADDPG在多变的环境关系中智能体训练过程中的稳定性和训练后的鲁棒性。鲁棒性。鲁棒性。

【技术实现步骤摘要】
一种多Agent深度强化学习算法


[0001]本专利技术涉及学习算法,具体涉及一种多Agent深度强化学习算法
‑‑
Leader_MADDPG。

技术介绍

[0002]多Agent深度强化学习是指在多个智能体环境中,使用深度强化学习的算法使得智能体之间可以像人一样进行协作交流,达到智能博弈的效果。与传统的强化学习的单个智能体在单个领域方面实施训练不同,多Agent强化学习可以实现大量自治或半自治的群体系统,并且可以拓展到多个领域的综合训练。
[0003]目前主流的MADDPG多Agent强化学习算法具有较强的收敛性、复杂环境适应性以及自我学习能力,虽然其在大部分多Agent环境中取得了预期的群体效果,但由于MADDPG在动作网络的输出动作过程中仅仅考虑到了自己所在的环境状态信息,并且只能通过全局评估网络的Q值更新才考虑到除自身以外其他智能体的部分反馈信息,这对于一个群体系统来说达到协作交流的效率就大打折扣了,并没有充分发挥群体博弈的最大优势,从而使得MADDPG在较为复杂的多Agent环境中收敛速度以及收敛的奖励幅度有着较大的提升空间。

技术实现思路

[0004]本专利技术的主要目的在于提供一种多Agent深度强化学习算法。
[0005]本专利技术采用的技术方案是:一种多Agent深度强化学习算法,包括:S1:学习的策略在执行时只使用本地信息,即它们自己的观察结果;S2:智能体之间的通信方法不做任何结构上的假设,即不假设一个可区分的通信渠道;S3:leader层网络只输入全局智能体的状态信息,只作用于每个智能体的输出动作值,并不参与每个智能体的策略执行,既保持每个智能体的独立性,又保证所有智能体群体之间的通信。
[0006]进一步地,多Agent深度强化学习算法,还包括:所述多Agent深度强化学习算法中智能体i的期望收益的梯度如公式(1)所示:
ꢀꢀꢀꢀ
(1)其中是一个集中的动作值函数,它将所有智能体的动作加上一些状态信息x作为输入,然后输出智能体i的Q值;智能体可以有任意的奖励方式,包括在竞争环境中相互冲突的奖励。
[0007]更进一步地,多Agent深度强化学习算法,还包括:多Agent集中式leader层的期望收益的梯度更新方式如式(2)所示:
ꢀꢀꢀꢀ
(2)
其中是leader网络的参数集合,为所有智能体策略的集合。
[0008]更进一步地,多Agent深度强化学习算法,还包括:对于评估网络更新,经验回放缓冲区D包含元组,记录了所有智能体的经验,集中的评估网络更新方式如式(3)所示:新方式如式(3)所示:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)其中为具有延迟参数的目标策略集合,为具有延迟参数的目标预判集合。
[0009]更进一步地,多Agent深度强化学习算法,还包括:策略层神经网络采用Leaky_Relu和Tanh作为层与层之间的激活函数,以智能体i自身的本地信息作为输入,输出其对应的策略动作,与leader层输出当前全局信息下的每个智能体i的策略动作占比权重值相乘,作为最终的策略动作输出值。
[0010]更进一步地,多Agent深度强化学习算法,还包括:全局评估网络层采用Leaky_Relu作为层与层之间的激活函数,以所有智能体的全局信息以及每个智能体i的最终策略动作值作为输入,进而对每个智能体i的策略网络以及leader层网络进行评估反馈更新。
[0011]更进一步地,多Agent深度强化学习算法,还包括:所述多Agent深度强化学习算法在多Agent系统中,leader层以及评估网络的输入空间随着智能体个数n线性增长,所采取的解决方案是局部模块化以实现leader层及评估层功能,外加一层全局的评估网络对局部leader层以及局部评估层的Q值进行更新。
[0012]本专利技术的优点:本申请针对现有主流的MADDPG算法在多Agent群体环境下Q值收敛速度慢、训练时的奖励幅度波动过大的问题,随着多Agent之间的关系本质的变化,MADDPG在集体回报上所获得的收益并没有发挥到最大化,每个智能体在前期都是分布式执行的情况下并没有考虑到其他智能体的状态信息,使得所有智能体后期的训练过程中只能通过全局评估网络进行参数更新,并没有达到完全意义上的多智能体通信。
[0013]本申请的多Agent深度强化学习Leader_MADDPG神经网络中引入了leader层,解决上述MADDPG存在的部分问题,通过在分布式执行之前加入集中式预判分配权重,增强了智能体群体之间的决策通信,提高了Leader_MADDPG在多变的环境关系中智能体训练过程中的稳定性和训练后的鲁棒性。
[0014]本申请的Leader_MADDPG对于OpenAI上的多个不同多Agent环境(simple_adversary,simple_push,simple_tag,simple_spread)进行数据实验分析对比,通过实验表明本专利技术在各种协作和竞争的多Agent环境中胜过传统的MADDPG算法,并证明其在不同的环境关系中的适用性,并可以将其迁移至生活中的多Agent实际环境之中进行运用。
[0015]除了上面所描述的目的、特征和优点之外,本专利技术还有其它的目的、特征和优点。下面将参照图,对本专利技术作进一步详细的说明。
附图说明
[0016]构成本申请的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0017]图1为本专利技术实施例的Leader_MADDPG神经网络模型的总体框架图;图2为本专利技术实施例的leader层神经网络模型示意图;图3为本专利技术实施例的实验模型环境simple_adversary示意图;图4为本专利技术实施例的实验模型环境simple_push示意图;图5为本专利技术实施例的实验模型环境simple_tag示意图;图6为本专利技术实施例的实验模型环境simple_spread示意图;图7为本专利技术实施例的simple_adversary的平均奖励对比图;图8为本专利技术实施例的simple_push的平均奖励对比图;图9为本专利技术实施例的simple_tag的平均奖励对比图;图10为本专利技术实施例的simple_spread的平均奖励对比图。
具体实施方式
[0018]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0019]参考图1至图10,一种多Agent深度强化学习算法,包括:S1:学习的策略在执行时只使用本地信息,即它们自己的观察结果;S2:智能体之间的通信方法不做任何结构上的假设,即不假设一个可区分的通信渠道;S3:leader层网络只输入全局智能体的状态信息,只作用于每个智能体的输出动作值,并不参与每个智能体的策略执行,既保持每个智能体的独立性,又保证所有智能体群体之间的通本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多Agent深度强化学习算法,其特征在于,包括:S1:学习的策略在执行时只使用本地信息,即它们自己的观察结果;S2:智能体之间的通信方法不做任何结构上的假设,即不假设一个可区分的通信渠道;S3:leader层网络只输入全局智能体的状态信息,只作用于每个智能体的输出动作值,并不参与每个智能体的策略执行,既保持每个智能体的独立性,又保证所有智能体群体之间的通信。2.根据权利要求1所述的多Agent深度强化学习算法,其特征在于,还包括:所述多Agent深度强化学习算法中智能体i的期望收益的梯度如公式(1)所示:
ꢀꢀꢀꢀ
(1)其中是一个集中的动作值函数,它将所有智能体的动作加上一些状态信息x作为输入,然后输出智能体i的Q值;智能体可以有任意的奖励方式,包括在竞争环境中相互冲突的奖励。3.根据权利要求1所述的多Agent深度强化学习算法,其特征在于,还包括:多Agent集中式leader层的期望收益的梯度更新方式如式(2)所示:
ꢀꢀꢀꢀ
(2)其中是leader网络的参数集合,为所有智能体策略的集合。4.根据权利要求1所述的多Agent深度强化学习算法,其特征在于,还包括:对于评估网络更新,经验回放缓冲区D包含元组,记录了所有智能体的经验,集中的...

【专利技术属性】
技术研发人员:王旭张宇郭秀娟徐勇尤天舒富倩孙伟刘钢戴传祗吴程巍
申请(专利权)人:吉林建筑大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1