一种基于动态图通信的多智能体强化学习协同方法技术

技术编号:38025298 阅读:8 留言:0更新日期:2023-06-30 10:52
本发明专利技术属于人工智能与多智能体协同领域,涉及一种基于动态图通信的多智能体强化学习协同方法。针对已有方法通信开销大,难以满足现实应用需求,以及难以学习到高级合作策略的问题,本发明专利技术旨在在符合更加现实的受限通信条件下,实现有效的通信,从而促进智能体间的合作,学习到高级的合作策略。包括以下步骤:动态通信图建立;通信权重自适应生成;智能体间实时通信;智能体进行动作价值估计;超网络进行智能体间信用分配;利用时序差分损失进行参数更新;在验证环境中进行应用。通过本发明专利技术在较小通信开销的前提下,使得模型可以自适应地进行有效的通信,并显著地提升智能体间的合作性能,同时具有更高的可拓展性,可广泛应用于多智能体协同领域。智能体协同领域。智能体协同领域。

【技术实现步骤摘要】
一种基于动态图通信的多智能体强化学习协同方法


[0001]本专利技术属于人工智能与多智能体协同领域,特别涉及一种基于动态图通信的多智能体强化学习协同方法。

技术介绍

[0002]多智能体协同主要是在交互环境中,包含多个智能体的智能体系统不断与环境进行交互以最大化系统获得的收益,其中每个智能体都进行独立的策略决策,他们协同自治地完成团队目标。多智能体协同技术在智慧城市,智能交通,车路协同,无人机控制等领域中发挥着至关重要的作用,可以用于多个独立终端的通信协调,最优化资源分配,集群路径规划等任务中。
[0003]近年来,多智能体协同方法已经取得了很大的进步,但是随着多智能体规模的增加,联合的合作策略空间搜索复杂度指数级上升,再加上智能体独立决策带来的非平稳性,以及多个智能体间的复杂的耦合关系,大大限制了相关算法的发展。因此,多智能体强化学习算法作为一种自适应促进智能体协作的行之有效的方法逐渐得到越来越多的关注,它可以直接在训练阶段,利用智能体与环境的交互数据中进行试错学习,具有较强的可拓展性,具有重大的发展前景。
[0004]目前多智能体协同研究的主要方法一般分为三类,(1)每一个独立决策的智能体都在本地建立对其他智能体策略的建模,并基于本地的交互信息与建模策略进行个体决策。(2)利用超网络在集中式训练阶段进行团队整体奖励的分解,以进行智能体间的合理信用分配,从而基于强化学习方法隐式地促进智能体之间的合作。(3)使能智能体之间的有效通信,每个智能体基于本地数据和通信消息进行决策从而达成合作。第一类方法通过主动建模的方法来减少智能体决策过程中,其他动态策略带来的非平稳性,但是随着智能体数目的增加,建模的难度也会指数级增加,并且无法应对复杂的合作任务。第二类算法通过直接与任务相关的团队奖励值来引导智能体合作,通过超网络将团队奖励值的合理分解,可以使得多智能体系统的联合行为策略收敛到满足单调性限制的合作策略。第三类方法通过通信的方式,人为划定或通过设计的特定网络来生成通信消息,通过传递有效的消息,可以促进智能体协同地完成团队目标。在实际应用中,由于第二类方法和第三类算法因为具有适宜的学习成本以及较强的泛化性,故而在大规模多智能体协同上具有更高的应用价值。
[0005]近年来流行的多智能体强化学习协同方法主要是采用中心化训练,分布式执行的范式来训练与部署智能体决策模型。在训练过程中,通过将所有智能体决策形成的联合动作与环境交互获得的奖励信号进行分解,实现智能体间的信度分配,通过在环境中不断试错促进各个个体策略网络收敛到有效联合合作策略。奖励信息的分解依赖于训练阶段中可获得全局智能体系统信息的超网络,其应当具备表征完整策略空间的能力。而在执行阶段,中心化的超网络将会被移除,每个智能体仅依赖于自身的策略网络进行动作的选择。Rashid等人提出了一种多智能体值分解框架,该框架通过一个非负权重的非线性的超网络将各个智能体独立的Q函数进行整合,从而在奖励信号的反向更新过程中实现信用分配
(Tabish Rashid,Mikayel Samvelyan,Christian Schroeder,Gregory Farquhar,Jakob Foerster,Shimon Whiteson QMIX:Monotonic Value Function Factorisation for Deep Multi

agent Reinforcement Learning[C]//Proceedings of the 35th International Conference on Machine Learning,PMLR 80:4295

4304,2018.)。由于在集中式训练的阶段,超网络可以获取智能体系统的真实状态,同时非线性的超网络可以表征更符合个体策略和联合策略的单调性限制,从而学习到更加有效的合作策略,故而非线性超网络的设计也是多智能体强化学习领域的研究热点之一。目前的研究方法通过限制行为策略与目标策略之间的距离或分层超网络的方式来促进模型学习到有效的合作策略。Wang等人利用一个分层的强化学习结构,通过两个超网络进行奖励的分配,从而降低了单个网络进行完整策略空间表征的难度(TWang,T Gupta,B Peng,A Mahajan,S Whiteson,and C Zhang.2021.RODE:Learning Roles to Decompose Multi

agent Tasks[C]//In Proceedings of the International Conference on Learning Representations.OpenReview.)。通信学习是多智能体强化学习领域的另一重要的研究方向。Yuan等人提出了一种基于变分推断的通信机制,智能体通过本地预测队友智能体的Q函数来作为通信消息,同时将从其他智能体处获得的消息作为自身Q函数的偏置实现稳定的动作价值估计,并通过引入通信正则来降低通信成本(Lei Yuan,Jianhao Wang,Fuxiang Zhang,Chenghe Wang,Zongzhang Zhang,Yang Yu,and Chongjie Zhang.2022.Multi

Agent Incentive Communication via Decentralized Teammate Modeling[C]//In Proceedings of the AAAI conference on artificial intelligence)。对于一些需要高级合作行为的多智能体协同任务,仅依赖于隐式的合作引导难以完成团队的目标,因此仅依赖于超网络的信度分配难以学习到复杂的合作策略。同时在大部分现实的多智能体协同应用场景中,广泛存在各种各样的通信限制,而已有的算法往往具备过大的通信开销,从而无法有效应用。

技术实现思路

[0006]本专利技术针对以上问题,提出了一种基于动态图通信的多智能体强化学习协同方法,通过将通信模型引入到基于信用分配的算法中,旨在学习高级的合作策略;同时将通信的范围和通信程度控制在动态通信图的基础上,旨在符合更加现实的受限通信条件下,实现有效的通信,从而促进智能体间的合作。
[0007]本专利技术该方法可以工作在广泛存在的受限通信的条件下,根据现实应用中的受限通讯域要求来智能体的的自适应通信,并在训练阶段利用超网络进行智能体间的信用分配,在执行阶段使得智能体依据本地信息和通信消息进行智能体协同决策,有效地降低联合决策过程中非平稳性,提升多智能体协同性能。
[0008]本专利技术的技术方案:
[0009]一种基于动态图通信的多智能体强化学习协同方法,包括以下步骤:
[0010]步骤1:根据环境和智能体系统的通信限制条件,实时提取智能体通信域内的可通信智能体,建立通信图。
[0011]步骤2:根据步骤1的通信图,将智能体本地的观测信息编码,并基于其和相应的权本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于动态图通信的多智能体强化学习协同方法,其特征在于,包括以下步骤:步骤1:根据环境和智能体系统的通信限制条件,实时提取智能体通信域内的可通信智能体,建立通信图;具体如下:根据交互环境中的通信限制下的通信域建立通信图其中表示通信图,表示智能体集合,w表示通信图各边权重并初始化为0,ε为通信图的边集合;通信图建立的过程为,若智能体j∈d
i
,其中d
i
为智能体i的受限通信域;步骤2:根据步骤1的通信图,将智能体本地的观测信息编码,并基于其和相应的权重生成器生成通信图的权重以控制智能体间通信的程度;具体如下:利用编码网络将智能体i的本地观测信息o
j
编码为观测编码e
j
,再根据权重生成器生成通信图各边的权重;若使用可学习的权重生成器,首先使用一个线性变换W,将观测编码映射至高维空间以增强网络表达能力,随后利用一单层非线性网络将相应的可通信智能体两两之间计算通信系数c
ij
:其中a(
·
)表示单层的非线性网络,表示相连拼接操作,e
i
和e
j
分别表示任意可通信的智能体i和智能体j,最后对每一个智能体的所有可通信智能体的权重进行softmax归一化以确保可拓展性:其中w
ij
表示智能体i和智能体j之间的通信权重,LeakyReLU()表示非线性激活函数,exp(
·
)表示指数符号;若使用相似性度量的权重生成器,则将非线性网络a(
·
)替换为内积相似性度量:其中F为一线性嵌入操作,可将观测编码映射至高维空间;步骤3:基于步骤2的通信图的权重和步骤1的通信图进行智能体间的观测信息编码的通信;具体如下:生成智能体的通信消息:其中m
i
表示智能体i在当前时刻获取的通信消息;步骤4:每个智能体根据本地交互数据和通信消息以及历史信息利用动作价值估计网络来完成个体动作价值估计;具体如下:
根据步骤3获得的通信消息与智能体的本地观测...

【专利技术属性】
技术研发人员:李奇峰葛宏伟
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1