一种基于动态图通信的多智能体强化学习协同方法技术

技术编号：38025298 阅读：8 留言：0更新日期：2023-06-30 10:52

本发明专利技术属于人工智能与多智能体协同领域，涉及一种基于动态图通信的多智能体强化学习协同方法。针对已有方法通信开销大，难以满足现实应用需求，以及难以学习到高级合作策略的问题，本发明专利技术旨在在符合更加现实的受限通信条件下，实现有效的通信，从而促进智能体间的合作，学习到高级的合作策略。包括以下步骤：动态通信图建立；通信权重自适应生成；智能体间实时通信；智能体进行动作价值估计；超网络进行智能体间信用分配；利用时序差分损失进行参数更新；在验证环境中进行应用。通过本发明专利技术在较小通信开销的前提下，使得模型可以自适应地进行有效的通信，并显著地提升智能体间的合作性能，同时具有更高的可拓展性，可广泛应用于多智能体协同领域。智能体协同领域。智能体协同领域。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于动态图通信的多智能体强化学习协同方法

[0001]本专利技术属于人工智能与多智能体协同领域，特别涉及一种基于动态图通信的多智能体强化学习协同方法。

技术介绍

[0002]多智能体协同主要是在交互环境中，包含多个智能体的智能体系统不断与环境进行交互以最大化系统获得的收益，其中每个智能体都进行独立的策略决策，他们协同自治地完成团队目标。多智能体协同技术在智慧城市，智能交通，车路协同，无人机控制等领域中发挥着至关重要的作用，可以用于多个独立终端的通信协调，最优化资源分配，集群路径规划等任务中。
[0003]近年来，多智能体协同方法已经取得了很大的进步，但是随着多智能体规模的增加，联合的合作策略空间搜索复杂度指数级上升，再加上智能体独立决策带来的非平稳性，以及多个智能体间的复杂的耦合关系，大大限制了相关算法的发展。因此，多智能体强化学习算法作为一种自适应促进智能体协作的行之有效的方法逐渐得到越来越多的关注，它可以直接在训练阶段，利用智能体与环境的交互数据中进行试错学习，具有较强的可拓展性，具有重大的发展前景。
[0004]目前多智能体协同研究的主要方法一般分为三类，(1)每一个独立决策的智能体都在本地建立对其他智能体策略的建模，并基于本地的交互信息与建模策略进行个体决策。(2)利用超网络在集中式训练阶段进行团队整体奖励的分解，以进行智能体间的合理信用分配，从而基于强化学习方法隐式地促进智能体之间的合作。(3)使能智能体之间的有效通信，每个智能体基于本地数据和通信消息进行决策从而达成合作。第一类方法通过...

【技术保护点】

【技术特征摘要】
1.一种基于动态图通信的多智能体强化学习协同方法，其特征在于，包括以下步骤：步骤1：根据环境和智能体系统的通信限制条件，实时提取智能体通信域内的可通信智能体，建立通信图；具体如下：根据交互环境中的通信限制下的通信域建立通信图其中表示通信图，表示智能体集合，w表示通信图各边权重并初始化为0，ε为通信图的边集合；通信图建立的过程为，若智能体j∈d
i
，其中d
i
为智能体i的受限通信域；步骤2：根据步骤1的通信图，将智能体本地的观测信息编码，并基于其和相应的权重生成器生成通信图的权重以控制智能体间通信的程度；具体如下：利用编码网络将智能体i的本地观测信息o
j
编码为观测编码e
j
，再根据权重生成器生成通信图各边的权重；若使用可学习的权重生成器，首先使用一个线性变换W，将观测编码映射至高维空间以增强网络表达能力，随后利用一单层非线性网络将相应的可通信智能体两两之间计算通信系数c
ij
：其中a(
·
)表示单层的非线性网络，表示相连拼接操作，e
i
和e
j
分别表示任意可通信的智能体i和智能体j，最后对每一个智能体的所有可通信智能体的权重进行softmax归一化以确保可拓展性：其中w
ij
表示智能体i和智能体j之间的通信权重，LeakyReLU()表示非线性激活函数，exp(
·
)表示指数符号；若使用相似性度量的权重生成器，则将非线性网络a(
·
)替换为内积相似性度量：其中F为一线性嵌入操作，可将观测编码映射至高维空间；步骤3：基于步骤2的通信图的权重和步骤1的通信图进行智能体间的观测信息编码的通信；具体如下：生成智能体的通信消息：其中m
i
表示智能体i在当前时刻获取的通信消息；步骤4：每个智能体根据本地交互数据和通信消息以及历史信息利用动作价值估计网络来完成个体动作价值估计；具体如下：
根据步骤3获得的通信消息与智能体的本地观测...

【专利技术属性】
技术研发人员：李奇峰，葛宏伟，
申请(专利权)人：大连理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人