一种多智能体通信协作方法技术

技术编号：30153727 阅读：42 留言：0更新日期：2021-09-25 15:04

本发明专利技术公开了一种多智能体通信协作方法，其步骤包括：1)构建智能体并设定智能体的属性和规则，调用或构建智能体的运动环境；其中所述智能体包括一个策略网络、一个内在值网络和一个门控机制；2)构建智能体通信信道，智能体通信信道根据各智能体t时刻传来的信息m为各智能体生成消息c并发送给各智能体；3)对于任意一个智能体i，该智能体i以局部观察和消息为输入，输出智能体i的动作策略和交流消息4)智能体的运动环境基于智能体决策和交流框架采样得到数据并行训练n个智能体，以达到最大化团队奖励的目标。本方法增加了内部动机模块，在原有方法忽略内在价值的缺陷是一个很好的补充。个很好的补充。个很好的补充。

全部详细技术资料下载

【技术实现步骤摘要】
一种多智能体通信协作方法

[0001]本专利技术属于深度强化学习多智能体协作领域，具体涉及一种基于内在动机的多智能体通信协作方法。

技术介绍

[0002]对人类来说，交流是促进文明进步的关键工具。在很多现实场景中，智能体之间的高效通信是实现多智能体合作的一种有效方式。然而，漫无目的和毫无动机的信息共享可能不起作用，甚至降低多智能体合作的表现。在过去，多智能体的通信行为是由来自环境的外部奖励所激励的，可以归结为“交流什么奖励了你”。该机制被广泛使用，并在多智能体通信中取得了重大进展。然而，当外在奖励稀疏或不可分解时，这种机制可能不起作用。
[0003]目前，从提取信息和根据输入的信息做出决定方向看，Sainbayar Sukhbaatar等人[11]提出了一种名为CommNet的结构，可以从局部观察中学习连续的消息。Jiechuan Jiang[5]，Amanpreet Singh[9]等人设计了一个门控网络来输出二进制通信动作，Sai Qian Zhang[15]等人提出了一种启发式机制，只有当代理不能做出自信的决策...

【技术保护点】

【技术特征摘要】
1.一种多智能体通信协作方法，其步骤包括：1)构建智能体并设定智能体的属性和规则，调用或构建智能体的运动环境；其中所述智能体包括一个策略网络、一个内在值网络和一个门控机制；2)构建智能体通信信道，智能体通信信道根据各智能体t时刻传来的信息m为各智能体生成消息c并发送给各智能体；3)对于任意一个智能体i，该智能体i以局部观察和消息为输入，输出智能体i的动作策略和交流消息其中，表示智能体i在时刻t的局部观察，为智能体i在时刻t所作出的动作，表示智能体i在时刻t的向智能体通信信道发送的信息，表示智能体i在时刻t从智能体通信信道收到的消息；4)智能体的运动环境基于智能体决策和交流框架采样得到数据{τ1,τ2,......,τ
n
}并行训练n个智能体，其中第i个数据τ
i
＝(s0,a0,r0,s1,a1,r1,s2,.......,s
T
,a
T
,r
T
),i∈(1,n),s0表示环境的初始状态、a0表示智能体在时刻0生成的决策行为、r0表示决策行为a0的即时奖励，s
T
表示终止时刻T时的环境状态、a
T
表示智能体在终止时刻T生成的决策行为、r
T
表示决策行为a
T
的即时奖励；使用强化学习的损失函数对智能体中的策略网络进行训练，以达到最大化团队奖励的目标，θ
p
表示策略网络的参数，T表示智能体行为轨迹的终止时刻，γ表示折扣因子，r
t
表示在时刻t环境所反馈的团队奖励。2.如权利要求1所述的方法，其特征在于，智能体i对观测信息进行编码得到局部观测并...

【专利技术属性】
技术研发人员：王瑞，孙楚雄，臧泽华，李凯，胡晓惠，
申请(专利权)人：中国科学院软件研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人