基于变分循环网络模型的信念一致多智能体强化学习方法技术

技术编号:32265998 阅读:21 留言:0更新日期:2022-02-12 19:28
本发明专利技术提供一种基于变分循环网络模型的信念一致多智能体强化学习方法,该方法启发于人类团队之间的可以产生默契合作的现象,即通过共同的信念在任务上达成一致性共识。与人类社会群体类似,分布式学习系统中的智能体也可以受益于一致的信念,在有限的通信条件下实现协作。在本文中,我们展示了在分散式协作任务中智能体之间的一致性信念的作用。我们提出了一种新的基于值的方法——一致性信念多智能体强化学习方法,它使用变分模型来学习智能体之间的信念。我们还利用与变分模型结合的循环网络模型(RNN)充分利用智能体历史行为轨迹。我们的算法使智能体能够学习一致的信念,以优化完全分散的策略。我们在两个网格世界游戏以及星际争霸II微观管理基准上验证了该方法。我们的实验结果表明,该方法学习到的共同信念可以有效提高离散和连续状态下的智能体的协作效果。效果。效果。

【技术实现步骤摘要】
基于变分循环网络模型的信念一致多智能体强化学习方法


[0001]本专利技术属于计算机人工智能控制决策
,涉及一种基于变分循环网络模型进而实现智能体之间信念一致性多智能体强化学习协作方法。

技术介绍

[0002]多智能体强化学习对于各种高维场景和多智能体的复杂任务是必不可少的一种方法工具。多智能体强化学习最近在各种实际问题上的应用引起了人们的关注,包括交通信号灯控制,自动驾驶,以及网络数据包传递。这种自主的协同方法具有广泛的商用价值及深远的研究意义。
[0003]然而,在真实世界中的多智能体系统,智能体通常都受到其局部观测和通信带宽的限制,这使得实现智能体之间的有效合作成为一个具有挑战性的问题。为了应对这些问题,提出了一系列集中训练和分散执行(CTDE)方法,例如:MADDPG和COMA在Actor

Critic框架内学习了集中式评论家和分散式的执行者。还有一些方法比如VDN和QMIX使用混合网络来分解价值函数。然而,所有这些方法在训练过程中都只使用集中式评论家进行协调,而在执行过程中缺乏智能体之间的协调机制。<本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于变分循环模型的信念一致多智能体强化学习方法,其特征在于,步骤如下:(1)变分模型对分布式部分观测马尔科夫过程(Dec

POMDP)建模在变分模型VAE中,潜变量z用于预测可观察变量x;难以处理的真实后验p(z|x)由易于处理的分布q(z|x)逼近,然后在对数似然上最大化证据下限(ELBO):变分循环网络(VRNN)是VAE的扩展,用于处理序列数据;将VRNN推广到多智能体顺序决策设置;在Dec

POMDP设置中有N个智能体;对于每个智能体,状态转换函数p(o
i,t+1
|o
i,t
,a
i,t
)和奖励函数很容易地嵌入到图形模型中;将奖励r与智能体i的部分观察o
i
拼接为一个整体x
i
=(o
i
,r);初始分布和先验分布分别是p
θ
(z
i,1
)和p
θ
(z
i,t
|z
i,t
‑1,x
i,t
‑1,a
i,1:t
‑1);在生成模型中,未来的观测是通过其潜在变量来预测的,p
θ
(x
i,t
|z
i,1:t
,x
i,1:t
‑1);在推理模型中:潜在变量z
i,t
由推理模型近似q
φ
(z
i,t
|z
i,1:t
‑1,x
i,1:t
,a
i,1:t
‑1);从对数似然上最大化证据下限(ELBO)扩展,智能体i的潜在变量模型的对数似然重写为:最大化ELBO相当于最小化损失函数分别将q
φ
(z
i,t
|z
i,1:t
‑1,x
i,1:t
,a
i,1:t
‑1)命名为编码器,将p
θ
(x
i,t
|z
i,1:t
,x
i,1:t
‑1)命名为解码器;请注意,表示损失函数的小批量版本;变分模型与门控循环单元(GRU)网络相结合,该网络是高度灵活的函数逼近器;每个智能体的隐藏层变量可以通过递推方程更新:d
i,t
=GRU(d
i,t
‑1;z
i,t
,x
i,t
)(2)利用高斯分布对其中分布进行重参数化近似生成模型变分模型以GRU的隐藏层变量d
i,t
为条件;根据历史信息得到一个先验分布,具有对角协方差结构I由于面临高维连续状态空间的问题,使用高斯分布作为输出;参数化的对角高斯分布如下:其中和是参数化的先验分布,θ
prior
(
·
)是先验分布的神经网络参数;给定内部状态通过生成模型预测未来观察结果):其中和是参数化的预测观测分布,θ
p
(
·
)是神经网络参数;推理模型智能体i的一致信念z
i,t
参数化为高斯分布给定变量x
i,t

其中和表示参数化的高斯后验分布,φ
q
(
·
)是后验分布的神经网络参数;给定以上模型,计算...

【专利技术属性】
技术研发人员:刘宇张现杰赵哲焕单世民
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1