基于奖励自适应分配的合作多智能体强化学习方法技术

技术编号：31314399 阅读：31 留言：0更新日期：2021-12-12 22:22

针对完全合作式多智能体强化学习过程中，由于每个智能体获得一个共同的全局奖励，无法确定自身动作对整体奖励的影响，导致算法模型的训练效率低下及最终性能不佳的问题，本发明专利技术提供了一种基于奖励自适应分配的合作多智能体强化学习方法，根据环境的变化能够自适应将全局奖励分配给单个智能体，使得智能体能够据此选择对全局有利的动作，从而提高算法模型的训练效率及最终的性能。训练效率及最终的性能。训练效率及最终的性能。

全部详细技术资料下载

【技术实现步骤摘要】
基于奖励自适应分配的合作多智能体强化学习方法

[0001]本专利技术属于智能体强化学习
，更具体地，涉及一种基于奖励自适应分配的合作多智能体强化学习方法。

技术介绍

[0002]近年来，随着单智能体深度强化学习技术广泛取得的突破性进展，也推动了多智能体强化学习的发展和研究，在实际情形中，往往存在多个独立自主决策的智能体，因此，多智能体强化学习的研究具有十分重要的应用价值。
[0003]完全合作式多智能体与环境的交互过程如附图1所示，环境中一共有n个独立自主决策的智能体，过程主要如下：(1)在时刻t，智能体i感知当前的环境状态s
t
，得到自身的局部观测信息(2)智能体根据当前的局部观测信息及当前采取的策略从动作空间A中选择一个动作组成联合动作(3)当多智能体的联合动作作用于环境时，环境转移到新状态s
t+1
，并给出一个全局奖励回报值r
t
；如此循环。
[0004]其中，奖励回报指的是智能体在与环境的交互中获得的来自环境的评价性质的反馈信号。智能体通过强化学习方法，确定如何在环境中采取一系列行为动作，使长期的累积回报最大化。由于在完全合作式多智能体强化学习中只能获得全局回报，单个智能体无法确定自身动作对整体回报的影响，单个智能体学习的方向不明确，导致算法模型训练效率低下，甚至无法收敛。
[0005]目前常用的方法是采用值分解方法隐式的解决奖励分配问题，但是这类方法需要联合训练全局值函数、每个智能体的局部值函数以及二者之间的关系参数，存在训...

【技术保护点】

【技术特征摘要】
1.一种基于奖励自适应分配的合作多智能体强化学习方法，其特征在于，包括如下步骤：(1)根据先验知识将全局回报划分为m类子奖励回报，并设置对应的子奖励回报函数；(2)初始化模型参数；(3)对每一个智能体i，每隔K个时间步长，根据智能体i观察到的环境状态o
i
，计算智能体i的子奖励回报权重向量体i的子奖励回报权重向量π(o
i
|θ)是智能体的子奖励回报权重生成策略函数，θ是其参数；(4)对每一个智能体i，在每个时间步长t，根据智能体i观察到的环境状态o
i
，根据智能体的局部状态
‑
动作值函数计算状态
‑
动作值，按照贪心策略选取智能体该时刻t将执行的动作刻t将执行的动作是其参数；(5)将所有智能体产生的动作联合动作输入到环境中执行，得到所有智能体的全局奖励r，根据子奖励回报函数得到每个智能体的子奖励回报值为以及对新的环境状态的观察为o
′
＝(o
′1,
……
，o
′
n
)；(6)对每一个智能体i，每个时间步长，根据步骤(5)中得到的子奖励回报值及步骤(3)中得到的子奖励回报权重向量计算每个智能体i的局部奖励值(7)每个时间步长，更新每个智能体的局部状态
‑
动作值函数的参数，其中o
i
为智能体i观察的环境状态，为选择的动作，L是损失函数，其中，λ是学习率，γ∈(0，1]是折扣因子，o
i+1
是智能体对下一时刻的环境状态的观察；(8)每隔K个时间步长，更新子奖励回报权重评价器Q
tot
(o，w|θ
h
)的参数θ
h
，其中o＝(o1,
……
,o
n
)是所有智能体的联合观察状态，是所有智能体的联合子奖励回报权重向量，L
h
是损失函数，L
h
对参数θ
h
连续可导，λ是学习率，γ∈(0，1]是折扣因子，R
K
＝∑
K
r为前K个时间步长的全局累积回报，o
′
＝(o
′...

【专利技术属性】
技术研发人员：王振杰，刘俊涛，黄志刚，王元斌，高子文，王军伟，
申请(专利权)人：中国船舶重工集团公司第七零九研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人