基于奖励自适应分配的合作多智能体强化学习方法技术

技术编号:31314399 阅读:31 留言:0更新日期:2021-12-12 22:22
针对完全合作式多智能体强化学习过程中,由于每个智能体获得一个共同的全局奖励,无法确定自身动作对整体奖励的影响,导致算法模型的训练效率低下及最终性能不佳的问题,本发明专利技术提供了一种基于奖励自适应分配的合作多智能体强化学习方法,根据环境的变化能够自适应将全局奖励分配给单个智能体,使得智能体能够据此选择对全局有利的动作,从而提高算法模型的训练效率及最终的性能。训练效率及最终的性能。训练效率及最终的性能。

【技术实现步骤摘要】
基于奖励自适应分配的合作多智能体强化学习方法


[0001]本专利技术属于智能体强化学习
,更具体地,涉及一种基于奖励自适应分配的合作多智能体强化学习方法。

技术介绍

[0002]近年来,随着单智能体深度强化学习技术广泛取得的突破性进展,也推动了多智能体强化学习的发展和研究,在实际情形中,往往存在多个独立自主决策的智能体,因此,多智能体强化学习的研究具有十分重要的应用价值。
[0003]完全合作式多智能体与环境的交互过程如附图1所示,环境中一共有n个独立自主决策的智能体,过程主要如下:(1)在时刻t,智能体i感知当前的环境状态s
t
,得到自身的局部观测信息(2)智能体根据当前的局部观测信息及当前采取的策略从动作空间A中选择一个动作组成联合动作(3)当多智能体的联合动作作用于环境时,环境转移到新状态s
t+1
,并给出一个全局奖励回报值r
t
;如此循环。
[0004]其中,奖励回报指的是智能体在与环境的交互中获得的来自环境的评价性质的反馈信号。智能体通过强化学习方法,确定如何在环境中采取一系列行为动作,使长期的累积回报最大化。由于在完全合作式多智能体强化学习中只能获得全局回报,单个智能体无法确定自身动作对整体回报的影响,单个智能体学习的方向不明确,导致算法模型训练效率低下,甚至无法收敛。
[0005]目前常用的方法是采用值分解方法隐式的解决奖励分配问题,但是这类方法需要联合训练全局值函数、每个智能体的局部值函数以及二者之间的关系参数,存在训练效率低、多智能体之间协作能力不足、无法适应大规模场境的问题。

技术实现思路

[0006]针对现有技术的以上缺陷或改进需求,本专利技术提供了一种基于奖励自适应分配的合作多智能体强化学习方法,根据观测到的环境状态自适应计算单个智能体的子奖励回报权重,并据此计算分配给单个智能体的局部奖励回报,即由子奖励回报值与子奖励回报的权重相乘得到的加权和,根据环境的变化能够自适应将全局奖励分配给单个智能体,使得智能体能够据此选择对全局有利的动作,从而提高算法模型的训练效率及最终的性能。
[0007]为实现上述目的,本专利技术提供了一种基于奖励自适应分配的合作多智能体强化学习方法,包括如下步骤:
[0008](1)根据先验知识将全局回报划分为m类子奖励回报,并设置对应的子奖励回报函数;
[0009](2)初始化模型参数;
[0010](3)对每一个智能体i,每隔K个时间步长,根据智能体i观察到的环境状态o
i
,计算智能体i的子奖励回报权重向量智能体i的子奖励回报权重向量π(o
i
|θ)是智能体
的子奖励回报权重生成策略函数,θ是其参数;
[0011](4)对每一个智能体i,在每个时间步长,根据智能体i观察到的环境状态o
i
,根据智能体的局部状态

动作值函数计算状态

动作值,按照贪心策略选取智能体该时刻t将执行的动作该时刻t将执行的动作是其参数;
[0012](5)将所有智能体产生的动作联合动作输入到环境中执行,得到所有智能体的全局奖励r,根据子奖励回报函数得到每个智能体的子奖励回报值为以及对新的环境状态的观察为o

=(o
′1,
……
,o

n
);
[0013](6)对每一个智能体i,每个时间步长,根据步骤(5)中得到的子奖励回报值及步骤(3)中得到的子奖励回报权重向量计算每个智能体i的局部奖励值
[0014](7)每个时间步长,更新每个智能体的局部状态

动作值函数的参数,其中o
i
为智能体i观察的环境状态,为选择的动作,L是损失函数,
[0015][0016]其中,λ是学习率,γ∈(0,1]是折扣因子,o
i+1
是智能体对下一时刻的环境状态的观察;
[0017](8)每隔K个时间步长,更新子奖励回报权重评价器Q
tot
(o,w|θ
h
)的参数θ
h
,其中o=(o1,
……
,o
n
)是所有智能体的联合观察状态,是所有智能体的联合子奖励回报权重向量,L
h
是损失函数,L
h
对参数θ
h
连续可导,
[0018][0019]λ是学习率,γ∈(0,1]是折扣因子,R
K
=∑
K
r为前K个时间步长的累积回报,o

=(o
′1,
……
,o

n
)是所有智能体对新的环境状态的观察;
[0020](9)每隔K个时间步长,更新子奖励回报权重生成策略函数W(o
i
|θ)的参数θ,其中λ是子奖励回报权重生成策略函数的学习率;
[0021](10)学习过程收敛或者达到最大迭代次数,则结束,否则返回步骤(3)。
[0022]本专利技术的一个实施例中,所述多智能体是完全合作关系,即具有一个共同的目标。
[0023]本专利技术的一个实施例中,所述步骤(4)中计算智能体该时刻将执行的动作使用基于值函数的方法。
[0024]本专利技术的一个实施例中,所述步骤(2)中,初始化的模型参数包括:子奖励回报权重生成策略函数π(o
i
|θ)的参数θ,智能体的局部状态

动作值函数的参数子奖励回报权重评价器Q
tot
(o,w|θ
h
)的参数θ
h

[0025]本专利技术的一个实施例中,所述步骤(6)中,根据步骤(5)中得到的子奖励回报值及步骤(3)中得到的子奖励回报权重向量计算每个智能体i的局部奖励值为:
[0026]本专利技术的一个实施例中,间隔步长数5≤K≤20。
[0027]本专利技术的一个实施例中,子奖励回报权重生成策略函数π(o
i
|θ)、智能体的局部状态

动作值函数子奖励回报权重评价器Q
tot
(o,w|θ
h
)均为循环神经网络。
[0028]本专利技术的一个实施例中,所述智能体的可执行的动作为离散的动作,且数量≤5。
[0029]本专利技术的一个实施例中,所述步骤(1)中子奖励回报的种类数量为4≤m≤10。
[0030]本专利技术的一个实施例中,所述智能体的数量不大于10。
[0031]总体而言,通过本专利技术所构思的以上技术方案与现有技术相比,具有如下有益效果:
[0032](1)显式的对全局奖励回报进行分配得到单个智能体的局部奖励回报,能够引导单个智能体根据环境的变化做出有利于全局任务的行动,提高了多智能体的协作能力;
[0033](2)通过显式的奖励分配使得单个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于奖励自适应分配的合作多智能体强化学习方法,其特征在于,包括如下步骤:(1)根据先验知识将全局回报划分为m类子奖励回报,并设置对应的子奖励回报函数;(2)初始化模型参数;(3)对每一个智能体i,每隔K个时间步长,根据智能体i观察到的环境状态o
i
,计算智能体i的子奖励回报权重向量体i的子奖励回报权重向量π(o
i
|θ)是智能体的子奖励回报权重生成策略函数,θ是其参数;(4)对每一个智能体i,在每个时间步长t,根据智能体i观察到的环境状态o
i
,根据智能体的局部状态

动作值函数计算状态

动作值,按照贪心策略选取智能体该时刻t将执行的动作刻t将执行的动作是其参数;(5)将所有智能体产生的动作联合动作输入到环境中执行,得到所有智能体的全局奖励r,根据子奖励回报函数得到每个智能体的子奖励回报值为以及对新的环境状态的观察为o

=(o
′1,
……
,o

n
);(6)对每一个智能体i,每个时间步长,根据步骤(5)中得到的子奖励回报值及步骤(3)中得到的子奖励回报权重向量计算每个智能体i的局部奖励值(7)每个时间步长,更新每个智能体的局部状态

动作值函数的参数,其中o
i
为智能体i观察的环境状态,为选择的动作,L是损失函数,其中,λ是学习率,γ∈(0,1]是折扣因子,o
i+1
是智能体对下一时刻的环境状态的观察;(8)每隔K个时间步长,更新子奖励回报权重评价器Q
tot
(o,w|θ
h
)的参数θ
h
,其中o=(o1,
……
,o
n
)是所有智能体的联合观察状态,是所有智能体的联合子奖励回报权重向量,L
h
是损失函数,L
h
对参数θ
h
连续可导,λ是学习率,γ∈(0,1]是折扣因子,R
K
=∑
K
r为前K个时间步长的全局累积回报,o

=(o
′...

【专利技术属性】
技术研发人员:王振杰刘俊涛黄志刚王元斌高子文王军伟
申请(专利权)人:中国船舶重工集团公司第七零九研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1