一种分层决策的完全合作多智能体强化学习方法和系统技术方案

技术编号:31314416 阅读:34 留言:0更新日期:2021-12-12 22:23
本发明专利技术公开了一种分层决策的完全合作多智能体强化学习方法:初始化模型参数;对每一个智能体,每隔T时间步长产生上层动作;对每一个智能体,在每个时间步长产生下层动作;将所有智能体产生的下层动作,输入到环境中执行,得到总回报和新的环境状态,和所有智能体对新的环境状态的观察;在每个时间步长,更新下层全局状态

【技术实现步骤摘要】
一种分层决策的完全合作多智能体强化学习方法和系统


[0001]本专利技术属于强化学习
,更具体地,涉及一种分层决策的完全合作多智能体强化学习方法和系统。

技术介绍

[0002]强化学习(Reinforcement Learning,RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(Agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。多个智能体参与的强化学习面临“维数灾难”问题,即动作空间的大小随智能体的个数呈指数增长。

技术实现思路

[0003]针对现有技术的以上缺陷或改进需求,本专利技术提供了一种分层决策的完全合作多智能体强化学习方案,通过采用分层决策的方法实现多智能体强化学习,减小动作空间,提高训练速度。
[0004]为实现上述目的,按照本专利技术的一个方面,提供了一种分层决策的完全合作多智能体强化学习方法,包括:
[0005]S1初始化模型参数;
[0006]S2对每一个智能体i,每隔T时间步长,产生上层动作;具体为,对每一个智能体i,每隔T时间步长,根据智能体i观察到的环境状态o
i
,对智能体i所有可能的高层动作计算执行的概率根据上述概率随机产生智能体i的上层动作其中是智能体i的上层动作集合,是智能体i的上层策略函数,是其参数,T是预设值;
[0007]S3对每一个智能体i,在每个时间步长,产生下层动作;
[0008]S4将所有智能体产生的下层动作输入到环境中执行,得到总回报r和新的环境状态,所有智能体对新的环境状态的观察为o'=(o'1,o'2,...,o'
n
);
[0009]S5在每个时间步长,更新下层全局状态

动作函数的参数;
[0010]S6对每一个智能体i,在每个时间步长,更新下层策略函数的参数;
[0011]S7每隔T时间步长,更新上层全局状态

动作函数参数;
[0012]S8对每一个智能体i,每隔T时间步长,更新上层策略函数的参数;
[0013]S9如果学习过程收敛或者达到最大迭代次数,则结束学习,否则返回S2。
[0014]本专利技术的一个实施例中,所述步骤S3具体为:对每一个智能体i,在每个时间步长,根据智能体i产生的上层动作和观察到的环境状态o
i
,对智能体i的上层动作所属的所有下层动作计算执行的概率按照上述概率,随机产生智能体i的下层动作其中是智能体i的上层动作所属的下层动作集合,
是智能体i的下层策略函数,是其参数。
[0015]本专利技术的一个实施例中,所述步骤S5具体为:
[0016]更新下层全局状态

动作函数Q
l
(o,a
l

l
)的参数θ
l
,其中Q
l
(o,a
l

l
)为下层全局状态

动作函数,o=(o1,o2,...,o
n
)是所有智能体的联合观察状态,是所有智能体的联合下层动作,L
l
是损失函数,L
l
对参数θ
l
连续可导,λ是学习率,γ∈(0,1]是折扣因子,o'=(o'1,o'2,...,o'
n
)是所有智能体对新的环境状态的观察。
[0017]本专利技术的一个实施例中,所述步骤S6具体为:对每一个智能体i,更新下层策略函数的参数的参数其中λ
l
是下层策略函数的学习率。
[0018]本专利技术的一个实施例中,所述步骤S7具体为:每隔T时间步长,更新上层全局状态

动作函数Q
h
(o,a
h

h
)的参数θ
h
,其中Q
h
(o,a
h

h
)为上层全局状态

动作函数,o=(o1,o2,...,o
n
)是所有智能体的联合观察状态,是所有智能体的联合上层动作,L
h
是损失函数,L
h
对参数θ
h
连续可导,λ是学习率,γ∈(0,1]是折扣因子,r
T
为前T个时间步长的累积回报,o'=(o'1,o'2,...,o'
n
)是所有智能体对新的环境状态的观察。
[0019]本专利技术的一个实施例中,所述步骤S8具体为:每隔T时间步长,对每一个智能体i,更新上层策略函数的参数θ
ih
,其中λ
h
是上层策略函数的学习率。
[0020]本专利技术的一个实施例中,间隔步长数5≤T≤20。
[0021]8、如权利要求1或2所述的分层决策的完全合作多智能体强化学习方法,其特征在于,上层全局状态

动作值函数Q
h
、下层全局状态

动作值函数Q
l
、智能体i的上层策略函数智能体i的下层策略函数均为循环神经网络。
[0022]本专利技术的一个实施例中,所述步骤S1中,初始化的参数包括:上层全局状态

动作值函数的参数θ
h
、下层全局状态

动作值函数的参数θ
l
、所有智能体的上层策略函数的参数{θ
ih
}、所有智能体的下层策略函数的参数初始化的方法是随机产生(0,1/n)均匀分布的随机数,其中n是上层全局状态

动作值函数Q
h
、下层全局状态

动作值函数Q
l
、智能体i的上层策略函数智能体i的下层策略函数中间层的维数。
[0023]按照本专利技术的另一方面,还提供了一种分层决策的完全合作多智能体强化学习系统,包括参数初始化模块、上层动作产生模块、下层动作产生模块、环境状态更新模块、下层
动作函数参数更新模块、下层策略函数参数更新模块、上层动作函数参数更新模块、上层策略函数参数更新模块和学习终止判断模块,其中:
[0024]所述参数初始化模块,用于初始化模型参数;
[0025]所述上层动作产生模块,用于对每一个智能体i,每隔T时间步长,产生上层动作;具体为,对每一个智能体i,每隔T时间步长,根据智能体i观察到的环境状态o
i
,对智能体i所有可能的高层动作计算执行的概率根据上述概率随机产生智能体i的上层动作其中是智能体i的上层动作集合,是智能体i的上层策略函数,θ
ih
是其参数,T是预设值;
[0026]所述下层动作产生模块,用于对每一个智能体i,在每个时间步长,产生下层动作;
[0027]所述环境状态更新模块,用于将所有智能体产生的下本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分层决策的完全合作多智能体强化学习方法,其特征在于,包括:S1初始化模型参数;S2对每一个智能体i,每隔T时间步长,产生上层动作;具体为,对每一个智能体i,每隔T时间步长,根据智能体i观察到的环境状态o
i
,对智能体i所有可能的高层动作计算执行的概率根据上述概率随机产生智能体i的上层动作其中是智能体i的上层动作集合,是智能体i的上层策略函数,是其参数,T是预设值;S3对每一个智能体i,在每个时间步长,产生下层动作;S4将所有智能体产生的下层动作输入到环境中执行,得到总回报r和新的环境状态,所有智能体对新的环境状态的观察为o'=(o'1,o'2,...,o'
n
);S5在每个时间步长,更新下层全局状态

动作函数的参数;S6对每一个智能体i,在每个时间步长,更新下层策略函数的参数;S7每隔T时间步长,更新上层全局状态

动作函数参数;S8对每一个智能体i,每隔T时间步长,更新上层策略函数的参数;S9如果学习过程收敛或者达到最大迭代次数,则结束学习,否则返回S2。2.如权利要求1所述的分层决策的完全合作多智能体强化学习方法,其特征在于,所述步骤S3具体为:对每一个智能体i,在每个时间步长,根据智能体i产生的上层动作和观察到的环境状态o
i
,对智能体i的上层动作所属的所有下层动作计算执行的概率按照上述概率,随机产生智能体i的下层动作其中是智能体i的上层动作所属的下层动作集合,是智能体i的下层策略函数,是其参数。3.如权利要求1或2所述的分层决策的完全合作多智能体强化学习方法,其特征在于,所述步骤S5具体为:更新下层全局状态

动作函数Q
l
(o,a
l

l
)的参数θ
l
,其中Q
l
(o,a
l

l
)为下层全局状态

动作函数,o=(o1,o2,...,o
n
)是所有智能体的联合观察状态,是所有智能体的联合下层动作,L
l
是损失函数,L
l
对参数θ
l
连续可导,λ是学习率,γ∈(0,1]是折扣因子,o'=(o'1,o'2,...,o'
n
)是所有智能体对新的环境状态的观察。4.如权利要求1或2所述的分层决策的完全合作多智能体强化学习方法,其特征在于,所述步骤S6具体为:对每一个智能体i,更新下层策略函数的参数的参数其中λ
l
是下层策略函数的学习率。
5.如权利要求1或2所述的分层决策的完全合作多智能体强化学习方法,其特征在于,所述步骤S7具体为:每隔T时间步长,更新上层全局状态

动作函数Q
h
(o,a
h

h
)的参数θ
h
,其中Q
h
(o,a
h

h
)为上层全局状态

动作函数,o=(o1,o2,...,o
n
)是所有智能体的联合观察状态,是所有智能体的联合上层动作,L
h

【专利技术属性】
技术研发人员:刘俊涛王振杰高子文王元斌黄志刚
申请(专利权)人:中国船舶重工集团公司第七零九研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1