一种基于值分解的多智能体强化学习方法及系统技术方案

技术编号：33921444 阅读：18 留言：0更新日期：2022-06-25 21:05

本发明专利技术公开了一种基于值分解的多智能体强化学习方法及系统，方法包括：获取环境当前t时刻的状态S

全部详细技术资料下载

【技术实现步骤摘要】
function factorisation for deep multi
‑
agent reinforcement learning[C]//International Conference on Machine Learning.PMLR，2018：4295
‑
4304.)在VDN的基础上进一步提出的基于CTDE的多智能体强化学习算法。该算法用神经网络去近似Q
tot
(τ，a)，但要确保神经网络所有的参数必须为非负数，因为神经网络希望学到的是能帮助自己去近似全局奖励的局部动作，所以Q
tot
(τ，a)与单个智能体局部奖励值函数之间的关系必须满呈单调性，每个智能体选择的局部最优动作恰好就是全局最优动作的一部分这种情况是个特例。而且VDN没有尽可能利用集中式训练的优势，忽略了学习期间可用的任何额外状态信息，QMIX在近似Q
tot
(τ，a)时额外使用了全局状态，这样就可以基于全局状态进行训练，加快了整体训练速度。但是不管是累加性还是单调性，它们都其实严格限制了Q
tot
(τ，a)与单个智能体局部奖励值函数之间的关系，从而使得它们只能解决一小部分任务，因为可能很多任务中Q
tot
(τ，a)与单个智能体局部奖励值函数的关系不一定是累加或者单调，从而使得VDN和QMIX近似得到的Q
tot
(τ，a)与真实的Q
tot
(τ，a)相差很远。
[0005]QTRAN(Son K，Kim D，Kang W

【技术保护点】

【技术特征摘要】
1.一种基于值分解的多智能体强化学习方法，其特征在于，包括以下步骤：获取环境当前t时刻的状态S
t
，每个智能体初始的观察值可获得的动作以及该动作对应的奖励r，其中i为智能体的序号，状态S
t
包含当前多智能体场景下的智能体数量，角色类型和上一时刻得到的联合奖励Q值函数大小；对于每个智能体，通过评估
‑
智能体网络计算每个动作基于局部信息τ
i
观察到的值函数Q
i
(τ
i
)，其中局部信息τ
i
是智能体i的观察值动作奖励r和状态S
t
的信息集合；利用随机
‑
智能体网络对当前时刻状态S
t
加上参数化的噪音，使权重和偏置参数随机化，再将每回合结束时训练好的权重和偏置参数与每个智能体基于局部信息τ
i
的Q
i
(τ
i
)进行权重求和，得到每个智能体基于全局信息τ的奖励值函数Q
i
(τ)；目标
‑
智能体网络计算损失函数并更新参数，接着随机
‑
智能体网络也更新噪声参数并计算损失函数，其中目标
‑
智能体网络是每隔一段时间对评估
‑
智能体网络进行参数复制得到的；利用竞争
‑
智能体网络将每个智能体基于全局信息τ的奖励值函数Q
i
(τ)分解为优势值函数、状态值函数和动作值函数；将分解结果相加得到基于全局信息τ的联合奖励值函数Q
tot
(τ，a)，并更新竞争
‑
智能体网络的参数和整体的损失函数，参数更新完毕后，利用训练完成的智能体在环境中执行动作。2.根据权利要求1所述的基于值分解的多智能体强化学习方法，其特征在于，所述智能体包括以下任一种：游戏场景中的一个英雄、传感器网络中的单个传感器、机器人协作场景下的单个机器人、或自动驾驶场景下的一辆汽车。3.根据权利要求1所述的基于值分解的多智能体强化学习方法，其特征在于，评估
‑
智能体网络包含用于处理局部观察值和动作输入输出的MLP，以及用于记忆历史状态和动作信息的GRU循环神经网络：每个智能体将基于局部的观察值和动作输入到MLP中进行编码并输入到GRU循环神经网络中，GRU循环神经网络将当前时刻t的隐藏信息h
t
和上一层的输出作拼接，生成下一时刻t+1的隐藏信息h
t+1
和下一层的输入；第三层的MLP则生成每个智能体基于局部信息得到的值函数Q
i
(τ
i
)，包含单个智能体的局部历史信息τ
i
。4.根据权利要求1所述的基于值分解的多智能体强化学习方法，其特征在于，随机
‑
智能体网络是一个权值和偏差受噪声参数随机扰动的神经网络，其中噪声参数θ定义为θ＝μ+∑
⊙
ε，其中μ和∑是可学习的噪声参数向量，ε是零均值噪声的矢量，具有固定统计量，
⊙
表示逐元素乘法；噪声层的输出结果表示为y＝(μ
w
+σ
w
⊙
ε
w
)x+μ
b
+σ
b
⊙
ε
b
，x为输入的当前时刻的状态S
t
，y为输出的经过噪声随机化扰动过后的状态S
t
′
，权重参数项μ
w
+σ
w
⊙
ε
w
大于0。5.根据权利要求1所述的基于值分解的多智能体强化学习方法，其特征在于，竞争
‑
智能体网络对每个智能体的奖励值函数Q
i
(τ)进行分解包括：将当前时刻t的全局状态S
t
输入到评估
‑
智能体网络中转化为只受状态影响的Q值函数，即状态值函数S
i
(τ)；把当前时刻t智能体i所选择的动作输入到随机
‑
智能体网络中并输出动作值函数C
i
(τ)；把每个智能体基于全局信息τ的奖励值函数Q
i
(...

【专利技术属性】
技术研发人员：谢在鹏，邵鹏飞，高原，张雨锋，
申请(专利权)人：河海大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人