基于值函数可信度的多智能体强化学习方法及相关装置制造方法及图纸

技术编号：32267415 阅读：34 留言：0更新日期：2022-02-12 19:30

本申请公开了一种基于值函数可信度的多智能体强化学习方法及相关装置，方法包括基于各智能体的观测值确定各智能体的势能函数；基于各势能函数确定局部值函数及候选全局值函数；基于全局环境信息、局部值函数及候选全局值函数确定若干信誉值；基于各局部值函数、候选全局值函数及信誉值确定全局值函数；基于全局值函数及各智能体的势能函数，利用集中训练分布机制训练多智能体。本申请通过确定若干局部值函数可以学习到各智能体的局部环境信息，再结合若干局部值函数形成全局值函数可以提高全局值函数的精准性，提高多智能体强化学习的收敛速度。同时，在计算全局值函数时为各局部值函数配置信誉度，提高多智能体强化学习的学习效率以及鲁棒性。学习效率以及鲁棒性。学习效率以及鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
基于值函数可信度的多智能体强化学习方法及相关装置

[0001]本申请涉及多智能体强化学习
，特别涉及一种基于值函数可信度的多智能体强化学习方法及相关装置。

技术介绍

[0002]基于值分解方法是多智能体强化学习方法的一种方法，其利用神经网络拟合一个全局联合价值函数Q
tot
，进而将该值分解为局部的势能函数Q
i
并利用集中式训练分布式执行的机制，在训练阶段，将全部智能体单独与环境交互的数据进行合并视作一个“智能体”训练，即利用Q
tot
进行集中式的训练；在执行阶段，每个智能体之间互不影响，均根据自己的势能函数Q
i
采取动作。然而，基于值分解的多智能体强化学习方法仅是通过局部个体智能体的势能函数以某种组合得到全局的联合价值函数，但是其忽略局部环境即局部价值函数的重要性，从而影响多智能强化学习的收敛速度。
[0003]因而现有技术还有待改进和提高。

技术实现思路

[0004]本申请要解决的技术问题在于，针对现有技术的不足，提供一种...

【技术保护点】

【技术特征摘要】
1.一种基于值函数可信度的多智能体强化学习方法，其特征在于，所述方法包括：获取各智能体的观测值，并基于各智能体各自对应的观测值确定各智能体各自对应的势能函数；基于各智能体各自对应的势能函数确定若干局部值函数以及候选全局值函数，其中，若干局部值函数中的每个局部值函数均基于部分势能函数确定得到的；获取多智能体对应的全局环境信息，并基于所述全局环境信息、若干局部值函数以及候选全局值函数，确定各局部值函数和候选全局值函数各自对应的信誉值；基于各局部值函数、候选全局值函数以及各局部值函数和候选全局值函数各自对应的信誉值确定多智能体对应的全局值函数；基于所述全局值函数以及各智能体各自对应的势能函数，利用集中训练分布执行的机制训练多智能体。2.根据权利要求1所述的基于值函数可信度的多智能体强化学习方法，其特征在于，所述若干局部值函数中的每个局部值函数各自对应的势能函数互不相同。3.根据权利要求1或2所述的基于值函数可信度的多智能体强化学习方法，其特征在于，所述基于各智能体各自对应的势能函数确定若干局部值函数具体包括：将多智能体划分为若干智能体组，其中，若干智能体组中至少存在一个智能体组包括的智能体的数量大于1；对于若干智能体组中的每个智能体组，基于该智能体组中的各智能体各自对应的势能函数确定该智能体对应的局部值函数，以得到若干局部值函数。4.根据权利要求3所述的基于值函数可信度的多智能体强化学习方法，其特征在于，所述将多智能体划分为若干智能体组具体包括：获取多智能体中的各智能体各自对应的智能体类别，并检测各智能体各自对应的智能体类别是否完全相同；当全部相同时，将若干智能体随机分配为若干智能体组；当不全部相同时，基于智能体类别将多智能体划分为若干智能体组。5.根据权利要求1所述的基于值函数可信度的多智能体强化学习方法，其特征在于，所述全局环境信息包括全局状态信息以及训练步长。6.根据权利要求1或5所述的基于值函数可信度的多智能体强化学习方法，其特征在于，所述基于所述全局环境信息、若干局部值函数以及候选全局值函数，确定各局部值函数和候选全局值函数各自对应的信誉值具体包括：将所述全局环境信息、若干局部值函数以及候选全局值函数输入多层感知器，通过多层感知器输出各局部值函数以及候选全局值函数各自对应的候选信誉值；...

【专利技术属性】
技术研发人员：李帅斌，崔金强，宋伟伟，孙涛，丁玉隆，尉越，
申请(专利权)人：鹏城实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人