当前位置: 首页 > 专利查询>鹏城实验室专利>正文

基于值函数可信度的多智能体强化学习方法及相关装置制造方法及图纸

技术编号:32267415 阅读:22 留言:0更新日期:2022-02-12 19:30
本申请公开了一种基于值函数可信度的多智能体强化学习方法及相关装置,方法包括基于各智能体的观测值确定各智能体的势能函数;基于各势能函数确定局部值函数及候选全局值函数;基于全局环境信息、局部值函数及候选全局值函数确定若干信誉值;基于各局部值函数、候选全局值函数及信誉值确定全局值函数;基于全局值函数及各智能体的势能函数,利用集中训练分布机制训练多智能体。本申请通过确定若干局部值函数可以学习到各智能体的局部环境信息,再结合若干局部值函数形成全局值函数可以提高全局值函数的精准性,提高多智能体强化学习的收敛速度。同时,在计算全局值函数时为各局部值函数配置信誉度,提高多智能体强化学习的学习效率以及鲁棒性。学习效率以及鲁棒性。学习效率以及鲁棒性。

【技术实现步骤摘要】
基于值函数可信度的多智能体强化学习方法及相关装置


[0001]本申请涉及多智能体强化学习
,特别涉及一种基于值函数可信度的多智能体强化学习方法及相关装置。

技术介绍

[0002]基于值分解方法是多智能体强化学习方法的一种方法,其利用神经网络拟合一个全局联合价值函数Q
tot
,进而将该值分解为局部的势能函数Q
i
并利用集中式训练分布式执行的机制,在训练阶段,将全部智能体单独与环境交互的数据进行合并视作一个“智能体”训练,即利用Q
tot
进行集中式的训练;在执行阶段,每个智能体之间互不影响,均根据自己的势能函数Q
i
采取动作。然而,基于值分解的多智能体强化学习方法仅是通过局部个体智能体的势能函数以某种组合得到全局的联合价值函数,但是其忽略局部环境即局部价值函数的重要性,从而影响多智能强化学习的收敛速度。
[0003]因而现有技术还有待改进和提高。

技术实现思路

[0004]本申请要解决的技术问题在于,针对现有技术的不足,提供一种基于值函数可信度的多智能体强化学习方法及相关装置。
[0005]为了解决上述技术问题,本申请实施例第一方面提供了一种基于值函数可信度的多智能体强化学习方法,所述方法包括:
[0006]获取各智能体的观测值,并基于各智能体各自对应的观测值确定各智能体各自对应的势能函数;
[0007]基于各智能体各自对应的势能函数确定若干局部值函数以及候选全局值函数,其中,若干局部值函数中的每个局部值函数均基于部分势能函数确定得到的;
[0008]获取多智能体对应的全局环境信息,并基于所述全局环境信息、若干局部值函数以及候选全局值函数,确定各局部值函数和候选全局值函数各自对应的信誉值;
[0009]基于各局部值函数、候选全局值函数以及各局部值函数和候选全局值函数各自对应的信誉值确定多智能体对应的全局值函数;
[0010]基于所述全局值函数以及各智能体各自对应的势能函数,利用集中训练分布执行的机制训练多智能体。
[0011]所述的基于值函数可信度的多智能体强化学习方法,其中,所述若干局部值函数中的每个局部值函数各自对应的势能函数互不相同。
[0012]所述的基于值函数可信度的多智能体强化学习方法,其中,所述基于各智能体各自对应的势能函数确定若干局部值函数具体包括:
[0013]将多智能体划分为若干智能体组,其中,若干智能体组中至少存在一个智能体组包括的智能体的数量大于1;
[0014]对于若干智能体组中的每个智能体组,基于该智能体组中的各智能体各自对应的
势能函数确定该智能体对应的局部值函数,以得到若干局部值函数。
[0015]所述的基于值函数可信度的多智能体强化学习方法,其中,所述将多智能体划分为若干智能体组具体包括:
[0016]获取多智能体中的各智能体各自对应的智能体类别,并检测各智能体各自对应的智能体类别是否完全相同;
[0017]当全部相同时,将若干智能体随机分配为若干智能体组;
[0018]当不全部相同时,基于智能体类别将多智能体划分为若干智能体组。
[0019]所述的基于值函数可信度的多智能体强化学习方法,其中,所述全局环境信息包括全局状态信息以及训练步长。
[0020]所述的基于值函数可信度的多智能体强化学习方法,其中,所述基于所述全局环境信息、若干局部值函数以及候选全局值函数,确定各局部值函数和候选全局值函数各自对应的信誉值具体包括:
[0021]将所述全局环境信息、若干局部值函数以及候选全局值函数输入多层感知器,通过多层感知器输出各局部值函数以及候选全局值函数各自对应的候选信誉值;
[0022]将各候选信誉值输入softmax层,通过softmax层输出各局部值函数以及候选全局值函数各自对应的信誉值。
[0023]所述的基于值函数可信度的多智能体强化学习方法,其中,所述基于各局部值函数、候选全局值函数以及各局部值函数和候选全局值函数各自对应的信誉值确定多智能体对应的全局值函数具体为:
[0024]将各局部值函数和候选全局值函数各自对应的信誉值作为局部值函数和候选全局值函数的折损因子;
[0025]基于各折损因子将各局部值函数和候选全局值函数进行求和,以得到确定多智能体对应的全局值函数。
[0026]本申请实施例第二方面提供了一种基于值函数可信度的多智能体强化学习装置,所述的装置包括:
[0027]获取模块,用于获取各智能体的观测值,并基于各智能体各自对应的观测值确定各智能体各自对应的势能函数;
[0028]第一确定模块,用于基于各智能体各自对应的势能函数确定若干局部值函数以及候选全局值函数,其中,若干局部值函数中的每个局部值函数均基于部分势能函数确定得到的;
[0029]第二确定模块,用于获取多智能体对应的全局环境信息,并基于所述全局环境信息、若干局部值函数以及候选全局值函数,确定各局部值函数和候选全局值函数各自对应的信誉值;
[0030]第三确定模块,用于基于各局部值函数、候选全局值函数以及各局部值函数和候选全局值函数各自对应的信誉值确定多智能体对应的全局值函数;
[0031]训练模块,用于基于所述全局值函数以及各智能体各自对应的势能函数,利用集中训练分布执行的机制训练多智能体。
[0032]所述的基于值函数可信度的多智能体强化学习装置,其中,所述若干局部值函数中的每个局部值函数各自对应的势能函数互不相同。
[0033]本申请实施例第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上任一所述的基于值函数可信度的多智能体强化学习方法中的步骤。
[0034]本申请实施例第四方面提供了一种终端设备,其包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;
[0035]所述通信总线实现处理器和存储器之间的连接通信;
[0036]所述处理器执行所述计算机可读程序时实现如上任一所述的基于值函数可信度的多智能体强化学习方法中的步骤。
[0037]有益效果:与现有技术相比,本申请提供了一种基于值函数可信度的多智能体强化学习方法及相关装置,所述方法包括获取各智能体的观测值,并基于各智能体各自对应的观测值确定各智能体各自对应的势能函数;基于各智能体各自对应的势能函数确定若干局部值函数以及候选全局值函数;获取多智能体对应的全局环境信息,并基于所述全局环境信息、若干局部值函数以及候选全局值函数,确定各局部值函数和候选全局值函数各自对应的信誉值;基于各局部值函数、候选全局值函数以及各局部值函数和候选全局值函数各自对应的信誉值确定多智能体对应的全局值函数;基于所述全局值函数以及各智能体各自对应的势能函数,利用集中训练分布执行的机制训练多智能体。本申请通过确定若干局部值函本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于值函数可信度的多智能体强化学习方法,其特征在于,所述方法包括:获取各智能体的观测值,并基于各智能体各自对应的观测值确定各智能体各自对应的势能函数;基于各智能体各自对应的势能函数确定若干局部值函数以及候选全局值函数,其中,若干局部值函数中的每个局部值函数均基于部分势能函数确定得到的;获取多智能体对应的全局环境信息,并基于所述全局环境信息、若干局部值函数以及候选全局值函数,确定各局部值函数和候选全局值函数各自对应的信誉值;基于各局部值函数、候选全局值函数以及各局部值函数和候选全局值函数各自对应的信誉值确定多智能体对应的全局值函数;基于所述全局值函数以及各智能体各自对应的势能函数,利用集中训练分布执行的机制训练多智能体。2.根据权利要求1所述的基于值函数可信度的多智能体强化学习方法,其特征在于,所述若干局部值函数中的每个局部值函数各自对应的势能函数互不相同。3.根据权利要求1或2所述的基于值函数可信度的多智能体强化学习方法,其特征在于,所述基于各智能体各自对应的势能函数确定若干局部值函数具体包括:将多智能体划分为若干智能体组,其中,若干智能体组中至少存在一个智能体组包括的智能体的数量大于1;对于若干智能体组中的每个智能体组,基于该智能体组中的各智能体各自对应的势能函数确定该智能体对应的局部值函数,以得到若干局部值函数。4.根据权利要求3所述的基于值函数可信度的多智能体强化学习方法,其特征在于,所述将多智能体划分为若干智能体组具体包括:获取多智能体中的各智能体各自对应的智能体类别,并检测各智能体各自对应的智能体类别是否完全相同;当全部相同时,将若干智能体随机分配为若干智能体组;当不全部相同时,基于智能体类别将多智能体划分为若干智能体组。5.根据权利要求1所述的基于值函数可信度的多智能体强化学习方法,其特征在于,所述全局环境信息包括全局状态信息以及训练步长。6.根据权利要求1或5所述的基于值函数可信度的多智能体强化学习方法,其特征在于,所述基于所述全局环境信息、若干局部值函数以及候选全局值函数,确定各局部值函数和候选全局值函数各自对应的信誉值具体包括:将所述全局环境信息、若干局部值函数以及候选全局值函数输入多层感知器,通过多层感知器输出各局部值函数以及候选全局值函数各自对应的候选信誉值;...

【专利技术属性】
技术研发人员:李帅斌崔金强宋伟伟孙涛丁玉隆尉越
申请(专利权)人:鹏城实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1