一种基于群体博弈的多智能体交互方法及系统技术方案

技术编号:33912786 阅读:8 留言:0更新日期:2022-06-25 19:44
本发明专利技术公开了一种基于群体博弈的多智能体交互方法及系统,所述方法包括:初始化智能体强化学习所需的预设参数,初始化智能体的Q表,并初始化学习周期;获取常微分方程的求解阈值,并将常微分方程的求解阈值进行衰减处理;初始化系统状态,采用贪婪策略选取智能体的联合动作;每个智能体执行所选取的动作,并接收观测样本和奖励;构建基于智能体的Q表的群体博弈,利用基于继承的BNN群体博弈动态算法求解近似均衡策略;智能体基于得到的期望奖励更新Q表。本发明专利技术不需要精确求解每个阶段博弈的均衡策略,以相对较低的计算复杂度求得近似均衡,通过设计常微分方程求解加速机制,实现均衡复杂度和均衡精度的最优权衡,以及多智能体系统的最优性能。能体系统的最优性能。能体系统的最优性能。

【技术实现步骤摘要】
一种基于群体博弈的多智能体交互方法及系统


[0001]本专利技术涉及计算机应用
,尤其涉及一种基于群体博弈的多智能体交互方法、系统及计算机可读存储介质。

技术介绍

[0002]现实世界中的许多问题(例如多机器人控制、无人机集群、自动驾驶等)都包含多个智能体之间的复杂交互。多个智能体都希望在交互的过程中能够在复杂的环境中学习到最优策略。非合作型多智能体强化学习一般指智能体在与环境交互过程中仅优化各自目标的场景。在这一场景中,每个智能体都追求最大化自身奖励。如何能够使智能体学习到没有动力去改变自身当前策略的均衡策略是当前多智能体强化学习领域的一个充满挑战性的研究课题。现有的解决方案通常采用基于均衡的多智能体强化学习框架来促使多智能体在每一个阶段博弈中都采用均衡策略。该学习框架以Q学习(Q

learning,是一种与模型无关的强化学习算法,以马尔科夫决策过程为理论基础)为基础,首先将多智能体之间的交互建模成为一个随机博弈,然后在随机博弈的每一个状态下计算对应正则博弈的均衡策略,并根据选中的均衡策略更新智能体的Q函数(用来表征智能体状态动作组合好坏程度的函数)。
[0003]上述基于均衡的学习框架虽然在理论上能够促使智能体收敛到均衡策略,但也存在着一定的缺点,即有的基于博弈的多智能体强化学习算法多采用具有高计算复杂度的精确均衡点来对Q函数进行更新。例如,经典的Nash

Q算法(是将Minimax

Q算法从零和博弈扩展到多人一般和博弈的算法,在合作性均衡或对抗性均衡的环境中能够收敛到纳什均衡点)采用精确纳什均衡来进行策略更新,CE

Q算法采用精确的相关均衡来进行策略更新等。由于精确均衡的计算复杂度会随着智能体个数的增加而急剧增加,现有的方法不能够很好的适用于有多个智能体存在的环境中。
[0004]因此,现有技术还有待于改进和发展。

技术实现思路

[0005]本专利技术的主要目的在于提供一种基于群体博弈的多智能体交互方法、系统、系统及计算机可读存储介质,旨在解决现有技术的方法不能够很好的适用于有多个智能体存在的环境中的问题。
[0006]为实现上述目的,本专利技术提供一种基于群体博弈的多智能体交互方法,所述基于群体博弈的多智能体交互方法包括如下步骤:
[0007]初始化智能体强化学习所需的预设参数,初始化智能体的Q表,并初始化学习周期;
[0008]获取常微分方程的求解阈值,并将常微分方程的求解阈值进行衰减处理;
[0009]初始化系统状态,采用贪婪策略选取智能体的联合动作;
[0010]每个智能体执行所选取的动作,并接收观测样本和奖励;
[0011]构建基于智能体的Q表的群体博弈,利用基于继承的BNN群体博弈动态算法求解近似均衡策略;
[0012]智能体基于得到的期望奖励更新Q表。
[0013]所述的基于群体博弈的多智能体交互方法,其中,所述智能体基于得到的期望奖励更新Q表,之后还包括:
[0014]判断当前系统状态是否为终止状态;
[0015]若当前系统状态不为终止状态,则将当前系统状态转移到下一系统状态;
[0016]若当前系统状态为终止状态,则判断当前学习周期是否达到最大学习周期;
[0017]若当前学习周期未达到最大学习周期,则更新学习周期迭代器;
[0018]若当前学习周期达到最大学习周期,则结束当前流程。
[0019]所述的基于群体博弈的多智能体交互方法,其中,所述预设参数包括学习率、折扣因子和探索因子;
[0020]所述初始化智能体强化学习所需的预设参数,初始化智能体的Q表,并初始化学习周期,具体包括:
[0021]初始化学习率、折扣因子和探索因子,初始化常微分方程的求解阈值,初始化智能体的Q表为零,并初始化学习周期e;
[0022]其中,所述学习率用于控制强化学习的学习速度;所述折扣因子表示智能体当前动作所产生的未来奖励对当前Q表更新的影响程度;所述探索因子表示智能体在访问过的状态下尝试新动作的概率;智能体的Q表用于表示智能体的不同状态动作对所对应的长期期望回报;学习周期e的取值范围为1、2、...、N
eps
,其中N
eps
代表最大的训练周期数目。
[0023]所述的基于群体博弈的多智能体交互方法,其中,所述获取常微分方程的求解阈值,并将常微分方程的求解阈值进行衰减处理,具体包括:
[0024]获取常微分方程的求解阈值,将求解阈值进行衰减δ
e
=κδ
e
‑1,其中,δ
e
表示学习周期e的常微分方程的求解阈值,δ
e
‑1表示学习周期e

1的常微分方程的求解阈值,κ表示衰减因子。
[0025]所述的基于群体博弈的多智能体交互方法,其中,所述初始化系统状态,采用贪婪策略选取智能体的联合动作,具体包括:
[0026]定义系统状态为智能体当前所观测到的环境状态,初始化系统状态s=s
ini

[0027]采用贪婪策略选取智能体的联合动作a,联合动作a表示多个智能体的动作集合;以概率ε为每个智能体随机选取联合动作,以概率(1

ε)为智能体选取使Q值最大的联合动作,其中,ε表示0到1之间的随机数。
[0028]所述的基于群体博弈的多智能体交互方法,其中,所述每个智能体执行所选取的动作,并接收观测样本和奖励,具体包括:
[0029]每个智能体执行所选取的动作,并收到观测样本(s,a,R
i
,s

),其中,R
i
代表智能体i从环境中收到的奖励,s

表示下一个系统状态。
[0030]所述的基于群体博弈的多智能体交互方法,其中,所述构建基于智能体的Q表的群体博弈,利用基于继承的BNN群体博弈动态算法求解近似均衡策略,具体包括:
[0031]在下一个系统状态s

下构建基于智能体Q值的正则博弈:
[0032][0033]其中,表示智能体i的动作空间,Qi(s

)表示智能体i的Q函数在下一个状态s

下的值,表示所有智能体的集合;
[0034]将基于智能体Q值的正则博弈构建成相应的群体博弈,群体博弈由两个回报函数来表征:
[0035][0036][0037]其中,表示种群状态为x(s)时,智能体i对应的元智能体中选择第k个纯策略的元智能体所得到的回报;表示智能体i对应的种群得到的平均回报;i和j表示智能体的下标;k表示智能体纯策略的下标;a

i
表示除了智能体i以外的所有智能体的策略,表示a

i
的取值空间;Q
i
(s,k,a

i
)表示智能本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于群体博弈的多智能体交互方法,其特征在于,所述基于群体博弈的多智能体交互方法包括:初始化智能体强化学习所需的预设参数,初始化智能体的Q表,并初始化学习周期;获取常微分方程的求解阈值,并将常微分方程的求解阈值进行衰减处理;初始化系统状态,采用贪婪策略选取智能体的联合动作;每个智能体执行所选取的动作,并接收观测样本和奖励;构建基于智能体的Q表的群体博弈,利用基于继承的BNN群体博弈动态算法求解近似均衡策略;智能体基于得到的期望奖励更新Q表。2.根据权利要求1所述的基于群体博弈的多智能体交互方法,其特征在于,所述智能体基于得到的期望奖励更新Q表,之后还包括:判断当前系统状态是否为终止状态;若当前系统状态不为终止状态,则将当前系统状态转移到下一系统状态;若当前系统状态为终止状态,则判断当前学习周期是否达到最大学习周期;若当前学习周期未达到最大学习周期,则更新学习周期迭代器;若当前学习周期达到最大学习周期,则结束当前流程。3.根据权利要求1所述的基于群体博弈的多智能体交互方法,其特征在于,所述预设参数包括学习率、折扣因子和探索因子;所述初始化智能体强化学习所需的预设参数,初始化智能体的Q表,并初始化学习周期,具体包括:初始化学习率、折扣因子和探索因子,初始化常微分方程的求解阈值,初始化智能体的Q表为零,并初始化学习周期e;其中,所述学习率用于控制强化学习的学习速度;所述折扣因子表示智能体当前动作所产生的未来奖励对当前Q表更新的影响程度;所述探索因子表示智能体在访问过的状态下尝试新动作的概率;智能体的Q表用于表示智能体的不同状态动作对所对应的长期期望回报;学习周期e的取值范围为1、2、...、N
eps
,其中N
eps
代表最大的训练周期数目。4.根据权利要求3所述的基于群体博弈的多智能体交互方法,其特征在于,所述获取常微分方程的求解阈值,并将常微分方程的求解阈值进行衰减处理,具体包括:获取常微分方程的求解阈值,将求解阈值进行衰减δ
e
=κδ
e
‑1,其中,δ
e
表示学习周期e的常微分方程的求解阈值,δ
e
‑1表示学习周期e

1的常微分方程的求解阈值,κ表示衰减因子。5.根据权利要求4所述的基于群体博弈的多智能体交互方法,其特征在于,所述初始化系统状态,采用贪婪策略选取智能体的联合动作,具体包括:定义系统状态为智能体当前所观测到的环境状态,初始化系统状态s=s
ini
;采用贪婪策略选取智能体的联合动作a,联合动作a表示多个智能体的动作集合;以概率ε为每个智能体随机选取联合动作,以概率(1

ε)为智能体选取使Q值最大的联合动作,其中,ε表示0到1之间的随机数。6.根据权利要求5所述的基于群体博弈的多智能体交互方法,其特征在于,所述每个智能体执行所选取的动作,并接收观测样本和奖励,具体包括:每个智能体执行所选取的动作,并收到观测样本(s,a,R
i
,s

),其中,R
i
代表智能体i从
环境中收到的奖励,s

表示下一个系统状态。7.根据权利要求6所述的基于群体博弈的多智能体交互方法,其特征在于,所述构建基于智能体的Q表的群体博弈,利用基于继承的BNN群体博弈动态算...

【专利技术属性】
技术研发人员:李俊伶柯舒麒黄建伟
申请(专利权)人:深圳市人工智能与机器人研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1