一种基于分级同伴奖励的多智能体协作重复博弈方法技术

技术编号:37392312 阅读:19 留言:0更新日期:2023-04-27 07:30
本发明专利技术公开了一种基于分级同伴奖励的多智能体协作重复博弈方法,聚焦分散自利多智能体由于奖励独立性和环境风险因素导致协作困难的问题,目标是使智能体找到最大化全局奖励的协作策略。提出了分级同伴奖励方法,其在训练过程中使智能体根据历史交互轨迹实时推断对手策略变化,并在不同级别的同伴奖励中动态改变自身策略,完成一次交互后,将该次交互加入历史轨迹循环往复,实现相互协作和防止在学习过程中被非协作的对手利用,提升了分散博弈智能体学习协作能力。智能体学习协作能力。智能体学习协作能力。

【技术实现步骤摘要】
一种基于分级同伴奖励的多智能体协作重复博弈方法


[0001]本专利技术属于博弈论
,具体涉及一种多智能体协作重复博弈方法。

技术介绍

[0002]深度强化学习(Deep Reinforcement Learning,DRL)方法的出现,使人们能够在丰富的环境中研究多智能体。协作是许多多智能体场景中的核心挑战,分散训练的范式——没有设计集体奖励,每个智能体优化独立的策略参数——给智能体获得较高的个人和集体奖励带来了困难。如何在一群分散、自利、个体奖励最大化的RL智能体之间产生协作关系是一个既有理论意义又有实践意义的问题。人类在各种复杂的社会环境中保持协作的能力对人类社会的成功至关重要。即使在战争等激烈对抗的环境中,也观察到了紧急互惠,这使其成为人类生活中一个典型而强大的特征。
[0003]博弈论在研究包含协作和竞争因素的博弈中的学习结果方面有着悠久的历史。协作与背叛之间的紧张关系通常在重复的猎鹿博弈中进行研究。在这个博弈中,存在两个纳什均衡:风险主导均衡在(猎兔,猎兔)和收益主导均衡在(猎鹿,猎鹿)。收益主导均衡更亲社会,为每个智能体提供更高的奖励,但在智能体不协作的情况下包含风险。风险主导均衡更安全,因为奖励较少取决于其他智能体的协作。在多智能体协作方面中现已有许多工作,例如基于集中式训练分布式执行(Centralized Training with Decentralized Execution,CTDE)的工作:COMA(Counterfactual Multi

Agent)、VDN(Value

Decomposition Networks)等,但这些方法需要集中式模块,与现实分散环境不匹配;部分工作通过对手建模估计对手的策略、参数或更新。虽然对手建模已显示出有希望的结果,但它通常会提供次优的近似解;还有一部分工作手动明确设置了智能体的奖励,例如通过编码不平等厌恶:将每个智能体的奖励函数定义为环境中所有智能体的奖励均值。这些方法需要一个强有力的假设,即智能体的奖励函数可以从外部修改,智能体可以被迫亲社会,关心所有智能体的总体奖励最大化,这与分散训练的范式是违背的;现有多智能体协作方法分散协作能力差、学习条件限制强。

技术实现思路

[0004]为了克服现有技术的不足,本专利技术提供了一种基于分级同伴奖励的多智能体协作重复博弈方法,聚焦分散自利多智能体由于奖励独立性和环境风险因素导致协作困难的问题,目标是使智能体找到最大化全局奖励的协作策略。提出了分级同伴奖励方法,其在训练过程中使智能体根据历史交互轨迹实时推断对手策略变化,并在不同级别的同伴奖励中动态改变自身策略,完成一次交互后,将该次交互加入历史轨迹循环往复,实现相互协作和防止在学习过程中被非协作的对手利用,提升了分散博弈智能体学习协作能力。
[0005]本专利技术解决其技术问题所采用的技术方案包括如下步骤:
[0006]步骤1:利用博弈论知识将协作问题抽象为有限次重复博弈;
[0007]将现实环境中反复交互的协作问题抽象为一个有限次重复博弈G,由一个元组G=
<S,A,n,T,H,{R
k
}>指定;其中,S是环境的状态,A是智能体动作集,n是博弈智能体个数,T为有限次重复博弈轮次,H为历史交互轨迹,{R
k
}为第k个智能体的奖励k∈{1,...,n};
[0008]给定一个单次博弈g,重复博弈有限T次,在每个时间步t时,选择动作和s
t
∈S;联合动作a
t
∈A,导致状态转换:S
×
A

S

;奖励函数奖励函数这些变量随时间变化的历史被称为轨迹:每个智能体都寻求最大化自己的总奖励使用分散Deep Q

Network训练每个智能体的策略π
k

[0009]步骤2:有限次重复猎鹿博弈与其子博弈完美均衡;
[0010]用参数r描述猎鹿的风险,即单独猎鹿的奖励,将r称为风险参数;将问题定义为有限次重复猎鹿博弈,猎鹿博弈收益矩阵如下表所示,博弈智能体能够选择猎鹿和猎兔两种行为,该博弈有两个纳什均衡点,即(猎鹿,猎鹿)和(猎兔,猎兔),其中(猎鹿,猎鹿)比(猎兔,猎兔)具有较高的个体和总体收益;
[0011]表1
[0012] 猎鹿猎兔猎鹿2,2r,1猎兔1,r1,1
[0013]子博弈完美纳什均衡SPE:
[0014][0015][0016]其中a表示有限次重复猎鹿博弈中的智能体的联合策略,a
k
表示智能体k的纯策略集,a
k
|
h
智能体k在子博弈节点h的策略选择,a

k
|
h
除智能体k以外其余智能体在子博弈节点h的策略选择,μ
i
表示智能体i在子博弈中的总体收益;
[0017]步骤3:求解有限次重复猎鹿博弈中的子博弈完美纳什均衡;
[0018]使用逆向归纳求解有限次重复猎鹿博弈的子博弈完美纳什均衡,包括以下步骤:

从最终端的非叶节点即最后一个子博弈开始计算均衡,使用此策略替换此子博弈根节点;

重复步骤

,直到递归到整体博弈的根节点为止;
[0019]通过以这种方式逆向归纳,验证重复猎鹿博弈有两个子博弈完美纳什均衡,即在全部的T回合中选择(猎鹿,猎鹿)或者(猎兔,猎兔);
[0020]步骤4:分析零和同伴奖励对均衡的影响;
[0021]设原有的有限次重复猎鹿博弈为M,用同伴奖励扩展来制定新的博弈在中每个智能体的策略集在零和同伴奖励扩展的有限次重复猎鹿博弈中,对于任何a
i
|
h
∈A
i
,(a
i
|
h
,g
i
|
h
)收益小于等于(a
i
|
h
,0),即在其他智能体策略保持不变的情况下,(a
i
|
h
,g
i
|
h
)如果g
i
|
h
≠0总是比(a|
h
,0)收益更低;
[0022]推论:在任何零和同伴奖励扩展的有限次重复猎鹿博弈中的SPE集合中,所有智能体的同伴奖励值都为0;
[0023][0024][0025]命题:对于任何正常形式的博弈M扩展到带有零和同伴奖励博弈在它们对应的SPE策略A
SPE
和之间存在一个唯一的一对一映射,这样如果一个策略集是M中的SPE,那么附加值为0的同伴奖励动作也会对应一个SPE在
[0026][0027]步骤5:分析零和同伴奖励对于智能体学习行为影响;
[0028]分别定义两个博弈智能体的策略本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于分级同伴奖励的多智能体协作重复博弈方法,其特征在于,包括以下步骤:步骤1:利用博弈论知识将协作问题抽象为有限次重复博弈;将现实环境中反复交互的协作问题抽象为一个有限次重复博弈G,由一个元组G=<S,A,n,T,H,{R
k
}>指定;其中,S是环境的状态,A是智能体动作集,n是博弈智能体个数,T为有限次重复博弈轮次,打为历史交互轨迹,{R
k
}为第k个智能体的奖励k∈{1,...,n};给定一个单次博弈g,重复博弈有限T次,在每个时间步t时,选择动作和s
t
∈S;联合动作a
t
∈A,导致状态转换:S
×
A

S

;奖励函数奖励函数这些变量随时间变化的历史被称为轨迹:每个智能体都寻求最大化自己的总奖励使用分散Deep Q

Network训练每个智能体的策略π
k
;步骤2:有限次重复猎鹿博弈与其子博弈完美均衡;用参数r描述猎鹿的风险,即单独猎鹿的奖励,将r称为风险参数;将问题定义为有限次重复猎鹿博弈,猎鹿博弈收益矩阵如下表所示,博弈智能体能够选择猎鹿和猎兔两种行为,该博弈有两个纳什均衡点,即(猎鹿,猎鹿)和(猎兔,猎兔),其中(猎鹿,猎鹿)比(猎兔,猎兔)具有较高的个体和总体收益;表1猎鹿猎兔猎鹿2,2r,1猎兔1,r1,1子博弈完美纳什均衡SPE:子博弈完美纳什均衡SPE:其中a表示有限次重复猎鹿博弈中的智能体的联合策略,a
k
表示智能体k的纯策略集,a
k
|
h
智能体k在子博弈节点h的策略选择,a

k
|
h
除智能体k以外其余智能体在子博弈节点h的策略选择,μ
i
表示智能体i在子博弈中的总体收益;步骤3:求解有限次重复猎鹿博弈中的子博弈完美纳什均衡;使用逆向归纳求解有限次重复猎鹿博弈的子博弈完美纳什均衡,包括以下步骤:

从最终端的非叶节点即最后一个子博弈开始计算均衡,使用此策略替换此子博弈根节点;

重复步骤

,直到递归到整体博弈的根节点为止;通过以这种方式逆向归纳,验证重复猎鹿博弈有两个子博弈完美纳什均衡,即在全部的T回合中选择(猎鹿,猎鹿)或者(猎兔,猎兔);步骤4:分...

【专利技术属性】
技术研发人员:郭斌吕明泽刘佳琪丁亚三范小朋张赟
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1