用于在二人零和博弈中近似纳什均衡的设备和方法技术

技术编号:39506481 阅读:20 留言:0更新日期:2023-11-24 11:38
描述了一种计算机实现的设备

【技术实现步骤摘要】
【国外来华专利技术】用于在二人零和博弈中近似纳什均衡的设备和方法


[0001]本专利技术涉及一种应用于二人零和博弈框架中的计算机实现的设备和方法,尤其涉及在这些框架中近似纳什均衡并提升策略的多样性


技术介绍

[0002]由于每个智能体的动作之间存在相互依存关系,计算策略配置
(
在该策略配置中,系统中的智能体执行最佳响应动作
)
是困难的

具体地,理想的配置被称为不动点

在这种配置中,任何智能体都不能通过单方面更改其当前的策略行为来提高其收益

这个概念被称为纳什均衡
(Nash equilibrium

NE)。
[0003]二人零和博弈的一个简单示例是剪刀石头布博弈,其中,石头击败剪刀,剪刀击败布,布击败石头,人们很容易知道纳什均衡是三种策略概率相同
(1/3、1/3、1/3)
的博弈

当玩家采用纳什策略时,他就不会再被利用了

但是,在更复杂的二人零和博弈中,如德州扑克或星际争霸
(Starcraft)
,策略空间要大得多
(
例如,星际争霸在每个时间步长都有
10
26
个原子动作
)
,需要设计近似求解器来计算纳什均衡

[0004]许多现实世界的应用,如设计博弈
AI
,涉及求解二人零和博弈中的近似纳什均衡

通常,这些博弈包括大量的维度,这使得传统的线性规划求解器不可行,需要可扩展的方法来求解它们

在设计可扩展的近似方案时,在训练期间提升行为多样性非常重要

对于求解存在策略循环且没有持续一致赢家的非传递性动态的博弈,提升行为多样性尤其重要

例如,一个只出石头的玩家永远不会赢得剪刀石头布博弈

但是,在定义多样性和构建多样性感知学习动态方面缺乏严格的处理

从本质上讲,现有的求解器不能求解大规模零和博弈,或在近似纳什均衡时,它们不会提升行为多样性

[0005]通常,正常形式类型
(
例如,见
Candogan,O.、Menache,I.、Ozdaglar,A.

Parrilo,P.A.


博弈的流动和分解:和谐和势博弈
》(Flows and decompositions of games:Harmonic and potential games)(Mathematics of Operations Research,36(3):474

503,2011))
或差分类型
(
例如,见
Balduzzi,D.、Racaniere,S.、Martens,J.、Foerster,J.、Tuyls,K.

Graepel,T.
的“《n
人可微博弈的机制
》(The mechanics of n

player differentiable games)”(ICML,volume80,pp.363

372.JMLR.org,2018a.))
的任意博弈总是可以分解为两个组成部分
(
传递性部分和非传递性部分
)
的总和

博弈的传递性部分表示获胜规则具有传递性的结构
(
即,如果策略
A
击败
B

B
击败
C
,则
A
击败
C)
,而非传递性部分是指策略集遵循循环规则的结构
(
例如,石头

布和剪刀之间的无休止循环
)。
多样性很重要,对于非传递性部分来说尤其如此,仅仅是因为在博弈的这一部分中没有一致的赢家:如果一个玩家只出石头,他会被出布的玩家利用,但如果他有一个多样性的石头和剪刀策略集,就不是这样了

[0006]许多现实世界的博弈都表现出强烈的非传递性
(
例如,见
Czarnecki,W.M.、Gidel,G.、Tracey,B.、Tuyls,K.、Omidshafiei,S.、Balduzzi,D.

Jaderberg,M.
的“《
现实世界的游戏看起来像旋转的陀螺
》(Real world games look like spinning tops)”(arXiv,
manifesto for multi

agent intelligence research)”(arXiv,pp.arXiv

1903,2019)

Baker,B.、Kanitscheider,I.、Markov,T.、Wu,Y.、Powell,G.、McGrew,B.

Mordatch,I.
的“《
多智能体自学课程中的紧急工具使用
》(Emergent tool use from multi

agent autocurricula)”(International Conference on Learning Representations,2019))。
[0008]尽管有许多经验上成功的案例,但对行为多样性缺乏严格的处理仍然阻碍了人们制定原则性的方法

[0009]希望开发一种克服这些问题的方法


技术实现思路

[0010]根据一个方面,提供了一种计算机实现的设备,用于处理双智能体系统输入,以形成多个至少部分优化的输出,每个输出指示两个智能体中的每个智能体的动作策略,所述设备包括一个或多个处理器,用于执行以下步骤:接收所述双智能体系统输入,所述双智能体系统输入包括双智能体系统的定义并根据系统状态定义两个智能体的行为模式;接收输入系统状态的指示;执行迭代机器学习过程,以估计多个聚合函数,每个聚合函数表示所述两个智能体在系统状态集上的行为模式,其中,所述多个聚合函数是在所述迭代机器学习过程的单次迭代中确定的

[0011]这可以支持一种可扩展的迭代方法,用于在二人零和博弈框架中近似纳什均衡

[0012]多个聚合函数可以对应智能体的多个最佳响应策略

[0013]所述处理器可以用于迭代处理所述输入系统状态的所述多个聚合函数,以估计所述输入系统状态下的所述两个智能体中的每个智能体的多个至少部分优化的动作集

在达到预定义的收敛水平之前,多个聚合函数可以迭代处理

[0014]多个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.
一种计算机实现的设备
(900)
,其特征在于,用于处理双智能体系统输入,以形成多个至少部分优化的输出,每个输出指示两个智能体中的每个智能体的动作策略,所述设备包括一个或多个处理器
(901)
,用于执行以下步骤:接收
(601)
所述双智能体系统输入,所述双智能体系统输入包括双智能体系统的定义并根据系统状态定义两个智能体的行为模式;接收
(602)
输入系统状态的指示;执行
(603)
迭代机器学习过程
(800)
,以估计多个聚合函数,每个聚合函数表示所述两个智能体在系统状态集上的行为模式,其中,所述多个聚合函数是在所述迭代机器学习过程的单次迭代中确定的
。2.
根据权利要求1所述的设备
(900)
,其特征在于,所述处理器
(901)
用于迭代处理所述输入系统状态的所述多个聚合函数,以估计所述输入系统状态下的所述两个智能体中的每个智能体的多个至少部分优化的动作集
。3.
根据权利要求1或2所述的设备
(900)
,其特征在于,所述多个聚合函数是在所述迭代机器学习过程的单次迭代中并行确定的
。4.
根据上述权利要求中任一项所述的设备
(900)
,其特征在于,多个聚合函数是在所述机器学习过程的每次迭代中确定的
。5.
根据上述权利要求中任一项所述的设备
(900)
,其特征在于,所述迭代机器学习过程
(800)
用于提升在每次迭代中确定的所述多个聚合函数之间的行为多样性
。6.
根据上述权利要求中任一项所述的设备
(900)
,其特征在于,所述迭代机器学习过程
(800)
是根据多样性度量执行的,其中,所述多样性度量通过行列式点过程建模
。7.
根据上述权利要求中任一项所述的设备
(900)
,其特征在于,所述多个至少部分优化的输出各自包括所述输入系统状态下的所述两个智能体中的每个智能体的集体最佳动作策略
。8.
根据上述权利要求中任一项所述的设备
(900)
,其特征在于,所述多个至少部分优化的输出各自表示所述输入系统状态下的所述两个智能体的纳什均衡行为模式<...

【专利技术属性】
技术研发人员:杨耀东尼古拉斯
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1