用于在二人零和博弈中近似纳什均衡的设备和方法技术

技术编号：39506481 阅读：20 留言：0更新日期：2023-11-24 11:38

描述了一种计算机实现的设备

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于在二人零和博弈中近似纳什均衡的设备和方法

[0001]本专利技术涉及一种应用于二人零和博弈框架中的计算机实现的设备和方法，尤其涉及在这些框架中近似纳什均衡并提升策略的多样性
。

技术介绍

[0002]由于每个智能体的动作之间存在相互依存关系，计算策略配置
(
在该策略配置中，系统中的智能体执行最佳响应动作
)
是困难的
。
具体地，理想的配置被称为不动点
。
在这种配置中，任何智能体都不能通过单方面更改其当前的策略行为来提高其收益
。
这个概念被称为纳什均衡
(Nash equilibrium
，
NE)。
[0003]二人零和博弈的一个简单示例是剪刀石头布博弈，其中，石头击败剪刀，剪刀击败布，布击败石头，人们很容易知道纳什均衡是三种策略概率相同
(1/3、1/3、1/3)
的博弈
。
当玩家采用纳什策略时，他就不会再被利用了
。
但是，在更复杂的二人零和博弈中，如德州扑克或星际争霸
(Starcraft)
，策略空间要大得多
(
例如，星际争霸在每个时间步长都有
10
26
个原子动作
)
，需要设计近似求解器来计算纳什均衡
。
[0004]许多现实世界的应用，如设计博弈
AI
，涉及求解二人零和博弈中的近似纳什均衡
。
通常，...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.
一种计算机实现的设备
(900)
，其特征在于，用于处理双智能体系统输入，以形成多个至少部分优化的输出，每个输出指示两个智能体中的每个智能体的动作策略，所述设备包括一个或多个处理器
(901)
，用于执行以下步骤：接收
(601)
所述双智能体系统输入，所述双智能体系统输入包括双智能体系统的定义并根据系统状态定义两个智能体的行为模式；接收
(602)
输入系统状态的指示；执行
(603)
迭代机器学习过程
(800)
，以估计多个聚合函数，每个聚合函数表示所述两个智能体在系统状态集上的行为模式，其中，所述多个聚合函数是在所述迭代机器学习过程的单次迭代中确定的
。2.
根据权利要求1所述的设备
(900)
，其特征在于，所述处理器
(901)
用于迭代处理所述输入系统状态的所述多个聚合函数，以估计所述输入系统状态下的所述两个智能体中的每个智能体的多个至少部分优化的动作集
。3.
根据权利要求1或2所述的设备
(900)
，其特征在于，所述多个聚合函数是在所述迭代机器学习过程的单次迭代中并行确定的
。4.
根据上述权利要求中任一项所述的设备
(900)
，其特征在于，多个聚合函数是在所述机器学习过程的每次迭代中确定的
。5.
根据上述权利要求中任一项所述的设备
(900)
，其特征在于，所述迭代机器学习过程
(800)
用于提升在每次迭代中确定的所述多个聚合函数之间的行为多样性
。6.
根据上述权利要求中任一项所述的设备
(900)
，其特征在于，所述迭代机器学习过程
(800)
是根据多样性度量执行的，其中，所述多样性度量通过行列式点过程建模
。7.
根据上述权利要求中任一项所述的设备
(900)
，其特征在于，所述多个至少部分优化的输出各自包括所述输入系统状态下的所述两个智能体中的每个智能体的集体最佳动作策略
。8.
根据上述权利要求中任一项所述的设备
(900)
，其特征在于，所述多个至少部分优化的输出各自表示所述输入系统状态下的所述两个智能体的纳什均衡行为模式<...

【专利技术属性】
技术研发人员：杨耀东，尼古拉斯，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人