一种基于分级同伴奖励的多智能体协作重复博弈方法技术

技术编号：37392312 阅读：19 留言：0更新日期：2023-04-27 07:30

本发明专利技术公开了一种基于分级同伴奖励的多智能体协作重复博弈方法，聚焦分散自利多智能体由于奖励独立性和环境风险因素导致协作困难的问题，目标是使智能体找到最大化全局奖励的协作策略。提出了分级同伴奖励方法，其在训练过程中使智能体根据历史交互轨迹实时推断对手策略变化，并在不同级别的同伴奖励中动态改变自身策略，完成一次交互后，将该次交互加入历史轨迹循环往复，实现相互协作和防止在学习过程中被非协作的对手利用，提升了分散博弈智能体学习协作能力。智能体学习协作能力。智能体学习协作能力。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于分级同伴奖励的多智能体协作重复博弈方法

[0001]本专利技术属于博弈论
，具体涉及一种多智能体协作重复博弈方法。

技术介绍

[0002]深度强化学习(Deep Reinforcement Learning,DRL)方法的出现，使人们能够在丰富的环境中研究多智能体。协作是许多多智能体场景中的核心挑战，分散训练的范式——没有设计集体奖励，每个智能体优化独立的策略参数——给智能体获得较高的个人和集体奖励带来了困难。如何在一群分散、自利、个体奖励最大化的RL智能体之间产生协作关系是一个既有理论意义又有实践意义的问题。人类在各种复杂的社会环境中保持协作的能力对人类社会的成功至关重要。即使在战争等激烈对抗的环境中，也观察到了紧急互惠，这使其成为人类生活中一个典型而强大的特征。
[0003]博弈论在研究包含协作和竞争因素的博弈中的学习结果方面有着悠久的历史。协作与背叛之间的紧张关系通常在重复的猎鹿博弈中进行研究。在这个博弈中，存在两个纳什均衡：风险主导均衡在(猎兔，猎兔)和收益主导均衡在(猎鹿，猎鹿)。收益主导均衡更亲社会，为每个智能体提供更高的奖励，但在智能体不协作的情况下包含风险。风险主导均衡更安全，因为奖励较少取决于其他智能体的协作。在多智能体协作方面中现已有许多工作，例如基于集中式训练分布式执行(Centralized Training with Decentralized Execution，CTDE)的工作：COMA(Counterfactual Multi
‑
Agent)、V...

【技术保护点】

【技术特征摘要】
1.一种基于分级同伴奖励的多智能体协作重复博弈方法，其特征在于，包括以下步骤：步骤1：利用博弈论知识将协作问题抽象为有限次重复博弈；将现实环境中反复交互的协作问题抽象为一个有限次重复博弈G，由一个元组G＝＜S，A，n，T，H，{R
k
}＞指定；其中，S是环境的状态，A是智能体动作集，n是博弈智能体个数，T为有限次重复博弈轮次，打为历史交互轨迹，{R
k
}为第k个智能体的奖励k∈{1，...，n}；给定一个单次博弈g，重复博弈有限T次，在每个时间步t时，选择动作和s
t
∈S；联合动作a
t
∈A，导致状态转换：S
×
A
→
S
′
；奖励函数奖励函数这些变量随时间变化的历史被称为轨迹：每个智能体都寻求最大化自己的总奖励使用分散Deep Q
‑
Network训练每个智能体的策略π
k
；步骤2：有限次重复猎鹿博弈与其子博弈完美均衡；用参数r描述猎鹿的风险，即单独猎鹿的奖励，将r称为风险参数；将问题定义为有限次重复猎鹿博弈，猎鹿博弈收益矩阵如下表所示，博弈智能体能够选择猎鹿和猎兔两种行为，该博弈有两个纳什均衡点，即(猎鹿，猎鹿)和(猎兔，猎兔)，其中(猎鹿，猎鹿)比(猎兔，猎兔)具有较高的个体和总体收益；表1猎鹿猎兔猎鹿2，2r，1猎兔1，r1，1子博弈完美纳什均衡SPE：子博弈完美纳什均衡SPE：其中a表示有限次重复猎鹿博弈中的智能体的联合策略，a
k
表示智能体k的纯策略集，a
k
|
h
智能体k在子博弈节点h的策略选择，a
‑
k
|
h
除智能体k以外其余智能体在子博弈节点h的策略选择，μ
i
表示智能体i在子博弈中的总体收益；步骤3：求解有限次重复猎鹿博弈中的子博弈完美纳什均衡；使用逆向归纳求解有限次重复猎鹿博弈的子博弈完美纳什均衡，包括以下步骤：
①
从最终端的非叶节点即最后一个子博弈开始计算均衡，使用此策略替换此子博弈根节点；
②
重复步骤
①
，直到递归到整体博弈的根节点为止；通过以这种方式逆向归纳，验证重复猎鹿博弈有两个子博弈完美纳什均衡，即在全部的T回合中选择(猎鹿，猎鹿)或者(猎兔，猎兔)；步骤4：分...

【专利技术属性】
技术研发人员：郭斌，吕明泽，刘佳琪，丁亚三，范小朋，张赟，
申请(专利权)人：西北工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人