一种双人马尔可夫零和博弈中的保收益决策方法技术

技术编号：40665145 阅读：2 留言：0更新日期：2024-03-18 18:59

本发明专利技术涉及一种双人马尔可夫零和博弈中的保收益决策方法，首先，初始化对手的类型、针对所有类型对手的纳什均衡策略、对手建模的数据池、所有对手的概率神经网络模型、采样策略、历史博弈轨迹、对手类型预测值、期望奖励值；其次，针对每一种类型的对手，预训练对应的纳什均衡策略；采样与所有类型对手的博弈数据，使用博弈数据更新所有类型对手的概率神经网络模型；然后，使用概率神经网络模型与历史博弈轨迹辨别对手类型；并根据对手类型，使用对应的纳什均衡策略进行博弈；最后，观察博弈过程的奖励值，并快速判别对手策略，根据对手策略使用相应的策略进行博弈。采用本方法可以使得智能体既能保证最低的博弈收益，又能获得更高的收益。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能和博弈领域，具体涉及一种双人马尔可夫零和博弈中的保收益决策方法。

技术介绍

1、双人零和马尔科夫博弈广泛分布于现实生活中，如电子游戏、无人机空战等。一般来说，双人零和马尔科夫博弈包含两个玩家，每个玩家获得的奖励与对手的奖励相反。假设我方智能体面对一个单一类型、固定策略的对手，通过将该对手视为环境的一部分，从而双人零和马尔可夫博弈问题可以建模为具有平稳环境的马尔科夫决策过程。然而实际场景中，我方智能体常常面对的是多种类型的对手，并且在博弈过程中每种类型的对手还有具有多种策略，而对手的类型及其所采取的策略是无法预先获得的。以电子游戏为例，如果ai代表我方智能体，那么ai可能会面对不同类型的对手，例如进攻型和防守型，ai在游戏开始前无法得知与哪种类型玩家进行竞技，即使采用相同的动作获得的奖励也会因对手而异；并且玩家也会选择不同的策略，如激进策略和保守策略。又如在一对一无人机空战中，我方无人机可能会面对各种型号的敌方无人机，并且敌方无人机可能会搭载不同的对战策略或智能算法；在博弈中会出现哪种型号无人机以及它会采取何种策略，我方无人机是无法事先预知的。

2、在这样的双人零和马尔科夫博弈中，对于拥有多个策略的对手，一般很难实现“保低争高”的双目标优化，即难以在确保最低收益的同时，去争取获得更高的收益。例如，对手具有固定策略、理性策略、随机策略等多种策略。如果我方采用纳什均衡策略来应对对手的固定策略，可以确保收益下界但是将错过更高的博弈收益。相反，如果我们采用有针对性的策略来应对对方的理性或者随机策略，那么将

技术实现思路

1、本专利技术技术解决问题：克服了现有博弈算法只能针对单一类型对手或者具有单一策略对手的困境，解决了判别对手策略类型速度慢、效率低的问题，提供了双人马尔可夫零和博弈中的保收益决策方法，在保证我方智能体能够获得最低博弈收益的同时，又尽可能获得更高的博弈收益。

2、本专利技术的技术方案为：一种双人马尔可夫零和博弈中的保收益决策方法，包括：

3、s1：初始化对手的类型：其中m为对手总类型数，初始化我方智能体的针对各种类型对手的纳什均衡策略对手建模的数据池所有对手的概率神经网络模型其中为概率神经网络的参数、st,分别代表了t时刻的状态、我方智能体的动作以及对手的动作，采样策略πs，历史博弈轨迹h，敌机类型预测值期望奖励值r。

4、步骤s2：针对每一种类型的对手预训练对应的纳什均衡策略

5、步骤s3：执行采样策略πs采样与所有类型的对手进行对战的数据，存入到对手建模的数据池，并使用数据池更新所有对手的概率神经网络模型；

6、步骤s4：在线博弈开始后，更新历史博弈轨迹h，并根据概率神经网络模型与历史博弈轨迹辨别对手类型，更新对手类型预测值

7、步骤s5：根据对手类型，使用相应的纳什均衡策略博弈；

8、步骤s6：观察奖励值：

9、若奖励震荡且低于预期奖励值r，表明对手使用固定策略或随机策略，进而快速判别对手的策略类型，规则如下：

10、如果对手使用固定策略，在线训练出最优策略并使用最优策略与对手进行博弈；

11、如果对手使用随机策略，保持纳什均衡策略与对手进行博弈；

12、若奖励不震荡或大于等于预期奖励值r，表明对手使用理性策略，保持纳什均衡策略与对手进行博弈。

13、本专利技术与现有技术相比，具有以下优点：

14、(1)本专利技术公开了一种双人马尔可夫零和博弈中的保收益决策方法。考虑了双人马尔可夫零和博弈中面对多类型和多策略未知对手的更一般情况。与现有的只考虑单一类型或者策略的算法相比，本专利技术提供了一个崭新的框架：首先离线预训练针对所有类型对手的纳什均衡策略；在实际博弈中，对对手的类型和策略进行辨识，并根据辨识结果采用相对应的策略。采用本专利技术生成的决策策略，既能保证我方智能体的最低博弈收益，又能获得更高收益

15、(2)本专利技术提出了一种快速判断对手策略的可行判据。该判据只需要简单地在一个观察窗口内对未达到预期奖励值的次数进行计数，就可以避免浪费大量的时间去判断对手策略，并提高博弈收益；同时，该判据也被证明可以最小化误判概率。

16、(3)本专利技术公开的双人马尔可夫零和博弈中的保收益决策方法，能够和任意的纳什均衡策略、最优策略求解算法相结合，具有很强的普适性，适用于各种复杂的博弈场景。

本文档来自技高网...

【技术保护点】

1.一种双人马尔可夫零和博弈中的保收益决策方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，步骤S1：具体实现为：

3.根据权利要求2所述的方法，其特征在于，步骤S3：具体实现为：

4.根据权利要求3所述的方法，其特征在于，步骤S4：具体实现为：

5.根据权利要求3所述的方法，其特征在于，步骤S6：具体实现为：

【技术特征摘要】

1.一种双人马尔可夫零和博弈中的保收益决策方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，步骤s1：具体实现为：

3.根据权利要求2所述的方法，其...

【专利技术属性】
技术研发人员：朱进，王璇，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人