用于在多方策略互动中进行策略搜索的采样方案制造技术

技术编号:28048645 阅读:53 留言:0更新日期:2021-04-09 23:39
本文公开的方法、系统和装置,包括在计算机存储介质上编码的计算机程序,用于执行反事实遗憾最小化(CRF)以在多方策略互动中进行策略搜索。所述方法之一包括:识别第一方在所述第一方的第一状态下的N1个可能动作;以第一采样概率从所述第一方在第一状态下的所述N1个可能动作中采样出可能动作;识别所述第一方在所述第一方的第二状态下的N2个可能动作,其中,所述第一方的第一状态比所述第一方的第二状态更接近IIG的开始状态;以第二采样概率从所述第一方在第二状态下的所述N2个可能动作中采样出可能动作,其中,所述第一采样概率小于所述第二采样概率。

【技术实现步骤摘要】
【国外来华专利技术】用于在多方策略互动中进行策略搜索的采样方案
本文涉及在两方或更多方之间的策略互动中进行策略搜索。
技术介绍
两方或更多方之间的策略互动可以通过涉及两方或更多方(也称为玩家)的博弈来建模。在涉及两个或更多个玩家的不完美信息博弈(imperfectinformationgames,IIG)中,玩家在做出决策之前只能部分地了解其对手。这类似于现实场景,例如贸易、流量交通路线规划和公开拍卖。许多现实生活场景可以表示为IIG,例如不同公司之间的商业竞争、拍卖场景中的竞标关系、欺诈方和反欺诈方之间的博弈关系。求解IIG的方法具有很大的经济和社会效益。由于信息隐藏,因此玩家必须在对其对手信息不确定的情况下进行推理,并且玩家还需要采取行动以利用其对手对其自己的信息的不确定的优势。
技术实现思路
本文的实施方式包括计算机实现的用于在多方策略互动中进行策略搜索的方法。更具体地,本文描述了用于在求解不完美信息博弈(IIG)时执行反事实遗憾最小化(CRF)算法的采样方案的示例,该方法可以降低计算的复杂度和方差同时提高CRF算法的收敛速度。本本文档来自技高网...

【技术保护点】
1.一种计算机实现的方法,用于执行反事实遗憾最小化CRF,以在两方或更多方之间的策略互动中进行策略搜索,所述方法包括:/n识别第一方在所述第一方的第一状态下的N1个可能动作;/n以第一采样概率从所述第一方在所述第一状态下的所述N1个可能动作中采样出可能动作;/n识别所述第一方在所述第一方的第二状态下的N2个可能动作,其中,所述第一方的所述第一状态比所述第一方的所述第二状态更接近不完美信息博弈IIG的开始状态;/n以第二采样概率从所述第一方在所述第二状态下的所述N2个可能动作中采样出可能动作,其中,所述第一采样概率小于所述第二采样概率;以及/n基于所述第一方在所述第一状态下的所述N1个可能动作中...

【技术特征摘要】
【国外来华专利技术】1.一种计算机实现的方法,用于执行反事实遗憾最小化CRF,以在两方或更多方之间的策略互动中进行策略搜索,所述方法包括:
识别第一方在所述第一方的第一状态下的N1个可能动作;
以第一采样概率从所述第一方在所述第一状态下的所述N1个可能动作中采样出可能动作;
识别所述第一方在所述第一方的第二状态下的N2个可能动作,其中,所述第一方的所述第一状态比所述第一方的所述第二状态更接近不完美信息博弈IIG的开始状态;
以第二采样概率从所述第一方在所述第二状态下的所述N2个可能动作中采样出可能动作,其中,所述第一采样概率小于所述第二采样概率;以及
基于所述第一方在所述第一状态下的所述N1个可能动作中的所述可能动作和所述第一方在所述第二状态下的所述N2个可能动作中的所述可能动作,执行所述CRF。


2.如权利要求1所述的方法,其中,基于所述第一方在所述第一状态下的所述N1个可能动作中的所述可能动作和所述第一方在第二状态下的所述N2个可能动作中的所述可能动作,执行所述CRF,包括:
计算所述第一方在所述第一状态下的所述N1个可能动作中的所述可能动作的遗憾值;
计算所述第一方在所述第二状态下的所述N2个可能动作中的所述可能动作的遗憾值;
基于所述N1个可能动作中的所述可能动作的所述遗憾值,更新所述第一方在所述第一状态下的第一策略;以及
基于所述N2个可能动作中的所述可能动作的所述遗憾值,更新所述第一方在所述第二状态下的第二策略。


3.如权利要求1所述的方法,还包括:
从所述第一方在所述第一状态下的所述N1个可能动作中采样出k1个可能动作,其中,所述k1个可能动作中的每个可能动作都以相同的所述第一采样概率被采样;以及
从所述第一方在所述第二状态下的所述N2个可能动作中采样出k2个可能动作,其中,所述k2个可能动作中的每个可能动作都以相同的所述第二采样概率被采样。


4.如权利要求3所述的方法,还包括:
基于所述第一方在所述第一状态下的所述N1个可能动作中的所述k1个可能动作和所述第一方在所述第二状态下的所述N2个可能动作中的所述k2个可能动作,执行所述CRF。


5.如权利要求3所述的方法,其中,所述第一采样概率是k1/N1,并且所述第二采样概率是k2/N2。


6.如权利要求3所述的方法,其中,2≤k1≤N1,并且2≤k2≤N2。


7.如权利要求3所述的方法,其中,k1=k2。


8.如权利要求1所述的方法,还包括:
识别第二方在所述第二方的第一状态下的M1个可能动作;
以第三采样概率从所述第二方在所述第一状态下的所述M1个可能动作中采样出可能动作;
识别所述第二方在所述第二方的第二状态下的M2个可能动作,其中,所述第二方的所述第一状态比所述第二方的所述第二状态更接近所述IIG的所述开始状态;以及
以第四采样概率从所述第一方在所述第二状态下的M2个可能动作中采样出可能动作,其中,所述第三采样概率小于所述第四采样概率。


9.如权利要求1所述的方法,还包括:
识别第二方在所述第二方的所述第一状态下的M1个可能动作,其中,所述第一方的所述第一状态比所述第二方的所述第一状态更接近所述IIG的所述开始状态;以及
以第三采样概率从所述第二方在所述第一状态下的所述M1个可能动作中采样出可能动作,其中,所述第三采样概率大于所述第一采样概率。


10.一种装置,用于执行反事实遗憾最小化CRF,以在两方或更多方之间的策略互动中进行策略搜索,所述装置包括:
第一识别模块,用于识别第一方在所述第一方的第一状态下的N1个可能动作;
第一采样模块,用于以第一采样概率从所述第一方在第一状态下的所述N1个可能动作中采样出可能动作;
第二识别模块,用于识别所述第一方在所述第一方的第二状态下的N2个可能动作,其中,所述第一方的第一状态比所述第一方的第二状态更接近不完美信息博弈IIG的开始状态;
第二采样模块,用于以第二采样概率从所述第一方在第二状态下的所述N2个可能动作中采样可能动作,其中,所述第一采样概率小于所述第二采样概率;以及
处理模块,用于基于...

【专利技术属性】
技术研发人员:李辉胡开亮宋乐
申请(专利权)人:创新先进技术有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1