当前位置: 首页 > 专利查询>南京大学专利>正文

一种不完美信息扩展式博弈中计算最佳反应策略的方法技术

技术编号:9642581 阅读:237 留言:0更新日期:2014-02-07 01:21
本发明专利技术公开了一种不完美信息扩展式博弈中计算最佳反应策略的方法,包括如下步骤:(1)初始化策略、所有信息集的虚拟价值和虚拟遗憾值;(2)根据当前策略,与对手进行一次博弈,并记录博弈结果;(3)对于在本次博弈中每一个被访问的信息集,根据博弈结果计算出该信息集的虚拟价值;(4)根据步骤(3)所得到的各个信息集的虚拟价值,计算出每个信息集上每一个动作的虚拟遗憾值;(5)在每一个被访问的信息集上执行遗憾值匹配过程,更新该信息集上的策略;(6)返回步骤(2),直至不再有博弈进行。本发明专利技术避免了对手策略动态变化所带来的误差,同时也提高了计算效率。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了,包括如下步骤:(1)初始化策略、所有信息集的虚拟价值和虚拟遗憾值;(2)根据当前策略,与对手进行一次博弈,并记录博弈结果;(3)对于在本次博弈中每一个被访问的信息集,根据博弈结果计算出该信息集的虚拟价值;(4)根据步骤(3)所得到的各个信息集的虚拟价值,计算出每个信息集上每一个动作的虚拟遗憾值;(5)在每一个被访问的信息集上执行遗憾值匹配过程,更新该信息集上的策略;(6)返回步骤(2),直至不再有博弈进行。本专利技术避免了对手策略动态变化所带来的误差,同时也提高了计算效率。【专利说明】
本专利技术涉及。
技术介绍
博弈论被广泛应用于经济、政治、安全、游戏等领域中,具有重大的研究和应用价值。一类重要的博弈类型是不完美信息扩展式博弈(imperfect informationextensive-form game),它在日常生活中也很常见,例如:扑克、麻将等。博弈论研究的核心问题是计算出有效的博弈策略,使局中人(player)在博弈中获得理想的博弈收益(utility)。这其中包含:(1)纳什均衡(Nash equilibrium)策略的计算;(2)最佳反应(best response)策略的计算。纳什均衡是博弈论中的最基本的概念之一,在博弈中使用纳什均衡策略能够保证局中人不被对方利用(exploit)。但它是基于对手绝对理性的假设,而绝大多数对手都是非理性或有限理性的。针对特定对手,采用最佳反应策略往往能使局中人获得更高的收益。目前,在计算最佳反应策略这一问题的研究工作中,绝大多数方法都采用了对手建模(opponent modeling),即:首先通过统计观察,得出对手的策略模型,然后在该策略模型的基础上通过优化方法得到最佳反应策略。然而,这些方法没有考虑到对手的策略是有可能动态变化的。在对手的策略不断变化的情形下,对手建模的方法无法建立准确的对手策略模型,因此无法在博弈中获得较高的博弈收益。另外,对手建模方法所耗费的计算量也比较大,在大规模博弈(即:状态空间很大)中无法有效应用。
技术实现思路
专利技术目的:针对上述现有技术存在的问题和不足,本专利技术的目的是提供,针对不完美信息扩展式博弈中,对手策略动态变化的情形,提出从遗憾最小化(regret minimization)的角度来计算最佳反应策略,避免对手建模,同时也提高计算速率。技术方案:为实现上述专利技术目的,本专利技术采用的技术方案为,包括如下步骤:(I )初始化局中人略CT1、所有信息集的虚拟仏值I和虚拟遗憾值巧,其中JV为有限局中人集合; (2)根据当前策略G,与对手进行一次博弈,并记录博弈结果; (3)对于在本次博弈中每一个被访问的信息集/,根据目前为止所得到的所有博弈结果计算出该信息集的虚拟价值^(/); (4)根据步骤(3)所得到的虚拟价值Vi(Z),计算出每个信息集J上每一个动作βe我/)的虚拟遗憾值巧(/,?),其中戎/)表示在信息集/上可以执行的动作的集合; (5)在每一个被访问的信息集上/执行遗憾值匹配过程,更新该信息集上的策略;(6)返回步骤(2),直至不再有博弈进行。进一步的,所述步骤(3)中,采用基于统计采样的方法,从目前所得到的博弈结果中计算出每个终止信息集的虚拟价值;而非终止信息集的虚拟价值通过其后继信息集的虚拟价值计算出来。进一步的,所述步骤(4)中,将信息集?的虚拟价值Vi(Ja)与信息集/的虚拟价值Vi(!)相减,得到动作a的虚拟遗憾值P、{La),其中?表示在信肩隼’执行动作α后所到达的信息集。进一步的,所述步骤(5)中,采用遗憾值匹配的方式,计算信肩隼 < 上动作β的执行概率0(/3):如果动作^的虚拟遗憾值馬(/,β)越大,表明不执行动作β所造成的遗憾也就越大,相应地就应该更多地提高动作Ω的执行概率。有益效果:本专利技术与现有方法相比,其显著优点是避免了对对手策略模型的建立,能够对对手策略的动态变化做出快速反应,相对于对手建模方法,本专利技术能够获得更高的胜率(win rate)和博弈收益(utility),运行速度也大大提高。【专利附图】【附图说明】图1为本专利技术的总体架构图; 图2为本专利技术的流程图。【具体实施方式】下面结合附图和具体实 施例,进一步阐明本专利技术,应理解这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围,在阅读了本专利技术之后,本领域技术人员对本专利技术的各种等价形式的修改均落于本申请所附权利要求所限定的范围。本专利技术通过采样的方法,在每一次博弈后根据博弈的结果计算出每个信息集的虚拟价值以及该信息集上每个动作的虚拟遗憾值,然后采用遗憾值匹配的方法更新每个信息集上的策略。基本步骤为:(I)初始化策略、所有信息集的虚拟价值和虚拟遗憾值;(2)根据当前策略,与对手进行一次博弈,并记录博弈结果;(3)对于在本次博弈中每一个被访问的信息集,根据博弈结果计算出该信息集的虚拟价值;(4)根据步骤(3)所得到的各个信息集的虚拟价值,计算出每个信息集上每一个动作的虚拟遗憾值;(5)在每一个被访问的信息集上执行遗憾值匹配过程,更新该信息集上的策略;(6)返回步骤(2),直至不再有博弈进行。不完美信息扩展式博弈的形式化定义如下: 定义1.不完美信息扩展式博弈是一个六元组【权利要求】1.,包括如下步骤:(1)初始化局中人ie F的策略CT1、所有信息集的虚拟价值I和虚拟遗憾值 S中力有限局中人集合; (2)根据当前策略巧,与对手进行一次博弈,并记录博弈结果; (3)对于在本次博弈中每一个被访问的信息集/,根据目前为止所得到的所有博弈结果计算出该信息集的虚拟价值^(/); (4)根据步骤(3)所得到的虚拟价值Vi(Z),计算出每个信肩集r上每一个动作αe^/)的虚拟遗憾值巧(/,为,其中我/:)表示在信息集/上可以执行的动作的集合; (5)在每一个被访问的信息集上/执行遗憾值匹配过程,更新该信息集上的策略; (6)返回步骤(2),直至不再有博弈进行。2.根据权利要求1所述,其特征在于,所述步骤(3)中,采用基于统计采样的方法,从目前所得到的博弈结果中计算出每个终止信息集的虚拟价值;而非终止信息集的虚拟价值通过其后继信息集的虚拟价值计算出来。3.根据权利要求1所述,其特征在于,所述步骤(4)中,将信息集?的虚拟价值4(74与信息集I的虚拟价值Vi(I)相减,得到动作β的虚拟遗憾值我(/3),其中?表示在信息集/执行动作^后所到达的信息集。4.根据权利要求1所述,其特征在于,所述步骤(5)中,采用遗`憾值匹配的方式,计算信息集I上动作α的执行概率A(La):如果动作^的虚拟遗憾值式(/`,O)越大,表明不执行动作β所造成的遗憾也就越大,相应地就应该更多地提高动作β的执行概率。【文档编号】G06F17/50GK103559363SQ201310568689【公开日】2014年2月5日 申请日期:2013年11月15日 优先权日:2013年11月15日 【专利技术者】高阳, 胡裕靖, 史颖欢 申请人:南京大学, 江苏万维艾斯网络智能产业创新中心有限公司本文档来自技高网
...

【技术保护点】
一种不完美信息扩展式博弈中计算最佳反应策略的方法,包括如下步骤:(1)初始化局中人???????????????????????????????????????????????的策略、所有信息集的虚拟价值和虚拟遗憾值,其中为有限局中人集合;(2)根据当前策略,与对手进行一次博弈,并记录博弈结果;(3)对于在本次博弈中每一个被访问的信息集,根据目前为止所得到的所有博弈结果计算出该信息集的虚拟价值;(4)根据步骤(3)所得到的虚拟价值,计算出每个信息集上每一个动作的虚拟遗憾值,其中表示在信息集上可以执行的动作的集合;(5)在每一个被访问的信息集上执行遗憾值匹配过程,更新该信息集上的策略;(6)返回步骤(2),直至不再有博弈进行。2013105686893100001dest_path_image001.jpg,2013105686893100001dest_path_image002.jpg,2013105686893100001dest_path_image003.jpg,2013105686893100001dest_path_image004.jpg,2013105686893100001dest_path_image005.jpg,773815dest_path_image002.jpg,2013105686893100001dest_path_image006.jpg,2013105686893100001dest_path_image007.jpg,498146dest_path_image007.jpg,215566dest_path_image006.jpg,2013105686893100001dest_path_image008.jpg,2013105686893100001dest_path_image009.jpg,2013105686893100001dest_path_image010.jpg,423825dest_path_image006.jpg,238197dest_path_image006.jpg...

【技术特征摘要】

【专利技术属性】
技术研发人员:高阳胡裕靖史颖欢
申请(专利权)人:南京大学江苏万维艾斯网络智能产业创新中心有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1