一种不完美信息扩展式博弈中计算最佳反应策略的方法技术

技术编号：9642581 阅读：237 留言：0更新日期：2014-02-07 01:21

本发明专利技术公开了一种不完美信息扩展式博弈中计算最佳反应策略的方法，包括如下步骤：（1）初始化策略、所有信息集的虚拟价值和虚拟遗憾值；（2）根据当前策略，与对手进行一次博弈，并记录博弈结果；（3）对于在本次博弈中每一个被访问的信息集，根据博弈结果计算出该信息集的虚拟价值；（4）根据步骤（3）所得到的各个信息集的虚拟价值，计算出每个信息集上每一个动作的虚拟遗憾值；（5）在每一个被访问的信息集上执行遗憾值匹配过程，更新该信息集上的策略；（6）返回步骤（2），直至不再有博弈进行。本发明专利技术避免了对手策略动态变化所带来的误差，同时也提高了计算效率。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术公开了，包括如下步骤：（1）初始化策略、所有信息集的虚拟价值和虚拟遗憾值；（2）根据当前策略，与对手进行一次博弈，并记录博弈结果；（3）对于在本次博弈中每一个被访问的信息集，根据博弈结果计算出该信息集的虚拟价值；（4）根据步骤（3）所得到的各个信息集的虚拟价值，计算出每个信息集上每一个动作的虚拟遗憾值；（5）在每一个被访问的信息集上执行遗憾值匹配过程，更新该信息集上的策略；（6）返回步骤（2），直至不再有博弈进行。本专利技术避免了对手策略动态变化所带来的误差，同时也提高了计算效率。【专利说明】
本专利技术涉及。
技术介绍
博弈论被广泛应用于经济、政治、安全、游戏等领域中，具有重大的研究和应用价值。一类重要的博弈类型是不完美信息扩展式博弈(imperfect informationextensive-form game),它在日常生活中也很常见,例如:扑克、麻将等。博弈论研究的核心问题是计算出有效的博弈策略，使局中人(player)在博弈中获得理想的博弈收益(utility)。这其中包含:(1)纳什均衡(Nash equilibrium)策略的计算；(2)最佳反应(best response)策略的计算。纳什均衡是博弈论中的最基本的概念之一，在博弈中使用纳什均衡策略能够保证局中人不被对方利用(exploit)。但它是基于对手绝对理性的假设，而绝大多数对手都是非理性或有限理性的。针对特定对手，采用最佳反应策略往往能使局中人获得更高的收益。目前，在计算最佳反应策略这一问题的研究工作中，绝大多数方法都采用了对手建模(opponent ...

【技术保护点】
一种不完美信息扩展式博弈中计算最佳反应策略的方法，包括如下步骤：（1）初始化局中人???????????????????????????????????????????????的策略、所有信息集的虚拟价值和虚拟遗憾值，其中为有限局中人集合；（2）根据当前策略，与对手进行一次博弈，并记录博弈结果；（3）对于在本次博弈中每一个被访问的信息集，根据目前为止所得到的所有博弈结果计算出该信息集的虚拟价值；（4）根据步骤（3）所得到的虚拟价值，计算出每个信息集上每一个动作的虚拟遗憾值，其中表示在信息集上可以执行的动作的集合；（5）在每一个被访问的信息集上执行遗憾值匹配过程，更新该信息集上的策略；（6）返回步骤（2），直至不再有博弈进行。2013105686893100001dest_path_image001.jpg,2013105686893100001dest_path_image002.jpg,2013105686893100001dest_path_image003.jpg,2013105686893100001dest_path_image004.jpg,2013105686893100...

【技术特征摘要】

【专利技术属性】
技术研发人员：高阳，胡裕靖，史颖欢，
申请(专利权)人：南京大学，江苏万维艾斯网络智能产业创新中心有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人