一种对局策略获取方法及装置制造方法及图纸

技术编号：18942209 阅读：32 留言：0更新日期：2018-09-15 11:25

本发明专利技术提供了一种对局策略获取方法及装置，基于蒙特卡洛树搜索的矩阵对策策略，考虑随机采样双方可行策略的办法：从双方的可行策略集合随机采样，构成新的元素数量减少了的可行策略集合，在新集合基础上进行计算，不同策略之间的不同分值反映了决策者对这些策略优劣的不同估计，采样博弈的结果作为可行策略优劣的估计，以此反过来更新决策选择概率，赋予看起来“有希望”的策略更多的选择机会。能够应用于对局双方策略布局，帮助对局者对对战策略做出决策，如棋局对弈的机器人等。

A game strategy acquisition method and device

The invention provides a method and device for obtaining a pair of local strategies, a matrix game strategy based on Monte Carlo tree search, and a method for considering both feasible strategies of random sampling: random sampling from both feasible strategies sets constitutes a feasible strategy set with reduced number of new elements, and calculates on the basis of the new set. The different scores between different strategies reflect the different estimates of these strategies. The results of the sampled game are used as the estimates of the advantages and disadvantages of the feasible strategies, which in turn updates the decision-making probability and gives more choices to the seemingly \promising\ strategies. It can be applied to the strategic layout of both sides of the game to help players make decisions on the strategy of the game, such as the chess game robot.

全部详细技术资料下载

【技术实现步骤摘要】
一种对局策略获取方法及装置
本专利技术涉及一种对局策略获取方法及装置，涉及计算机对局策略获取领域。
技术介绍
当前矩阵对策中的策略确定使用以下方法计算纳什均衡策略：(1)图解法该方法采用平面二维画图的方法求解，适合于收益矩阵为2×n(n>＝2)或m×2(m>＝2)阶的对策问题，对其它矩阵对策问题不适用。(2)方程组法该方法事先假定对策双方的最优策略的所有分量均不为零，在此基础上将矩阵对策问题转化为等价的线性方程组问题进行求解。该方法有两方面的缺点：一是上述假定有可能不成立，二是对于大规模的矩阵对策问题，求解方程组的开销太大。(3)线性规划法该方法将矩阵对策问题转化为等价的线性规划问题，利用单纯形或对偶单纯形法求解，属于具有一般性的求解矩阵对策的方法，可以求解任意矩阵对策。该方法的缺点在于，对于大规模的矩阵对策问题，求解线性规划的开销太大。对于大规模的矩阵对策问题，要求解纳什均衡策略，图解法完全不可用，而方程组法和线性规划法都有开销太大的问题，应考虑使用其它方法求解近似最优策略。
技术实现思路
本专利技术提供了一种对局策略获取方法，具有能够完善对局策略获取模型，应用于硬件设置，适用于大规模矩阵对策求近似解，快速收敛到近似最优策略的求解方法。这种对局为双方对局，如棋局对弈、我方与敌方或竞争双方对局等的对局策略获取。本专利技术采用的技术方案如下：一种对局策略获取方法，包括初始化(1)：设置局中人1和局中人2作为对局双方；从局中人1的可行策略集中随机选择一个策略S1g，其中每个策略的选择概率为P1g＝1/m；从局中人2的可行策略集中随机选择...

【技术保护点】
1.一种对局策略获取方法，包括初始化(1)：设置局中人1和局中人2作为对局双方；从局中人1的可行策略集中随机选择一个策略S1g，其中每个策略的选择概率为P1g＝1/m；从局中人2的可行策略集中随机选择一个策略S2f，其中每个策略的选择概率为P2f＝1/n；从收益矩阵R中查找局中人1的策略S1g与局中人2的策略S2f相遇时，局中人2的收益Rgf，相应的局中人1的收益为‑Rgf；为局中人1和局中人2的每一可行策略赋予初始分值：V1i＝‑Rgf，V2j＝Rgf；记录局中人1和局中人2的可行策略分值均值V1

【技术特征摘要】
1.一种对局策略获取方法，包括初始化(1)：设置局中人1和局中人2作为对局双方；从局中人1的可行策略集中随机选择一个策略S1g，其中每个策略的选择概率为P1g＝1/m；从局中人2的可行策略集中随机选择一个策略S2f，其中每个策略的选择概率为P2f＝1/n；从收益矩阵R中查找局中人1的策略S1g与局中人2的策略S2f相遇时，局中人2的收益Rgf，相应的局中人1的收益为-Rgf；为局中人1和局中人2的每一可行策略赋予初始分值：V1i＝-Rgf，V2j＝Rgf；记录局中人1和局中人2的可行策略分值均值V1(exp)＝-Rgf和为局中人1和局中人2的每一策略设置选择次数初值：计算策略分值总和(2)：分别计算局中人1和局中人2的所有可行策略的基于Boltzmann分布的：其中，这里e为自然常数，τ＞0；随机选择策略(3)：从局中人1的可行策略集中随机选择一个策略S1i*，其中每个策略的选择概率为从局中人2的策略集中随机选择一个可行策略S2j*，其中每个策略的选择概率为计算收益及更新分值(4)：从收益矩阵R中查找局中人1的策略S1i*与局中人2的策略S2j*相遇时，局中人2的收益Ri*j*，相应的局中人1的收益为-Ri*j*；对策略S1i*和策略S2j*，如下更新策略分值及选择次数：其中，和分别为策略S1i*和S2j*此前的分值，Gi*和Hj*分别为策略S1i*和S2j*此前被选中的次数；计算基于Boltzmann分布的分值：这里e为自然常数，τ＞0；更新策略分值均值：对所有从未被选中过的策略更新分值：其中，i满足Gi＝0，j满足Hj＝0更新策略S1i*和S2j*策略的选择次数：Gi*＝Gi*+1,Hj*＝Hj*+1判断终止条件，确定最...

【专利技术属性】
技术研发人员：何炼坚，蒋成进，郑翔平，杨家伟，袁双，陈峰，杨谨，郭丽姝，夏校朋，谢悦，
申请(专利权)人：中国电子科技集团公司第二十九研究所，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人