The invention provides a method and device for obtaining a pair of local strategies, a matrix game strategy based on Monte Carlo tree search, and a method for considering both feasible strategies of random sampling: random sampling from both feasible strategies sets constitutes a feasible strategy set with reduced number of new elements, and calculates on the basis of the new set. The different scores between different strategies reflect the different estimates of these strategies. The results of the sampled game are used as the estimates of the advantages and disadvantages of the feasible strategies, which in turn updates the decision-making probability and gives more choices to the seemingly \promising\ strategies. It can be applied to the strategic layout of both sides of the game to help players make decisions on the strategy of the game, such as the chess game robot.
【技术实现步骤摘要】
一种对局策略获取方法及装置
本专利技术涉及一种对局策略获取方法及装置,涉及计算机对局策略获取领域。
技术介绍
当前矩阵对策中的策略确定使用以下方法计算纳什均衡策略:(1)图解法该方法采用平面二维画图的方法求解,适合于收益矩阵为2×n(n>=2)或m×2(m>=2)阶的对策问题,对其它矩阵对策问题不适用。(2)方程组法该方法事先假定对策双方的最优策略的所有分量均不为零,在此基础上将矩阵对策问题转化为等价的线性方程组问题进行求解。该方法有两方面的缺点:一是上述假定有可能不成立,二是对于大规模的矩阵对策问题,求解方程组的开销太大。(3)线性规划法该方法将矩阵对策问题转化为等价的线性规划问题,利用单纯形或对偶单纯形法求解,属于具有一般性的求解矩阵对策的方法,可以求解任意矩阵对策。该方法的缺点在于,对于大规模的矩阵对策问题,求解线性规划的开销太大。对于大规模的矩阵对策问题,要求解纳什均衡策略,图解法完全不可用,而方程组法和线性规划法都有开销太大的问题,应考虑使用其它方法求解近似最优策略。
技术实现思路
本专利技术提供了一种对局策略获取方法,具有能够完善对局策略获取模型,应用于硬件设置,适用于大规模矩阵对策求近似解,快速收敛到近似最优策略的求解方法。这种对局为双方对局,如棋局对弈、我方与敌方或竞争双方对局等的对局策略获取。本专利技术采用的技术方案如下:一种对局策略获取方法,包括初始化(1):设置局中人1和局中人2作为对局双方;从局中人1的可行策略集中随机选择一个策略S1g,其中每个策略的选择概率为P1g=1/m;从局中人2的可行策略集中随机选择 ...
【技术保护点】
1.一种对局策略获取方法,包括初始化(1):设置局中人1和局中人2作为对局双方;从局中人1的可行策略集中随机选择一个策略S1g,其中每个策略的选择概率为P1g=1/m;从局中人2的可行策略集中随机选择一个策略S2f,其中每个策略的选择概率为P2f=1/n;从收益矩阵R中查找局中人1的策略S1g与局中人2的策略S2f相遇时,局中人2的收益Rgf,相应的局中人1的收益为‑Rgf;为局中人1和局中人2的每一可行策略赋予初始分值:V1i=‑Rgf,V2j=Rgf;记录局中人1和局中人2的可行策略分值均值V1
【技术特征摘要】
1.一种对局策略获取方法,包括初始化(1):设置局中人1和局中人2作为对局双方;从局中人1的可行策略集中随机选择一个策略S1g,其中每个策略的选择概率为P1g=1/m;从局中人2的可行策略集中随机选择一个策略S2f,其中每个策略的选择概率为P2f=1/n;从收益矩阵R中查找局中人1的策略S1g与局中人2的策略S2f相遇时,局中人2的收益Rgf,相应的局中人1的收益为-Rgf;为局中人1和局中人2的每一可行策略赋予初始分值:V1i=-Rgf,V2j=Rgf;记录局中人1和局中人2的可行策略分值均值V1(exp)=-Rgf和为局中人1和局中人2的每一策略设置选择次数初值:计算策略分值总和(2):分别计算局中人1和局中人2的所有可行策略的基于Boltzmann分布的:其中,这里e为自然常数,τ>0;随机选择策略(3):从局中人1的可行策略集中随机选择一个策略S1i*,其中每个策略的选择概率为从局中人2的策略集中随机选择一个可行策略S2j*,其中每个策略的选择概率为计算收益及更新分值(4):从收益矩阵R中查找局中人1的策略S1i*与局中人2的策略S2j*相遇时,局中人2的收益Ri*j*,相应的局中人1的收益为-Ri*j*;对策略S1i*和策略S2j*,如下更新策略分值及选择次数:其中,和分别为策略S1i*和S2j*此前的分值,Gi*和Hj*分别为策略S1i*和S2j*此前被选中的次数;计算基于Boltzmann分布的分值:这里e为自然常数,τ>0;更新策略分值均值:对所有从未被选中过的策略更新分值:其中,i满足Gi=0,j满足Hj=0更新策略S1i*和S2j*策略的选择次数:Gi*=Gi*+1,Hj*=Hj*+1判断终止条件,确定最...
【专利技术属性】
技术研发人员:何炼坚,蒋成进,郑翔平,杨家伟,袁双,陈峰,杨谨,郭丽姝,夏校朋,谢悦,
申请(专利权)人:中国电子科技集团公司第二十九研究所,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。