一种对局策略获取方法及装置制造方法及图纸

技术编号:18942209 阅读:32 留言:0更新日期:2018-09-15 11:25
本发明专利技术提供了一种对局策略获取方法及装置,基于蒙特卡洛树搜索的矩阵对策策略,考虑随机采样双方可行策略的办法:从双方的可行策略集合随机采样,构成新的元素数量减少了的可行策略集合,在新集合基础上进行计算,不同策略之间的不同分值反映了决策者对这些策略优劣的不同估计,采样博弈的结果作为可行策略优劣的估计,以此反过来更新决策选择概率,赋予看起来“有希望”的策略更多的选择机会。能够应用于对局双方策略布局,帮助对局者对对战策略做出决策,如棋局对弈的机器人等。

A game strategy acquisition method and device

The invention provides a method and device for obtaining a pair of local strategies, a matrix game strategy based on Monte Carlo tree search, and a method for considering both feasible strategies of random sampling: random sampling from both feasible strategies sets constitutes a feasible strategy set with reduced number of new elements, and calculates on the basis of the new set. The different scores between different strategies reflect the different estimates of these strategies. The results of the sampled game are used as the estimates of the advantages and disadvantages of the feasible strategies, which in turn updates the decision-making probability and gives more choices to the seemingly \promising\ strategies. It can be applied to the strategic layout of both sides of the game to help players make decisions on the strategy of the game, such as the chess game robot.

【技术实现步骤摘要】
一种对局策略获取方法及装置
本专利技术涉及一种对局策略获取方法及装置,涉及计算机对局策略获取领域。
技术介绍
当前矩阵对策中的策略确定使用以下方法计算纳什均衡策略:(1)图解法该方法采用平面二维画图的方法求解,适合于收益矩阵为2×n(n>=2)或m×2(m>=2)阶的对策问题,对其它矩阵对策问题不适用。(2)方程组法该方法事先假定对策双方的最优策略的所有分量均不为零,在此基础上将矩阵对策问题转化为等价的线性方程组问题进行求解。该方法有两方面的缺点:一是上述假定有可能不成立,二是对于大规模的矩阵对策问题,求解方程组的开销太大。(3)线性规划法该方法将矩阵对策问题转化为等价的线性规划问题,利用单纯形或对偶单纯形法求解,属于具有一般性的求解矩阵对策的方法,可以求解任意矩阵对策。该方法的缺点在于,对于大规模的矩阵对策问题,求解线性规划的开销太大。对于大规模的矩阵对策问题,要求解纳什均衡策略,图解法完全不可用,而方程组法和线性规划法都有开销太大的问题,应考虑使用其它方法求解近似最优策略。
技术实现思路
本专利技术提供了一种对局策略获取方法,具有能够完善对局策略获取模型,应用于硬件设置,适用于大规模矩阵对策求近似解,快速收敛到近似最优策略的求解方法。这种对局为双方对局,如棋局对弈、我方与敌方或竞争双方对局等的对局策略获取。本专利技术采用的技术方案如下:一种对局策略获取方法,包括初始化(1):设置局中人1和局中人2作为对局双方;从局中人1的可行策略集中随机选择一个策略S1g,其中每个策略的选择概率为P1g=1/m;从局中人2的可行策略集中随机选择一个策略S2f,其中每个策略的选择概率为P2f=1/n;从收益矩阵R中查找局中人1的策略S1g与局中人2的策略S2f相遇时,局中人2的收益Rgf,相应的局中人1的收益为-Rgf;为局中人1和局中人2的每一可行策略赋予初始分值:V1i=-Rgf,V2j=Rgf;记录局中人1和局中人2的可行策略分值均值V1(exp)=-Rgf和为局中人1和局中人2的每一策略设置选择次数初值:计算策略分值总和(2):分别计算局中人1和局中人2的所有可行策略的基于Boltzmann分布的:其中,这里e为自然常数,τ>0;随机选择策略(3):从局中人1的可行策略集中随机选择一个策略S1i*,其中每个策略的选择概率为从局中人2的策略集中随机选择一个可行策略S2j*,其中每个策略的选择概率为计算收益及更新分值(4):从收益矩阵R中查找局中人1的策略S1i*与局中人2的策略S2j*相遇时,局中人2的收益Ri*j*,相应的局中人1的收益为-Ri*j*;对策略S1i*和策略S2j*,如下更新策略分值及选择次数:其中,和分别为策略S1i*和S2j*此前的分值(上一轮计算的V1i*和V2j*),Gi*和Hj*分别为策略S1i*和S2j*此前被选中的次数;计算基于Boltzmann分布的分值:这里e为自然常数,τ>0;更新策略分值均值:对所有从未被选中过的策略更新分值:其中,i满足Gi=0,j满足Hj=0更新策略S1i*和S2j*策略的选择次数:Gi*=Gi*+1,Hj*=Hj*+1判断终止条件,确定最优策略(5):根据策略分值迭代更新的终止条件,判断是否满足所述终止条件,如果否,则返回随机选择策略(3)继续执行;如果是,则终止策略分值的计算更新,并得出局中人1和局中人2的最优策略:局中人1的最优策略:S1k,其中k满足V1k=max(V1i(B))局中人2的最优策略:S2l,其中l满足V2l=max(V2j(B))其中,i=1,…,m;j=1,…,n;m和n均为大于1的自然数。所述迭代更新的终止条件为迭代次数上限设置条件,或迭代时间上限设置条件,或既包括迭代次数上限设置条件又包括迭代时间上限设置条件;对于迭代次数上限设置条件,设置迭代次数上限Cmax,为迭代次数赋予初值c=0,对于每一次迭代更新,递增迭代次数c=c+1;对于迭代时间上限设置条件,设置迭代时间上限Tmax,记录初始时刻t0,对于每一次迭代更新,更新迭代时间t=tcur-t0;如果既包括迭代次数上限设置条件又包括迭代时间上限设置条件,则只要满足其中一个,就终止迭代。一种对局策略获取装置,应用了上述对局策略获取方法,其特征在于:包括,对局双方设置模块,包括,设置局中人1的策略集R1和局中人2的策略集R2,并设置策略集中每一个可行策略的初始分值;策略分值总和计算模块,分别计算局中人1和局中人2的策略集中可行策略的分值总和;分值更新模块,根据分值计算更新迭代条件进行分值迭代更新,并根据分值迭代更新终止条件终止迭代更新;最优策略输出模块,终止迭代更新后,输出局中人1和/或局中人2的最优策略;分值计算更新迭代条件设置模块,设置分值计算更新迭代条件;分值迭代更新终止条件设置模块,设置分值迭代更新终止条件。与现有技术相比,本专利技术对于大规模矩阵对策问题,能够快速求得近似最优解,可以满足不同场景中计算资源的限制。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。本说明书(包括摘要)中公开的任一特征,除非特别叙述,均可被其他等效或者具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。本专利技术提出一种基于蒙特卡洛树搜索(以下简称MCTS)的矩阵对策策略确定方法。该方法依赖于以下准则:一是矩阵对策双方都会根据期望收益最大(或期望损失最小)原则进行分析,即根据每个决策方案的期望收益(或期望损失)来对方案进行比较,从中选择期望收益最大(或期望损失最小)的方案;二是决策方案选择的概率分布是关于其期望收益的单调上升函数(或关于其期望损失的单调下降函数);三是通过随机采样计算近似的期望收益,替代精确的期望收益。局中人1的任一策略和局中人2的任一策略一起形成的策略组称为一个局势,该局势下两个局中人的收益由收益函数确定。所有局势下局中人2的收益构成一个m×n矩阵R,局中人1的收益构成另一个m×n矩阵-R。不失一般性约定矩阵R满足0≤Rij≤1。矩阵R和-R分别称为局中人2和局中人1的收益矩阵。从风险型决策和不确定型决策的角度看,某一局中人的最优策略应为其所有可行策略中,期望收益最大的策略。为了找到该最优策略,理论上需要遍历该局中人的所有可行策略,计算其期望收益,以比较这些策略的期望收益的大小。而为了计算某一策略的期望收益,又需要遍历对方的所有可行策略,一一计算该策略与这些对手策略博弈的期望收益;此外还需要计算(估计)对方的所有可行策略的选择概率。对于大规模矩阵对策问题,由于存储和计算资源的限制,往往不能按照上述理论方法进行计算,甚至可能要把收益矩阵的每一元素值全部计算出来都是不现实的。这种情况下可以考虑随机采样双方可行策略的办法:从双方的可行策略集合随机采样,构成新的元素数量减少了的可行策略集合,在新集合基础上进行上述计算。本专利技术技术方案采样时同时考虑了各可行策略的优劣。不同策略之间的不同分值反映了决策者对这些策略优劣的不同估计(分值高的策略优于分值低的策略)。能够应用于对局双方策略布局,帮助对本文档来自技高网...

【技术保护点】
1.一种对局策略获取方法,包括初始化(1):设置局中人1和局中人2作为对局双方;从局中人1的可行策略集中随机选择一个策略S1g,其中每个策略的选择概率为P1g=1/m;从局中人2的可行策略集中随机选择一个策略S2f,其中每个策略的选择概率为P2f=1/n;从收益矩阵R中查找局中人1的策略S1g与局中人2的策略S2f相遇时,局中人2的收益Rgf,相应的局中人1的收益为‑Rgf;为局中人1和局中人2的每一可行策略赋予初始分值:V1i=‑Rgf,V2j=Rgf;记录局中人1和局中人2的可行策略分值均值V1

【技术特征摘要】
1.一种对局策略获取方法,包括初始化(1):设置局中人1和局中人2作为对局双方;从局中人1的可行策略集中随机选择一个策略S1g,其中每个策略的选择概率为P1g=1/m;从局中人2的可行策略集中随机选择一个策略S2f,其中每个策略的选择概率为P2f=1/n;从收益矩阵R中查找局中人1的策略S1g与局中人2的策略S2f相遇时,局中人2的收益Rgf,相应的局中人1的收益为-Rgf;为局中人1和局中人2的每一可行策略赋予初始分值:V1i=-Rgf,V2j=Rgf;记录局中人1和局中人2的可行策略分值均值V1(exp)=-Rgf和为局中人1和局中人2的每一策略设置选择次数初值:计算策略分值总和(2):分别计算局中人1和局中人2的所有可行策略的基于Boltzmann分布的:其中,这里e为自然常数,τ>0;随机选择策略(3):从局中人1的可行策略集中随机选择一个策略S1i*,其中每个策略的选择概率为从局中人2的策略集中随机选择一个可行策略S2j*,其中每个策略的选择概率为计算收益及更新分值(4):从收益矩阵R中查找局中人1的策略S1i*与局中人2的策略S2j*相遇时,局中人2的收益Ri*j*,相应的局中人1的收益为-Ri*j*;对策略S1i*和策略S2j*,如下更新策略分值及选择次数:其中,和分别为策略S1i*和S2j*此前的分值,Gi*和Hj*分别为策略S1i*和S2j*此前被选中的次数;计算基于Boltzmann分布的分值:这里e为自然常数,τ>0;更新策略分值均值:对所有从未被选中过的策略更新分值:其中,i满足Gi=0,j满足Hj=0更新策略S1i*和S2j*策略的选择次数:Gi*=Gi*+1,Hj*=Hj*+1判断终止条件,确定最...

【专利技术属性】
技术研发人员:何炼坚蒋成进郑翔平杨家伟袁双陈峰杨谨郭丽姝夏校朋谢悦
申请(专利权)人:中国电子科技集团公司第二十九研究所
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1