The invention relates to the field of strategy determination in matrix games, especially a method and device for approximate solution of matrix countermeasures based on decision probability approximation. The invention is provided with an initial player 1 strategy selection probability vector; selection probability vector according to the Bureau in 1 strategies, calculate the other player 2 of all strategies expected return; calculation of another player 2 strategy selection probability vector; for another player 2 strategies the selection probability vector, calculates the player 1 of all strategies and calculate the expected return, the player 1 strategy selection probability vector based on this; so, two people in the strategy choice between probability vector and strategy of expected return reciprocating iterative calculation, when two people in the strategy selection probability vector convergence condition is satisfied. The end of the iteration, the approximate optimal strategy matrix is obtained by the two countermeasures.
【技术实现步骤摘要】
一种基于决策概率逼近的矩阵对策近似求解方法及装置
本专利技术涉及矩阵对策中的策略确定领域,尤其是一种基于决策概率逼近的矩阵对策近似求解方法及装置。
技术介绍
当前矩阵对策中的策略确定使用以下方法计算纳什均衡策略:(1)图解法该方法采用平面二维画图的方法求解,适合于收益矩阵为2×n(n>=2)或m×2(m>=2)阶的对策问题,对其它矩阵对策问题不适用。(2)方程组法该方法事先假定对策双方的最优策略的所有分量均不为零,在此基础上将矩阵对策问题转化为等价的线性方程组问题进行求解。该方法有两方面的缺点:一是上述假定有些情况下不成立,二是对于大规模的矩阵对策问题,求解方程组的开销太大。(3)线性规划法该方法将矩阵对策问题转化为等价的线性规划问题,利用单纯形或对偶单纯形法求解,属于具有一般性的求解矩阵对策的方法,可以求解任意矩阵对策。该方法的缺点在于,对于大规模的矩阵对策问题,求解线性规划的开销太大。对于大规模的矩阵对策问题,要求解纳什均衡策略,图解法完全不可用,而方程组法和线性规划法都有开销太大的问题,应考虑使用其它方法求解近似最优策略。
技术实现思路
本专利技术所 ...
【技术保护点】
一种基于决策概率逼近的矩阵对策近似求解方法,其特征在于包括:步骤1:设置该局中人关于其策略集中策略的选择概率向量初始值;该局中人策略选择概率向量初始值各分量之和为1;步骤2:针对该局中人的策略选择概率向量,计算另一局中人所有策略的期望收益;使用最新计算出的另一局中人所有策略的期望收益,计算另一局中人的策略选择概率向量,并通过归一化使策略选择概率向量各分量之和为1;步骤3:针对另一局中人的策略选择概率向量,计算该局中人所有策略的期望收益;使用最新计算出的该局中人所有策略的期望收益,计算该局中人的策略选择概率向量,并通过归一化使策略选择概率向量各分量之和为1;步骤4:通过步骤2 ...
【技术特征摘要】
1.一种基于决策概率逼近的矩阵对策近似求解方法,其特征在于包括:步骤1:设置该局中人关于其策略集中策略的选择概率向量初始值;该局中人策略选择概率向量初始值各分量之和为1;步骤2:针对该局中人的策略选择概率向量,计算另一局中人所有策略的期望收益;使用最新计算出的另一局中人所有策略的期望收益,计算另一局中人的策略选择概率向量,并通过归一化使策略选择概率向量各分量之和为1;步骤3:针对另一局中人的策略选择概率向量,计算该局中人所有策略的期望收益;使用最新计算出的该局中人所有策略的期望收益,计算该局中人的策略选择概率向量,并通过归一化使策略选择概率向量各分量之和为1;步骤4:通过步骤2及3之间的反复迭代,使得该局中人的策略选择概率向量以及另一局中人的策略选择概率向量收敛,结束迭代,求得该局中人与另一局中人的矩阵对策的近似最优策略。2.根据权利要求1所述的一种基于决策概率逼近的矩阵对策近似求解方法,其特征在于所述收敛判断过程是:步骤41:记录当前与上一次的该局中人策略选择概率向量gcur、gprev;同理记录当前与上一次的另一局中人策略选择概率向量hcur、hprev;步骤42:根据上述数据,计算该局中人的前后相继迭代轮的策略选择概率向量的相对距离值,以及另一局中人的前后相继迭代轮的策略选择概率向量的相对距离值;步骤43:将上述两个相对距离值分别与预设精度值相比较,记录两个相对距离值都满足预设精度条件的连续满足次数L,若连续满足次数L达到门限值,则判断该局中人的策略选择概率向量以及另一局中人的策略选择概率向量收敛。3.根据权利要求1所述的一种基于决策概率逼近的矩阵对策近似求解方法,其特征在于所述步骤1具体指的是:1)记局中人关于其策略集中策略的选择概率向量为m维向量h,设定其初值h(0),h(0)满足所有分量值属于区间[0,1],且其总和为1;或2)记局中人关于其策略集中策略的选择概率向量为n维向量g,设定其初值g(0),g(0)满足所有分量值属于区间[0,1],且其总和为1。4.根据权利要求1所述的一种基于决策概率逼近的矩阵对策近似求解方法,其特征在于计算该局中人的策略选择概率向量具体过程是:计算m维向量f和h:f=Rg;其中h(0)满足所有分量值属于区间[0,1],...
【专利技术属性】
技术研发人员:何炼坚,郑翔平,杨家伟,蒋成进,袁双,
申请(专利权)人:中国电子科技集团公司第二十九研究所,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。