一种基于贡献度的非完美信息博弈智能策略求解方法技术

技术编号:38137283 阅读:10 留言:0更新日期:2023-07-08 09:49
本发明专利技术公开了一种基于贡献度的非完美信息博弈智能策略求解方法,属于人工智能领域。本方法包含如下步骤:1、随机生成初始策略π,构建初始策略集合Π;2、依据贡献度求解策略集合Π上的贡献度分布Contr

【技术实现步骤摘要】
一种基于贡献度的非完美信息博弈智能策略求解方法


[0001]本专利技术属于人工智能领域,特别是涉及一种基于贡献度的非完美信息博弈智能策略求解方法。

技术介绍

[0002]非完美信息博弈的智能策略求解方法对于现实场景中复杂的非完美信息博弈问题求解具有非常重要的意义。非完美信息博弈广泛出现在现实场景中,如扑克类游戏、广告拍卖竞价、金融市场决策和军事场景对抗等,是近些年来得到广泛研究的热门课题之一。但是,非完美信息博弈的求解存在大量问题,如信息观测不完全、对手策略不固定和不安全策略易被利用等。针对这些问题,现有的方法往往从策略决策的角度出发,试图寻找非完美信息博弈的全局最优策略,主要分为以下两类方法:(1)基于强化学习的方法;(2)基于博弈论的方法。
[0003]基于强化学习的方法是一类智能体与环境交互并通过不断试错来学习优化策略的方法。强化学习作为一项从单体决策发展而来的技术,其目标在于最大化智能体的期望收益。根据不同的策略学习方式,强化学习可以分为基于值的方法和基于策略的方法。基于值的方法包括动态规划方法、时序差分方法和Q学习方法等,其中最具代表性的是Q学习方法。Q学习方法估计动作的期望收益值,并在决策时选择收益值最大的动作作为策略。基于策略的方法包括策略梯度方法、确定性策略梯度方法和近端策略优化方法等,其中最具代表性的是策略梯度方法。策略梯度方法关注整个博弈过程,根据收益和策略的关系计算收益关于策略的导数,并使用梯度上升算法,逐步逼近最优策略。在非完美信息博弈中,基于强化学习的方法已经在诸如斗地主等牌类游戏中取得了重要成果。
[0004]基于博弈论的方法是一类求解博弈问题的纳什均衡解的方法。基于博弈论的方法引入了博弈论中的纳什均衡的概念,其目标在于求解非完美信息博弈的纳什均衡解,并将其作为最优策略。纳什均衡是一个策略平衡的博弈局面,在这种局面下每一个博弈的参与人都选择了各自的最优策略,即纳什均衡策略,并且没有任何一个参与人可以在知道其他参与人的策略的情况之下通过单方面调整自己的策略而获得更高的收益。因此,纳什均衡的特性在双人零和博弈(收益之和为零)中显得尤为重要,其保证了选择纳什均衡策略的参与人至少不会输掉比赛。基于博弈论的方法包括反事实遗憾最小化方法、虚拟自博弈方法和在线凸优化方法等,其中最具代表性的是反事实遗憾最小化方法。反事实遗憾最小化方法使用在线学习的方式,不断减小策略的遗憾,迭代地更新优化策略,最终达到纳什均衡策略或近似纳什均衡策略。在非完美信息博弈中,基于博弈论的方法已经在诸如德州扑克等牌类游戏中取得了重要成果。
[0005]非完美信息博弈场景复杂多变,包括合作博弈、竞争博弈和合作竞争混合博弈,给博弈的求解带来了更加艰巨的挑战。因此,本专利技术提出了一种基于贡献度的非完美信息博弈智能策略求解方法,具体提出一种贡献度度量标准,有效且合理地度量单个策略对策略集合的贡献,依据贡献度分布有效地构建对手的策略模型,结合收益和贡献度作为新策略
的训练目标,构建一种基于贡献度的策略集合更新技术,合理地进行策略集合扩增,提升非完美信息博弈智能策略的求解速度和策略强度,形成一套非完美信息博弈通用智能策略求解方法。

技术实现思路

[0006]本专利技术为解决
技术介绍
中存在的技术问题,提供了一种基于贡献度的非完美信息博弈智能策略求解方法。
[0007]本专利技术采用以下技术方案:一种基于贡献度的非完美信息博弈智能策略求解方法,包括如下步骤:
[0008]步骤1,随机生成初始策略π,构建初始策略集合Π;
[0009]步骤2,依据贡献度求解策略集合Π上的贡献度分布Contr


[0010]步骤3,依据贡献度分布Contr

选择对手策略模型;
[0011]步骤4,应对对手策略模型,以收益和贡献度为目标训练新策略π


[0012]步骤5,确定新策略π

,加入并更新策略集合Π;
[0013]步骤6,重复步骤2至步骤5,直至新策略无法提升收益,生成最终的策略集合Π。
[0014]在进一步的实施例中,定义贡献度及求解贡献度分布Contr
Π
的过程,具体如下:
[0015]假设策略集合Π有n个策略,构建n
×
n的收益矩阵M,其中,M
ij
表示策略π
i
对战策略π
j
的收益,M
ji
表示策略π
j
对战策略π
i
的收益,在二人零和博弈中,策略π
i
和策略π
j
对战得到的收益之和为0,于是有M
ij


M
ji

[0016]使用虚拟自博弈(Fictitious Play)等方法求解收益矩阵M上的纳什均衡解(NE)。
[0017]为了有效且合理地度量单个策略π
i
对策略集合Π的贡献,根据NE定义策略π
i
对策略集合Π的贡献度,即:
[0018]Contr


i
)=NE(π
i
)
[0019]于是,n个贡献度值构成了策略集合Π上的贡献度分布Contr
Π

[0020]在进一步的实施例中,对手策略模型根据贡献度分布确定,具体如下:
[0021]贡献度分布Contr
Π
是策略集合Π上的一种概率分布,即贡献度越大的策略被策略集合Π选中作为对手策略的可能性越大,因此贡献度分布Contr

可以作为策略集合Π选择策略的概率分布。
[0022]根据贡献度分布Contr
Π
,策略π
i
被选中作为对手策略的概率为Contr
П

i
)。
[0023]在进一步的实施例中,新策略训练的目标以及方式具体如下:
[0024]新策略的训练目标如下:
[0025][0026]其中,M(π


i
)表示策略π

对战策略π
i
的收益,此时收益矩阵M由n
×
n扩增为(n+1)
×
(n+1)。Π∪{π

}表示将策略π

临时加入到策略集合Π,这里的临时加入只是为了求解新策略集合上的策略π

的贡献度Contr
∏∪{π

}


),用来度量新策略π

对于新策略集合Π∪{π

}的贡献,并不表示真的加入策略集合Π。
[0027]根据新策略的训练目标同步训练k个备选新策略π
′1,π
′2,

...

【技术保护点】

【技术特征摘要】
1.一种基于贡献度的非完美信息博弈智能策略求解方法,其特征在于,包括如下步骤:步骤1,随机生成初始策略π,构建初始策略集合Π;步骤2,依据贡献度求解策略集合Π上的贡献度分布Contr
Π
;步骤3,依据贡献度分布Contr
П
选择对手策略模型;步骤4,应对对手策略模型,以收益和贡献度为目标训练新策略π

;步骤5,确定新策略π

,加入并更新策略集合Π;步骤6,重复步骤2至步骤5,直至新策略无法提升收益,生成最终的策略集合Π。2.根据权利要求1所述的一种基于贡献度的非完美信息博弈智能策略求解方法,其特征在于,步骤2中定义贡献度及求解贡献度分布Contr
Π
的过程,具体如下:假设策略集合Π有n个策略,构建n
×
n的收益矩阵M,其中,M
ij
表示策略π
i
对战策略π
j
的收益,M
ji
表示策略π
j
对战策略π
i
的收益,在二人零和博弈中,策略π
i
和策略π
j
对战得到的收益之和为0,于是有M
ij


M
ji
;使用虚拟自博弈方法求解收益矩阵M上的纳什均衡解(NE);度量单个策略π
i
对策略集合Π的贡献,根据NE定义策略π
i
对策略集合Π的贡献度,即:Contr


i
)=NE(π
i
)于是,n个贡献度值构成了策略集合Π上的贡献度分布Contr

。3.根据权利要求1所述的一种基于贡献度的非完美信息博弈智能策略求解方法,其特征在于,步骤3中对手策略模型根据贡献度分布Contr

确定,具体如下:贡献度分布Contr

是策略集合Π上的一种概率分布,即贡献度越大的策略被策略集合Π选中作为对手策略的可能性越大,因此贡献度分布Contr

可以作为策略集合Π选择对手策略的概率分布;根据贡献度分布Contr

,策略π
i
被选中作为对手策略的概率为Contr


i
)。4.根据权利要求1所述的一种基于贡献度的非完美信息博弈智能策略求解方法,其特征在于,步骤4中新策略训练的目标以及方式具体如下:新策略的...

【专利技术属性】
技术研发人员:向帅宋研胡裕靖高阳解宇
申请(专利权)人:江苏万维艾斯网络智能产业创新中心有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1