【技术实现步骤摘要】
一种基于贡献度的非完美信息博弈智能策略求解方法
[0001]本专利技术属于人工智能领域,特别是涉及一种基于贡献度的非完美信息博弈智能策略求解方法。
技术介绍
[0002]非完美信息博弈的智能策略求解方法对于现实场景中复杂的非完美信息博弈问题求解具有非常重要的意义。非完美信息博弈广泛出现在现实场景中,如扑克类游戏、广告拍卖竞价、金融市场决策和军事场景对抗等,是近些年来得到广泛研究的热门课题之一。但是,非完美信息博弈的求解存在大量问题,如信息观测不完全、对手策略不固定和不安全策略易被利用等。针对这些问题,现有的方法往往从策略决策的角度出发,试图寻找非完美信息博弈的全局最优策略,主要分为以下两类方法:(1)基于强化学习的方法;(2)基于博弈论的方法。
[0003]基于强化学习的方法是一类智能体与环境交互并通过不断试错来学习优化策略的方法。强化学习作为一项从单体决策发展而来的技术,其目标在于最大化智能体的期望收益。根据不同的策略学习方式,强化学习可以分为基于值的方法和基于策略的方法。基于值的方法包括动态规划方法、时序差分方法和Q学习方法等,其中最具代表性的是Q学习方法。Q学习方法估计动作的期望收益值,并在决策时选择收益值最大的动作作为策略。基于策略的方法包括策略梯度方法、确定性策略梯度方法和近端策略优化方法等,其中最具代表性的是策略梯度方法。策略梯度方法关注整个博弈过程,根据收益和策略的关系计算收益关于策略的导数,并使用梯度上升算法,逐步逼近最优策略。在非完美信息博弈中,基于强化学习的方法已经在诸如斗地主等牌类游戏中
【技术保护点】
【技术特征摘要】
1.一种基于贡献度的非完美信息博弈智能策略求解方法,其特征在于,包括如下步骤:步骤1,随机生成初始策略π,构建初始策略集合Π;步骤2,依据贡献度求解策略集合Π上的贡献度分布Contr
Π
;步骤3,依据贡献度分布Contr
П
选择对手策略模型;步骤4,应对对手策略模型,以收益和贡献度为目标训练新策略π
′
;步骤5,确定新策略π
′
,加入并更新策略集合Π;步骤6,重复步骤2至步骤5,直至新策略无法提升收益,生成最终的策略集合Π。2.根据权利要求1所述的一种基于贡献度的非完美信息博弈智能策略求解方法,其特征在于,步骤2中定义贡献度及求解贡献度分布Contr
Π
的过程,具体如下:假设策略集合Π有n个策略,构建n
×
n的收益矩阵M,其中,M
ij
表示策略π
i
对战策略π
j
的收益,M
ji
表示策略π
j
对战策略π
i
的收益,在二人零和博弈中,策略π
i
和策略π
j
对战得到的收益之和为0,于是有M
ij
=
‑
M
ji
;使用虚拟自博弈方法求解收益矩阵M上的纳什均衡解(NE);度量单个策略π
i
对策略集合Π的贡献,根据NE定义策略π
i
对策略集合Π的贡献度,即:Contr
∏
(π
i
)=NE(π
i
)于是,n个贡献度值构成了策略集合Π上的贡献度分布Contr
∏
。3.根据权利要求1所述的一种基于贡献度的非完美信息博弈智能策略求解方法,其特征在于,步骤3中对手策略模型根据贡献度分布Contr
∏
确定,具体如下:贡献度分布Contr
∏
是策略集合Π上的一种概率分布,即贡献度越大的策略被策略集合Π选中作为对手策略的可能性越大,因此贡献度分布Contr
∏
可以作为策略集合Π选择对手策略的概率分布;根据贡献度分布Contr
∏
,策略π
i
被选中作为对手策略的概率为Contr
∏
(π
i
)。4.根据权利要求1所述的一种基于贡献度的非完美信息博弈智能策略求解方法,其特征在于,步骤4中新策略训练的目标以及方式具体如下:新策略的...
【专利技术属性】
技术研发人员:向帅,宋研,胡裕靖,高阳,解宇,
申请(专利权)人:江苏万维艾斯网络智能产业创新中心有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。