【技术实现步骤摘要】
一种基于小样本对手建模的非完美信息博弈策略增强方法
[0001]本专利技术属于非完美信息机器博弈
,具体涉及一种基于小样本对手建模的非完美信息博弈策略增强方法。
技术介绍
[0002]机器博弈从所有参与者是否获得全部或者准确的局面信息,可将博弈问题分为完美信息博弈和非完美信息博弈。非完美信息博弈更加贴近实际应用场景,但此类博弈具有状态空间大、信息缺失和决策收益不确定等特点增加了传统的基于博弈树的策略搜索算法求解最优策略的难度,相对于完美信息博弈,非完美信息博弈的研究相对落后。
[0003]对手建模是机器博弈的一个重要的研究方向,其核心思想是从对手的历史行为中提取特征,分析其个性化行为趋向和策略弱点。当前研究的理论和实践证明,与非理性的、具有行为特征或者策略偏向的对手博弈的过程中,如果能够通过挖掘出对手的隐藏特征和策略漏洞,并对其加以利用,则可帮助智能体提高博弈收益和胜率。目前,对手建模的主要研究方向是对手动作建模、对手类型建模、对手偏好建模、对手信念建模等。随着智能博弈场景的日益丰富与完善,对手建模技术正面向更加贴近真实博弈问题的特征进行深入研究与发展。中国专利技术专利CN202111316717.3中,公开了一种基于深度强化学习的隐式对手建模方法,将对手策略表示为一个特征向量输入决策网络,通过端到端的训练方式,提高博弈水平。中国专利技术专利CN201610835289.8中,公开了一种基于非完备信息博弈的显式对手建模的方法,采用统计学习方法归纳对手动作偏好。
[0004]中国专利技术专利CN2 ...
【技术保护点】
【技术特征摘要】
1.一种基于小样本对手建模的非完美信息博弈策略增强方法,其特征在于,具体包括以下步骤:步骤1:基于小样本学习方法训练对手策略风格识别网络,并训练至收敛;步骤2:在实际博弈过程中,调用在步骤1中训练至收敛的对手策略风格识别网络,从当前回合博弈决策轨迹以及其他可见的博弈信息中识别对手策略风格c,以及对该识别结果的置信度α;以使每当轮到本方决策时,辅助智能体灵活地动态调整策略;步骤3:基于步骤2识别的对手策略风格,计算针对当前对手策略的最佳遗憾匹配策略σ
c
,并计算纳什均衡策略σ
*
;基于对手风格识别结果的可信程度,在保证策略安全性的同时提高策略收益,采取线性软更新方式生成当前决策节点的所有合法动作的概率分布。2.根据权利要求1所述的一种基于小样本对手建模的非完美信息博弈策略增强方法,其特征在于,步骤1具体为:步骤1.1:首先制作代表不同策略风格博弈轨迹的数据库每条博弈轨迹样本表示了一个博弈回合从开局到时间t的状态和动作序列信息τ
t
={s0,a1,
…
,a
t
‑1,s
t
},并对序列信息进行编码;其中,s表示博弈状态,a表示动作,下标对应着不同的时刻;以策略的可利用度指标ε
i
(σ
i
)作为策略风格的类型,可利用度评估一个策略相比于纳什均衡策略的平均收益差距,其公式为:其中表示所有玩家都采用纳什均衡策略时,玩家i的收益;表示当玩家i采用σ
i
,其他玩家采用纳什均衡策略时,玩家i的收益;考虑到对手不会采取过于愚笨的策略,而且保证策略具有一定的可区分度,可利用度选定为x(>0)个可利用度指标;为了符合实际问题中样本稀缺的特点,每个策略风格仅收集m(0<m<<|S|
|A|
)条样本,其中,|S|表示动作空间大小,|A|表示动作空间大小;首先使用MCCFR算法,从随机初始化策略开始迭代更新策略,每迭代a,a>0次固定当前策略计算可利用度,当达到预设的数值后,停止策略更新;然后,将博弈环境随机初始化b,b>0次,每次都使用该策略从开局博弈到结束,记录下完整的博弈状态动作序列{s0,a1,
…
,a
T
,s
T
}其中,T表示博弈结束的时间;最后,由于每一条博弈轨迹的长度不一致,无法批量输入时序网络,需统一所有样本的长度;为保持样本数据的完整性,将所有样本长度统一为最长样本的长度,长度不足用0补齐Tmax表示所有样本中最长时序样本的时序长度;这样就生成一个具有x个类别,每个类别有m条样本的数据集;步骤1.2:搭建对手策略风格识别网络;所述对手策略风格识别网络包括双注意力原型特征提取模块和距离缩放模块两个子模块;对手策略风格识别网络输出为当前输入样本属于每个数据库中所有预先设定的策略风格的概率分布,其计算公式为:其中为待识别样本经内注意力时序编码器后的特征向量,Ψ
i
为策略风格i经过双注
意力原型特征提取模块后的类原型向量,d(,)为距离计算公式,采用欧式距离,c表示策略类别;步骤1.3:训练对手策略风格识别网络,从策略风格库中随机抽取n个类,并且从这n个类中分别采样k个样本组成支持集S,从剩余样本中采样k个组成查询集Q,作为一次训练的输入数据,输入步骤1.2所...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。