当前位置: 首页 > 专利查询>东北大学专利>正文

一种基于小样本对手建模的非完美信息博弈策略增强方法技术

技术编号:37272899 阅读:21 留言:0更新日期:2023-04-20 23:41
本发明专利技术设计一种基于小样本对手建模的非完美信息博弈策略增强方法,属于非完美信息机器博弈技术领域;首先基于小样本学习方法训练对手策略风格识别网络;利用小样本学习方法训练对手策略风格识别网络,挖掘对手策略的缺陷,并采用更加鲁棒的更新策略方式实时动态调整对策,从而达到在保证策略安全性的同时尽可能地提高策略的收益的目的;本发明专利技术提出的技术方案,相比于纳什均衡策略显著提高博弈收益,相比于过于自信的对手建模策略显著降低被对手利用的风险;本发明专利技术适应真实博弈场景,降低了对数据量的依赖,提高了策略的鲁棒性,达到了应用的要求。了应用的要求。

【技术实现步骤摘要】
一种基于小样本对手建模的非完美信息博弈策略增强方法


[0001]本专利技术属于非完美信息机器博弈
,具体涉及一种基于小样本对手建模的非完美信息博弈策略增强方法。

技术介绍

[0002]机器博弈从所有参与者是否获得全部或者准确的局面信息,可将博弈问题分为完美信息博弈和非完美信息博弈。非完美信息博弈更加贴近实际应用场景,但此类博弈具有状态空间大、信息缺失和决策收益不确定等特点增加了传统的基于博弈树的策略搜索算法求解最优策略的难度,相对于完美信息博弈,非完美信息博弈的研究相对落后。
[0003]对手建模是机器博弈的一个重要的研究方向,其核心思想是从对手的历史行为中提取特征,分析其个性化行为趋向和策略弱点。当前研究的理论和实践证明,与非理性的、具有行为特征或者策略偏向的对手博弈的过程中,如果能够通过挖掘出对手的隐藏特征和策略漏洞,并对其加以利用,则可帮助智能体提高博弈收益和胜率。目前,对手建模的主要研究方向是对手动作建模、对手类型建模、对手偏好建模、对手信念建模等。随着智能博弈场景的日益丰富与完善,对手建模技术正面向更加贴近真实博弈问题的特征进行深入研究与发展。中国专利技术专利CN202111316717.3中,公开了一种基于深度强化学习的隐式对手建模方法,将对手策略表示为一个特征向量输入决策网络,通过端到端的训练方式,提高博弈水平。中国专利技术专利CN201610835289.8中,公开了一种基于非完备信息博弈的显式对手建模的方法,采用统计学习方法归纳对手动作偏好。
[0004]中国专利技术专利CN202111316717.3公开的一种基于深度强化学习的隐式对手建模方法,将对手策略表示为一个特征向量作为决策网络的输入,相比于显式建模,该建模方法缺乏可解释性,无法直观地感知对手策略的变化,以及策略的调整方向。并且在很多实际的博弈对抗环境中,智能体会遇到未知的对手,关于该对手策略特征的任何先验知识是无法预先获得的。导致智能博弈技术难以在现实中应用的最大局限是真实样本稀缺,难以使用传统的神经网络学习或者概率论推理算法学习一个准确的有效的模型,因为这些方法需要从大量的数据中提取经验知识。
[0005]中国专利技术专利CN201610835289.8公开的一种基于非完备信息博弈的对手建模方法,虽然采用了一种显式的对手建模方法,但是基于统计的对手动作偏好学习,仍需要大量的数据,难以应对未知的对手。此外,基于对手建模的策略搜索算法是一把双刃剑,虽然具有提高策略收益的能力,但同时增加了被利用的风险。这是因为状态动作空间复杂的博弈问题几乎无法避免模型误差,尤其是数据稀缺,而模型偏差会导致搜索的对抗策略损失严重。因此,如何在保证策略安全性的同时尽可能地提高博弈收益应该是提高基于对手模型的决策算法鲁棒性的关键。

技术实现思路

[0006]针对现有技术的不足,本专利技术设计一种基于小样本对手建模的非完美信息博弈策
略增强方法;利用小样本学习方法训练对手风格识别模型,挖掘对手策略的缺陷,并采用更加鲁棒的更新策略方式实时动态调整对策,从而达到在保证策略安全性的同时尽可能地提高策略的收益的目的。
[0007]一种基于小样本对手建模的非完美信息博弈策略增强方法,具体包括以下步骤:
[0008]步骤1:基于小样本学习方法训练对手策略风格识别网络;
[0009]步骤1.1:首先制作代表不同策略风格博弈轨迹的数据库每条博弈轨迹样本表示了一个博弈回合从开局到时间t的状态和动作序列信息τ
t
={s0,a1,

,a
t
‑1,s
t
},并对序列信息进行编码;其中,s表示博弈状态,a表示动作,下标对应着不同的时刻;
[0010]以策略的可利用度指标ε
i

i
)作为策略风格的类型,可利用度评估一个策略相比于纳什均衡策略的平均收益差距,其公式为:
[0011][0012]其中表示所有玩家都采用纳什均衡策略时,玩家i的收益;表示当玩家i采用σ
i
,其他玩家采用纳什均衡策略时,玩家i的收益;考虑到对手不会采取过于愚笨的策略,而且保证策略具有一定的可区分度,可利用度选定为x(>0)个可利用度指标;为了符合实际问题中样本稀缺的特点,每个策略风格仅收集m(0<m<<|S|
|A|
)条样本,其中,|S|表示动作空间大小,|A|表示动作空间大小;
[0013]首先使用MCCFR算法,从随机初始化策略开始迭代更新策略,每迭代a,a>0次固定当前策略计算可利用度,当达到预设的数值后,停止策略更新;然后,将博弈环境随机初始化b,b>0次,每次都使用该策略从开局博弈到结束,记录下完整的博弈状态动作序列{s0,a1,

,a
T
,s
T
}其中,T表示博弈结束的时间;
[0014]最后,由于每一条博弈轨迹的长度不一致,无法批量输入时序网络,需统一所有样本的长度;为保持样本数据的完整性,将所有样本长度统一为最长样本的长度,长度不足用0补齐Tmax表示所有样本中最长时序样本的时序长度;这样就生成一个具有x个类别,每个类别有m条样本的数据集;
[0015]步骤1.2:搭建对手策略风格识别网络;所述对手策略风格识别网络包括双注意力原型特征提取模块和距离缩放模块两个子模块;
[0016]所述双注意力原型特征提取模块从时间和空间两个维度提取策略收集的输入样本的特征,该子模块由内注意力时序编码器和外注意力编码器构成,其中内注意力时序编码器输出每一条样本的时序特征,外注意力编码器接受每一类的所有样本的时序特征后,提取该类样本在整个空间中的与其他类别的可区分特征,输出为每一策略风格的原型特征向量;所述距离缩放模块考虑到策略风格原型特征的每一个维度对计算类别距离的影响,为原型向量的每一维度的特征赋予不同的权重z
i

[0017]对手策略风格识别网络输出为当前输入样本属于每个数据库中所有预先设定的策略风格的概率分布,其计算公式为:
[0018][0019]其中为待识别样本经内注意力时序编码器后的特征向量,Ψ
i
为策略风格i经过
双注意力原型特征提取模块后的类原型向量,d(,)为距离计算公式,采用欧式距离,c表示策略类别;对手策略风格识别网络结构具体为:内注意力时序编码器先接入全连接层、批量正则化层和Relu激活层,再接入LSTM时序层,最后接入软注意力模块soft

attention;外注意力编码器由自注意力模块self

attention构成;支持集中的每个类别的样本组经过双注意力原型特征提取模块输出的原型向量组分别与查询样本经过内注意力编码器的向量进行拼接,然后所有类别的拼接向量堆叠后形成一个二维向量输入距离缩放模块;距离缩放模块由两层卷积网络构成,每层卷积网络后添本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于小样本对手建模的非完美信息博弈策略增强方法,其特征在于,具体包括以下步骤:步骤1:基于小样本学习方法训练对手策略风格识别网络,并训练至收敛;步骤2:在实际博弈过程中,调用在步骤1中训练至收敛的对手策略风格识别网络,从当前回合博弈决策轨迹以及其他可见的博弈信息中识别对手策略风格c,以及对该识别结果的置信度α;以使每当轮到本方决策时,辅助智能体灵活地动态调整策略;步骤3:基于步骤2识别的对手策略风格,计算针对当前对手策略的最佳遗憾匹配策略σ
c
,并计算纳什均衡策略σ
*
;基于对手风格识别结果的可信程度,在保证策略安全性的同时提高策略收益,采取线性软更新方式生成当前决策节点的所有合法动作的概率分布。2.根据权利要求1所述的一种基于小样本对手建模的非完美信息博弈策略增强方法,其特征在于,步骤1具体为:步骤1.1:首先制作代表不同策略风格博弈轨迹的数据库每条博弈轨迹样本表示了一个博弈回合从开局到时间t的状态和动作序列信息τ
t
={s0,a1,

,a
t
‑1,s
t
},并对序列信息进行编码;其中,s表示博弈状态,a表示动作,下标对应着不同的时刻;以策略的可利用度指标ε
i

i
)作为策略风格的类型,可利用度评估一个策略相比于纳什均衡策略的平均收益差距,其公式为:其中表示所有玩家都采用纳什均衡策略时,玩家i的收益;表示当玩家i采用σ
i
,其他玩家采用纳什均衡策略时,玩家i的收益;考虑到对手不会采取过于愚笨的策略,而且保证策略具有一定的可区分度,可利用度选定为x(>0)个可利用度指标;为了符合实际问题中样本稀缺的特点,每个策略风格仅收集m(0<m<<|S|
|A|
)条样本,其中,|S|表示动作空间大小,|A|表示动作空间大小;首先使用MCCFR算法,从随机初始化策略开始迭代更新策略,每迭代a,a>0次固定当前策略计算可利用度,当达到预设的数值后,停止策略更新;然后,将博弈环境随机初始化b,b>0次,每次都使用该策略从开局博弈到结束,记录下完整的博弈状态动作序列{s0,a1,

,a
T
,s
T
}其中,T表示博弈结束的时间;最后,由于每一条博弈轨迹的长度不一致,无法批量输入时序网络,需统一所有样本的长度;为保持样本数据的完整性,将所有样本长度统一为最长样本的长度,长度不足用0补齐Tmax表示所有样本中最长时序样本的时序长度;这样就生成一个具有x个类别,每个类别有m条样本的数据集;步骤1.2:搭建对手策略风格识别网络;所述对手策略风格识别网络包括双注意力原型特征提取模块和距离缩放模块两个子模块;对手策略风格识别网络输出为当前输入样本属于每个数据库中所有预先设定的策略风格的概率分布,其计算公式为:其中为待识别样本经内注意力时序编码器后的特征向量,Ψ
i
为策略风格i经过双注
意力原型特征提取模块后的类原型向量,d(,)为距离计算公式,采用欧式距离,c表示策略类别;步骤1.3:训练对手策略风格识别网络,从策略风格库中随机抽取n个类,并且从这n个类中分别采样k个样本组成支持集S,从剩余样本中采样k个组成查询集Q,作为一次训练的输入数据,输入步骤1.2所...

【专利技术属性】
技术研发人员:王骄王诗佳
申请(专利权)人:东北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1