面向不完全信息博弈的集成策略学习方法、装置和设备制造方法及图纸

技术编号:34482330 阅读:13 留言:0更新日期:2022-08-10 08:59
本申请涉及一种面向不完全信息博弈的集成策略学习方法、装置和设备。所述方法包括:通过集成策略学习模型中的梯度更新网络从训练数据中的动作状态数据提取对抗轨迹特征信息,基于注意力机制集成整合基础决策模型输出的基础策略信息,进一步集成得到预测策略信息,在完成梯度更新网络的训练后,得到训练数据中每个智能体的第二集成策略信息,通过集成策略学习模型中的神经演化模块基于策略评估值通过交叉和变异进行进化,其中由于训练数据是小批量数据,本方法通过评估并去除对抗得分值中的运气因素值,在有限轨迹数据的基础上实现了策略的准确评估。通过策略评估值选取表现优异的智能体,得到表现最优的集成策略信息。得到表现最优的集成策略信息。得到表现最优的集成策略信息。

【技术实现步骤摘要】
面向不完全信息博弈的集成策略学习方法、装置和设备


[0001]本申请涉及人工智能领域,特别是涉及一种面向不完全信息博弈的集成策略学习方法、装置和计算机设备。

技术介绍

[0002]大规模不完全信息博弈是人工智能中的热点研究领域,在城市安全、反恐维稳、边境缉毒以及野生动物保护等领域都具有广泛应用。不完全信息博弈是防御者和攻击者相互对抗的形式化描述。以专家知识、博弈理论、强化学习等为典型代表的博弈求解范式,在求解不完全信息博弈时具有不同缺点。例如:博弈论中的纳什均衡是一种在统计意义上的不败策略,但并非最优策略。强化学习可以在有限对局中取得较好的效果,但容易被利用。专家知识的方法在求解大规模的博弈问题时,具有很好的可解释性和可靠性,但固化的知识容易被对手发现规律加以利用。
[0003]现有技术中,针对同一博弈问题,即使已构建专家知识、博弈理论和强化学习等不同决策模型,但多种决策无法有效集成,更无法处理不完全信息。因此,现有策略集成技术存在适应性不佳的问题。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够提高策略表现效果的面向不完全信息博弈的集成策略学习方法、装置和计算机设备。
[0005]一种面向不完全信息博弈的集成策略学习方法,所述方法包括:
[0006]获取对抗场景中博弈双方的训练数据;所述训练数据中包括对手池信息、多个迭代版本的智能体与所述对手池信息中不同对手对抗的动作状态数据、推荐策略信息、基础决策模型输出的基础策略信息;所述基础决策模型为预先设计的,数量至少有两个;所述对手池信息中对手的信息为不完全信息;
[0007]将所述训练数据输入预先设计的集成策略学习模型中;所述集成策略学习模型包括梯度更新网络和神经演化模块;所述梯度更新网络包括长短时记忆网络模块,注意力机制模块,全连接网络模块和输出模块;所述神经演化模块包括中心化评估模块、基因编码模块和进化操作模块;
[0008]通过所述长短时记忆网络模块根据每个智能体的所述动作状态数据提取对抗轨迹特征信息,通过所述注意力机制模块对所述基础策略信息进行加权集成得到第一集成策略信息,通过所述全连接网络根据所述对抗轨迹特征信息和所述第一集成策略进行进一步处理,并通过所述输出模块激活输出,得到每个智能体的预测策略信息;
[0009]以所述推荐策略信息为标签信息,根据所述预测策略信息和所述标签信息对所述梯度更新网络进行有监督训练,得到训练好的梯度更新网络,通过所述训练好的梯度更新网络根据所述训练数据输出所述训练数据的第二集成策略信息;
[0010]通过所述中心化评估模块根据所述训练数据的第二集成策略信息将对应的智能
体与所述对手池信息中的每个对手分别对抗,评估并去除对抗得分值中的运气因素值,再对所述第二集成策略进行评估得到精确的策略评估值;
[0011]通过所述基因编码模块将所述训练数据的第二集成策略信息表示为参数待优化的神经网络;
[0012]通过所述进化操作模块将所有所述参数待优化的神经网络的参数构成种群,根据对应的所述策略评估值将所述种群分为精英层和存活层,通过交叉操作算子和变异操作算子进行多代种群演化,以对所述参数待优化的神经网络进行优化;其中,所述精英层中的个体对变异免疫,所述存活层中的个体必须经过变异才能进入下一代;
[0013]在迭代过程中,通过计算所述精英层中个体的策略评估值选取表现优异的智能体,并通过预设的测试数据集对所述表现优异的智能体的集成策略进行测试,得到表现最优的智能体及其对应的最优集成策略信息。
[0014]在其中一个实施例中,还包括:所述基础决策模型之间是独立且异构的。
[0015]在其中一个实施例中,还包括:根据所述动作状态数据进行特征设计与编码,得到每个智能体的历史轨迹的编码特征;
[0016]通过所述长短时记忆网络模块根据所述编码特征提取对抗轨迹特征信息。
[0017]在其中一个实施例中,还包括:获取所述对手池信息中的对手信息;所述对手信息包括对手的动作信息、行动信息,轨迹信息;
[0018]通过预先设计的对手建模模块根据所述对手信息推理出对手的私有信息;所述私有信息包括对手的意图信息、目标信息和风格信息;
[0019]通过所述中心化评估模块根据所述测试数据的第二集成策略信息和所述对手的私有信息,将所述智能体与所述对手池信息中的每个对手分别对抗。
[0020]在其中一个实施例中,还包括:以所述推荐策略信息为标签信息;
[0021]根据所述第二集成策略信息和所述标签信息求取均方根得到误差;
[0022]根据所述误差以反向传播的方式对所述梯度更新网络的参数进行更新,得到训练好的梯度更新网络。
[0023]在其中一个实施例中,还包括:通过所述中心化评估模块根据所述训练数据的第二集成策略信息将对应的智能体与所述对手池信息中的每个对手分别对抗,得到对抗得分值;
[0024]计算所述对抗得分值中运气因素值的评估值为:
[0025][0026]其中,c(z)为运气因素值,e
ij
表示第i轮种群进化代中第j个智能体,为智能体e
ij
的历史动作信息,为对手池中第k个对手op
k
的历史动作信息,L为智能体e
ij
与对手op
k
对抗的轮数,R(
·
)为对抗累积得分值;
[0027]根据所述运气因素值的评估值e(c(z))确定所述运气因素值c(z);
[0028]从所述对抗得分值中去除运气评估值,得到去除了运气因素值的对抗得分值为:
[0029][0030]其中,s
ij
(z
i
)表示去除了运气因素值的对抗得分值,c(z
i
)为运气因素值,v
ij
(z
i
)为所述对抗得分值;
[0031]根据所述去除了运气因素值的对抗得分值,对所述第二集成策略进行评估得到精确的策略评估值为:
[0032][0033]其中,表示以为策略的智能体,为所述第二集成策略精确的策略评估值,Ο表示对手池,为s
ij
≥0时的归一化系数,为s
ij
<0时的归一化系数。
[0034]在其中一个实施例中,还包括:获取每个智能体的所述策略评估值
[0035]计算所有智能体所述策略评估值的平均值
[0036]比较每个智能体的所述策略评估值和所述策略评估值的平均值若则将对应智能体加入精英层,否则,将对应智能体加入存活层。
[0037]在其中一个实施例中,还包括:所述变异操作算子中包括变异率和变异强度两个超参数,在种群演化初期,所述变异率和所述编译强度的值较大,在种群演化后期,所述变异率和所述编译强度的值较小。
[0038]一种面向不完全信息博弈的集成策略学习装置,所述装置包括:
[0039]数据获取模块本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向不完全信息博弈的集成策略学习方法,其特征在于,所述方法包括:获取对抗场景中博弈双方的训练数据;所述训练数据中包括对手池信息、多个迭代版本的智能体与所述对手池信息中不同对手对抗的动作状态数据、推荐策略信息、基础决策模型输出的基础策略信息;所述基础决策模型为预先设计的,数量至少有两个;所述对手池信息中对手的信息为不完全信息;将所述训练数据输入预先设计的集成策略学习模型中;所述集成策略学习模型包括梯度更新网络和神经演化模块;所述梯度更新网络包括长短时记忆网络模块,注意力机制模块,全连接网络模块和输出模块;所述神经演化模块包括中心化评估模块、基因编码模块和进化操作模块;通过所述长短时记忆网络模块根据每个智能体的所述动作状态数据提取对抗轨迹特征信息,通过所述注意力机制模块对所述基础策略信息进行加权集成得到第一集成策略信息,通过所述全连接网络根据所述对抗轨迹特征信息和所述第一集成策略进行进一步处理,并通过所述输出模块激活输出,得到每个智能体的预测策略信息;以所述推荐策略信息为标签信息,根据所述预测策略信息和所述标签信息对所述梯度更新网络进行有监督训练,得到训练好的梯度更新网络,通过所述训练好的梯度更新网络根据所述训练数据输出所述训练数据的第二集成策略信息;通过所述中心化评估模块根据所述训练数据的第二集成策略信息将对应的智能体与所述对手池信息中的每个对手分别对抗,评估并去除对抗得分值中的运气因素值,再对所述第二集成策略进行评估得到精确的策略评估值;通过所述基因编码模块将所述训练数据的第二集成策略信息表示为参数待优化的神经网络;通过所述进化操作模块将所有所述参数待优化的神经网络的参数构成种群,根据对应的所述策略评估值将所述种群分为精英层和存活层,通过交叉操作算子和变异操作算子进行多代种群演化,以对所述参数待优化的神经网络进行优化;其中,所述精英层中的个体对变异免疫,所述存活层中的个体必须经过变异才能进入下一代;在迭代过程中,通过计算所述精英层中个体的策略评估值选取表现优异的智能体,并通过预设的测试数据集对所述表现优异的智能体的集成策略进行测试,得到表现最优的智能体及其对应的最优集成策略信息。2.根据权利要求1所述的方法,其特征在于,所述基础决策模型之间是独立且异构的。3.根据权利要求2所述的方法,其特征在于,通过所述长短时记忆网络模块根据每个智能体的所述动作状态数据提取对抗轨迹特征信息,包括:根据所述动作状态数据进行特征设计与编码,得到每个智能体的历史轨迹的编码特征;通过所述长短时记忆网络模块根据所述编码特征提取对抗轨迹特征信息。4.根据权利要求3所述的方法,其特征在于,通过所述中心化评估模块根据所述测试数据的第二集成策略信息将所述智能体与所述对手池信息中的每个对手分别对抗,还包括:获取所述对手池信息中的对手信息;所述对手信息包括对手的动作信息、行动信息,轨迹信息;通过预先设计的对手建模模块根据所述对手信息推理出对手的私有信息;所述私有信
息包括对手的意图信息、目标信息和风格信息;通过所述中心化评估模块根据所述测试数据的第二集成策略信息和所述对手的私有信息,将所述智能体与所述对手池信息中的每个对手分别对抗。5.根据权利要求4所述的方法,其特征在于,以所述推荐策略信息为标签信息,根据所述预测策略信息和所述标签信息对所述梯度更新网络进行有监督训练,得到训练好的梯度更新网络,包括:以所述推荐策略信息为标签信息;根据所述第二集成策略信息和所述标签信息求取均方根得到误差;根据所述误差以反向传播的方式对所述梯度更新网络的参数进行更新,得到训练好的梯度更新网络。6.根据权利要求5所述的方法,其特征在于,通过所述中心化评估模块根据所述训练数据的第二集成策略信息将对应的智能体与所述对手池信息中的每个对手分别对抗,评估并去除对抗得分值中的运气因素值,再对所述第二集成策略进行评估得到精确的策略评估值,包括:通过所述中心化评估模块根据所述训练数据的第二集成策略信息将对应的智能体与所述对手池信息中的每个对手分别对抗,得到对抗得分值;计算所述对抗得分值中运气因素值的评估值为:其中,c(z)为运气因素值,e
ij
表示第i轮种群进化代中第j个智能体,为智能体e

【专利技术属性】
技术研发人员:陈少飞袁唯淋胡振震陆丽娜李鹏陈佳星苏炯铭刘鸿福
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1