一种面向博弈对抗的多智能模型融合方法技术

技术编号:32854452 阅读:15 留言:0更新日期:2022-03-30 19:22
本发明专利技术提供一种面向博弈对抗的多智能模型融合方法,其中,所述方法包括:获取博弈对手的至少一种状态信息;基于所述状态信息,确定所述博弈对手的行为特征;基于所述行为特征,通过智能模型选择机制确定对抗模型,其中,所述对抗模型与所述行为特征相适应。通过本发明专利技术所述的面向博弈对抗的多智能模型融合方法,能够在面对复杂多变的博弈对手类型时,可以有效处理博弈对抗任务。处理博弈对抗任务。处理博弈对抗任务。

【技术实现步骤摘要】
一种面向博弈对抗的多智能模型融合方法


[0001]本专利技术涉及博弈对抗
,尤其涉及一种面向博弈对抗的多智能模型融合方法。

技术介绍

[0002]博弈对抗过程大都是不完全信息的序列决策过程。在不完全信息博弈对抗中,参与博弈的任何一方仅能够观测到自己的状态和有限的对手信息。博弈对抗类问题的不完全信息特点使得单一的智能算法难以应对博弈对手的多变性和不确定性。
[0003]相关技术可知,针对博弈对抗问题的研究大都集中于不同智能算法的设计。由于没有一种智能算法能够在所有情况下表现良好,因此,无法确保博弈对抗任务在不同环境下均能得到有效处理。

技术实现思路

[0004]本专利技术提供一种面向博弈对抗的多智能模型融合方法,用以解决现有技术中面对复杂多变的博弈对手类型时,难以有效处理博弈对抗任务的缺陷,实现了在实时变化的环境下,能够有效处理博弈对抗任务。
[0005]本专利技术提供一种面向博弈对抗的多智能模型融合方法,所述方法包括:获取博弈对手的至少一种状态信息;基于所述状态信息,确定所述博弈对手的行为特征;基于所述行为特征,通过智能模型选择机制确定对抗模型,其中,所述对抗模型与所述行为特征相适应。
[0006]根据本专利技术提供的一种面向博弈对抗的多智能模型融合方法,其特征在于,所述基于所述状态信息,确定所述博弈对手的行为特征,包括:将所述状态信息离散化为态势矩阵;基于所述态势矩阵,通过卷积网络模型确定所述博弈对手的行为特征。
[0007]根据本专利技术提供的一种面向博弈对抗的多智能模型融合方法,其特征在于,所述智能模型选择机制包括感知机神经网络模型,所述卷积网络模型和所述感知机神经网络模型通过训练获取,所述训练的过程采用如下方式确定:实例化仿真模拟博弈对抗场景,所述仿真模拟博弈对抗场景包括仿真博弈对手;通过所述对抗模型,确定与所述仿真博弈对手的状态信息相对抗的对抗行为;基于所述对抗行为确定对抗结果,并基于所述对抗结果确定所述对抗结果的评估值;基于所述评估值,更新所述卷积网络模型和所述感知机神经网络模型。
[0008]根据本专利技术提供的一种面向博弈对抗的多智能模型融合方法,其特征在于,采用以下方式获取博弈对手的至少一种状态信息:获取探测所述博弈对手的探测位置;基于所述探测位置的综合势场值,确定探测路径;按照所述探测路径获取博弈对手的至少一种状态信息。
[0009]根据本专利技术提供的一种面向博弈对抗的多智能模型融合方法,其特征在于,所述综合势场值通过以下公式实现:
[0010]f(x)=f
a
(x)+f
b
(x)
[0011][0012][0013]其中,f(x)表示所述综合势场值,f
a
(x)表示引力场值,f
b
(x)表示斥力场值,ε表示引力系数,表示所述探测位置距离所述博弈对手所有可见单元距离的平均值,δ表示斥力系数,表示所述探测位置距离所述博弈对手最近的火力单元的距离,表示所述博弈对手最近的火力单元的火力范围。
[0014]根据本专利技术提供的一种面向博弈对抗的多智能模型融合方法,其特征在于,所述探测路径通过以下公式确定:
[0015][0016]其中,x
i
表示所述探测位置,x
i+1
表示下一时间步探测位置,α表示移动步长,表示综合势场梯度。
[0017]根据本专利技术提供的一种面向博弈对抗的多智能模型融合方法,其特征在于,所述基于所述行为特征,通过智能模型选择机制确定对抗模型,包括:基于所述行为特征,通过所述智能模型选择机制确定多个备选对抗模型以及所述备选对抗模型的评估值;基于贪心策略与所述评估值,确定所述对抗模型。
[0018]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述面向博弈对抗的多智能模型融合方法的步骤。
[0019]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述面向博弈对抗的多智能模型融合方法的步骤。
[0020]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述面向博弈对抗的多智能模型融合方法的步骤。
[0021]本专利技术提供的一种面向博弈对抗的多智能模型融合方法,通过获取博弈对手的状态信息,确定博弈对手的行为特征,并基于行为特征选择合适的对抗模型,用以与博弈对手进行对抗。进而能够在在面对复杂多变的博弈对手类型时,可以有效处理博弈对抗任务。
附图说明
[0022]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0023]图1是本专利技术提供的面向博弈对抗的多智能模型融合方法的流程示意图之一;
[0024]图2是本专利技术提供的基于状态信息,确定博弈对手的行为特征的流程示意图之一;
[0025]图3是本专利技术提供的基于空间离散化的对手态势建模的示意图之一;
[0026]图4是本专利技术提供的训练卷积网络模型和感知机神经网络模型的流程示意图之一;
[0027]图5是本专利技术提供的通过智能模型选择机制确定对抗模型的流程示意图之一;
[0028]图6是本专利技术提供的面向博弈对抗的多智能模型融合方法的示意图之一;
[0029]图7是本专利技术提供的获取博弈对手的至少一种状态信息的流程示意图之一;
[0030]图8是本专利技术提供的面向博弈对抗的多智能模型融合装置的结构示意图;
[0031]图9是本专利技术提供的电子设备的结构示意图。
具体实施方式
[0032]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0033]相关技术可知,自从AlphaGo击败人类围棋顶级选手以来,人工智能技术在博弈对抗等领域取得了许多突破性的进展。以AlphaGo为代表的智能博弈对抗方法将深度学习、强化学习等机器学习算法引入博弈对抗建模过程。在博弈对抗过程中,基于深度强化学习方法的智能体通过与环境的持续交互学习,不断更新深度神经网络,指导其行为选择,最终训练得到能够应对特定博弈对抗问题的智能体。
[0034]然而,机器学习中存在一条普适的原则“没有免费的午餐”。针对复杂多变的博弈对手类型,没有一种算法能够在所有情况下表现良好,需要根据实际情况选择合适的决策算法。本专利技术提供的一种面向博弈对抗的多智能模型融合方法,基于对手行为进行分析,以选择合本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向博弈对抗的多智能模型融合方法,其特征在于,所述方法包括:获取博弈对手的至少一种状态信息;基于所述状态信息,确定所述博弈对手的行为特征;基于所述行为特征,通过智能模型选择机制确定对抗模型,其中,所述对抗模型与所述行为特征相适应。2.根据权利要求1所述的面向博弈对抗的多智能模型融合方法,其特征在于,所述基于所述状态信息,确定所述博弈对手的行为特征,包括:将所述状态信息离散化为态势矩阵;基于所述态势矩阵,通过卷积网络模型确定所述博弈对手的行为特征。3.根据权利要求2所述的面向博弈对抗的多智能模型融合方法,其特征在于,所述智能模型选择机制包括感知机神经网络模型,所述卷积网络模型和所述感知机神经网络模型通过训练获取,所述训练的过程采用如下方式确定:实例化仿真模拟博弈对抗场景,所述仿真模拟博弈对抗场景包括仿真博弈对手;通过所述对抗模型,确定与所述仿真博弈对手的状态信息相对抗的对抗行为;基于所述对抗行为确定对抗结果,并基于所述对抗结果确定所述对抗结果的评估值;基于所述评估值,更新所述卷积网络模型和所述感知机神经网络模型。4.根据权利要求1所述的面向博弈对抗的多智能模型融合方法,其特征在于,采用以下方式获取博弈对手的至少一种状态信息:获取探测所述博弈对手的探测位置;基于所述探测位置的综合势场值,确定探测路径;按照所述探测路径获取博弈对手的至少一种状态信息。5.根据权利要求4所述的面向博弈对抗的多智能模型融合方法,其特征在于,所述综合势场值通过以下公式实现:f(x)=f
a
(x)+f
b
(x)(x)其中,f(...

【专利技术属性】
技术研发人员:徐新海李渊李晟泽张峰章杰元
申请(专利权)人:中国人民解放军军事科学院国防科技创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1