融入先验知识的智能指挥决策模型、系统及方法技术方案

技术编号:38053028 阅读:16 留言:0更新日期:2023-06-30 11:18
融入先验知识的智能指挥决策模型方法,其特征在于,首先介绍智能对抗平台的建模设计,然后引入强化学习中的DQN算法,在推演中引入智能红蓝军,红方AI以DQN算法构建,蓝方AI则以规则构建,通过红蓝对抗博弈,以规则为基础的蓝方算法对以DQN算法的红方算子进行训练,提出构建智能对抗平台领域的专家知识模型,建立基于PK

【技术实现步骤摘要】
融入先验知识的智能指挥决策模型、系统及方法


[0001]本专利技术涉及融入先验知识的智能指挥决策模型、系统及方法。

技术介绍

[0002]在构建基于人机融合的智能博弈及推演策略技术架构的基础上,本专利技术开发智能对抗平台系统。在该系统中策略阶段的AI建模将是智能博弈推演的核心环节,然而发现传统强化学习算法训练效果较差。针对该问题,本专利技术在该自主开发的系统中首先尝试利用Q

Leaning算法实现智能决策,但在发现Q

Learning的局限性后,进而构建基于DQN的智能对抗平台行为建模。随后,进一步提出利用先验知识加快DQN算法的收敛速度及稳定性,改进DQN算法,实现人机融合智能决策模型。并通过游戏的平台实验,有效验证本专利技术构建的PK

DQN(Prior Knowledge

DQN)算法的可行性及相较于DQN算法的优势。并且明确验证PK

DQN算法可击败高水平的基于规则的对手,为智能对抗平台领域及智能博弈推演的探索提供先验知识和强化学习结合的工作验证。
[0003]CN201811075660.0面向多领域可扩展智能对抗平台推演平台;CN201510386728.7一种运用栅格矩阵建立兵棋地图地形属性的方法;CN202110078476.7兵棋通视分析方法、终端设备和计算机可读存储介质;CN201810238441.3陆军战术兵棋博弈中坦克战术行为模拟方法及系统和设备等专利虽然对兵棋等推演平台系统进行了改进,但是其对抗性差,训练效果差。

技术实现思路

[0004]本专利技术所要解决的技术问题总的来说是提供一种融入先验知识的智能指挥决策模型、系统及方法。
[0005]为解决上述问题,本专利技术所采取的技术方案是:
[0006]杀伤势能计算流程:
[0007](1)遍历可机动范围内的每个坐标,计算每个坐标对红方的直瞄毁伤期望,存储字典1(直瞄毁伤期望,是在该点对当前敌方坐标的算子,造成毁伤能力的期望值);
[0008](2)遍历可机动范围内的每个坐标,计算在非隐蔽状态下被红方攻击的直瞄毁伤期望,存储字典2;
[0009](3)遍历可机动范围内剩余机动力>=3的坐标,计算在隐蔽状态下被红方攻击的直瞄毁伤期望,更新字典2;
[0010](4)计算每个六角格的杀伤势能存储字典3;
[0011](5)return字典3。
[0012]本专利技术是对智能博弈环境进行总体建模并设计了基于强化学习的智能决策模型,该环境通过实验已验证了可行性,配置了一系列基础功能接口,可实现多个不同类型的算子在不同地图上的对抗。可以为后续更大规模,不同种类的对抗作战推演实验提供验证及效果分析。首先利用Q

Learning算法设计智能博弈算法。Q(s,a)中s是状态,a是动作。Q

Learning算法的主要思想是构造一个Q表,将静态和动作存储到一个Q表中,然后根据Q值选择能获得最大收益的动作。然而,单独使用Q

Learning会存在Q表的存储空间有限的问题。如果状态空间和动作空间很大,我们很难将它们全部存储起来。因此,我们引入了DQN算法。利用函数逼近法解决了状态空间过大、动作空间复杂、计算机内存不足的问题。通过用函数代替Q表来表示Q(s,a),函数可以是线性的,也可以是非线性的。同时,本专利技术利用该平台,验证了DQN算法可应用于对抗推演领域,实现了智能对抗平台的推演,并且明确验证了DQN算法即可击败高水平的基于规则的对手,为智能对抗平台及智能博弈推演的探索提供了第一步的工作验证。同时,针对训练过程中发现DQN训练长期难以收敛,所以引入先验知识改进了DQN算法,建立了人机融合智能决策模型,并以此模型为基础提出了PK

DQN算法。由实验结果可知,PK

DQN模型能够减少训练时的探索次数,使DQN算法训练时间过长的问题得到了改善。说明先验知识的引入提高了DQN算法的性能,对于算法的效率提高有一定的理论意义。
附图说明
[0013]图1是本专利技术的算子移动示意图。
[0014]图2是本专利技术的Q

table的转化示意图。
[0015]图3是本专利技术的算法流程图。
[0016]图4是本专利技术的DQN神经网络结构图。
[0017]图5是本专利技术的智能对抗平台系统总体框架。
[0018]图6是本专利技术的领域专家先验知识流程图。
[0019]图7是本专利技术的计算夺控势能流程图。
[0020]图8是本专利技术的计算杀伤势能流程图。
[0021]图9是本专利技术的智能对抗平台态势数据图。
[0022]图10是本专利技术的智能对抗平台动作选择示意图。
[0023]图11是本专利技术的先验知识与DQN算法融合流程图。
[0024]图12是本专利技术的结合先验知识DQN算法模型示意图。
[0025]图13是本专利技术的以DL服务器、AI服务器、仿真环境和智能辅助决策系统以及数据库环境为基础,构建出智能对抗平台系统架构示意图。
[0026]图14是本专利技术的实验案例示意图。
[0027]图15是本专利技术的DQN算法与PK

DQN算法效果示意图。
[0028]图16是本专利技术的获胜率:红色为基于DQN的AI,蓝色为基于规则的AI(b)获胜次数:红色为基于DQN强化学习算法的AI,蓝色为基于规则的AI;获胜率方面第一轮获胜,所以一方从1开始,另一方从0开始。。
[0029]图17是本专利技术的获胜率:红色为PK

DQN智能算法的AI,蓝色为基于规则的AI(b)获胜次数:红色为基于PK

DQN智能算法的AI,蓝色为基于规则的人工智能;获胜率方面第一轮获胜,所以一方从1开始,另一方从0开始。
[0030]图18是本专利技术的奖励设置表。
具体实施方式
[0031]作为实施例,本专利技术首先介绍智能对抗平台的建模设计,然后引入强化学习中的DQN算法,在推演中引入智能红蓝军,红方AI以DQN算法构建,蓝方AI则以规则构建,通过红蓝对抗博弈,以规则为基础的蓝方算法对以DQN算法的红方算子进行训练,提出构建智能对抗平台领域的专家知识模型,建立基于PK

DQN算法的人机融合智能决策模型。
[0032]强化学习(Reinforcement Learning,RL)作为解决序贯决策(Sequential Decision Making)的重要方法,近年来在人工智能领域与深度学习紧密结合,取得了显著的效果,成为当前突破认知智能的代表性机器学习方法。这种强化学习的机制与方法,由于契合了指挥人员面向复杂作战问题的决策思维方式,因而可以作为方案仿真推演与评估的关键性技术加以运用。
[0033]S1.智能对抗平台建模设计
[0034]所述智本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融入先验知识的智能指挥决策模型方法,其特征在于,首先介绍智能对抗平台的建模设计,然后引入强化学习中的DQN算法,在推演中引入智能红蓝军,红方AI以DQN算法构建,蓝方AI则以规则构建,通过红蓝对抗博弈,以规则为基础的蓝方算法对以DQN算法的红方算子进行训练,提出构建智能对抗平台领域的专家知识模型,建立基于PK

DQN算法的人机融合智能决策模型。2.根据权利要求1所述的融入先验知识的智能指挥决策模型方法,其特征在于,S1.智能对抗平台建模设计;S2.智能对抗平台先验知识构建。3.根据权利要求2所述的融入先验知识的智能指挥决策模型方法,其特征在于,S3.制定基于DQN算法的红方行动策略。4.根据权利要求2所述的融入先验知识的智能指挥决策模型方法,其特征在于,所述智能对抗平台系统建模设计主要由四个模块组成:推演环境模块、分配模块、存储记忆模块、学习模块;推演环境模块设置若干推演场次,并输出给分配模块,分配模块输出信息给存储记忆模块,存储记忆模块输出信息给学习模块进行决策学习;所述前提,硬件设备包括输入端、处理器、存储器、显示器、网络端、上位机、兵棋盘、兵棋杆、摄像头及传感器;处理器电连接输入端、摄像头、存储器、显示器、网络端;网络端连接上位机;设备还包括红蓝方算子、具有六角格并采用x

y坐标的兵棋盘及兵棋杆;传感器布置在兵棋盘上及红蓝方棋子,在兵棋盘上分布有指示灯,兵棋杆用于拨送红蓝方棋子在兵棋盘上移动;推演环境模块包含交互的推演环境与AI模型、定义推演环境的基本功能、存入推演的基本参数;其中,基本功能包括判断胜利条件、检查回合数及读入推演想定;基本参数包括红蓝得分数、红蓝击杀数、红蓝存活数以及红蓝获胜数;在推演环境模块生成红蓝两方的对抗环境,设定确定的回合数,在回合数内进行自我博弈。5.根据权利要求2所述的融入先验知识的智能指挥决策模型方法,其特征在于,分配模块,负责从推演环境模块收集每次步骤step所得到的样例数据,并把收集到的数据以数组形式传入存储记忆模块,样例数据包括当前状态、回报值、行动以及下一步状态;存储记忆模块,占用存储器空间,把分配模块分配输出的数组数据依次传入并存储;当存储数组数据大于所占用存储器空间时,剔除存储器空间之前占用数据,同时,提取batch size大小的数据传入学习模块进行策略网络更新,降低loss函数;学习模块,借助于处理器及存储器,通过调用batch size中的状态、动作、回报值和下一步状态,不断的更新神经网络参数,为了高效率的减少cost函数值,学习模块和存储记忆模块共同使用一块存储结构,经过学习模块通过先验知识训练好的模型以点对点的形式快速同步到推演环境模块,进而实现模型对动作的选择。6.根据权利要求2所述的融入先验知识的智能指挥决策模型方法,其特征在于,先验知识分包括智能对抗平台行动的基本定义及在领域专家经验基础上的先验知识,从而可以加快训练过程的收敛;智能对抗平台行动的基本定义实现的先验知识,通过基础功能的调用进而实现智能对抗平台的算法,最终实现智能引擎的建立。7.根据权利要求6所述的融入先验知识的智能指挥决策模型方法,其特征在于,基本定义包括
获取移动位置坐标,首先,初始化出发位置,在想定中进行赋值,计算每个算子的x,y坐标,获取周围六角格的坐标;然后,在获取的六角格坐标中选择一个坐标进行赋值;其次,进行坐标移动,移动方向包括东、西、东北、西北、东南、西南六个方向;获取射击奖励积分,首先,对敌方算子进行射击,获取敌方算子的坐标,进而判断射击后敌方算子是否存在,如果存在且坐标对应符合敌方算子坐标,即获的相应的奖励积分,否则不得分;获取射击效果,首先,获取算子的坐标位置,通过调用可视函数判断是否可对敌方算子进行观察,如果观察到可射击的目标,根据敌方与距离设定打击效果;获取相邻坐标,输入算子x,y坐标,代表六角格的坐标,输出清单list列表,以列表形式表示周围设定距离的六角格坐标;查询两个六角格之间的距离,输入x0,y0,x1,y1为int的坐标,分别表示起点六角格坐标和终点六角格坐标,输出表示两个六角格之间的距离;获取算子状态信息,获取算子的当前坐标以及回合机动状态;检查算子能否观察对方算子,借助于输入端,输入对方算子状态信息,若确定为可观察对方算子,则输出true,否则输出false;对抗规则是红蓝双方进行对抗,双方算子可进行机动、遮蔽、直瞄射击以及间瞄射击,其中机动是指输入x,y坐标,代表相邻六角格的坐标,输出效果,算子进行移动;遮蔽是保证算子进入隐蔽状态,不利于被攻击;直瞄射击是输入敌方算子,输出相应射击效果,射击敌方算子;输入x,y代表目标六角格坐标,输出效果,间瞄目标六角格。8.根据权利要求7所述的融入先验知识的智能指挥决策模型方法,其特征在于,领域专家先验知识包括算子的移动策略、射击策略以及走子策略;走子策略采用以既往对抗的数据构建;移动策略、射击策略以及走子策略形成静态的综合势能表,仿真实现了领域专家的先验知识;通过领域专家的先验知识结合DQN算法实现loss函数的加速收敛。9.根据权利要求2所述的融入先验知识的智能指挥决策模型方法,其特征在于,领域专家先验知识的算子行动策略;首先,读取红蓝双方所在位置、地形和夺控点信息;然后,以夺控点为中心,计算夺控点周围能够一个回合内机动到夺控点的坐标,存储这个坐标列表;其次,判断算子当前坐标是否在这个列表,如果在,计算机动的最短路径,并沿路径向夺控点机动1格;再次...

【专利技术属性】
技术研发人员:卫翔杨家轩刘星璇范学满
申请(专利权)人:中国人民解放军海军潜艇学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1