【技术实现步骤摘要】
融入先验知识的智能指挥决策模型、系统及方法
[0001]本专利技术涉及融入先验知识的智能指挥决策模型、系统及方法。
技术介绍
[0002]在构建基于人机融合的智能博弈及推演策略技术架构的基础上,本专利技术开发智能对抗平台系统。在该系统中策略阶段的AI建模将是智能博弈推演的核心环节,然而发现传统强化学习算法训练效果较差。针对该问题,本专利技术在该自主开发的系统中首先尝试利用Q
‑
Leaning算法实现智能决策,但在发现Q
‑
Learning的局限性后,进而构建基于DQN的智能对抗平台行为建模。随后,进一步提出利用先验知识加快DQN算法的收敛速度及稳定性,改进DQN算法,实现人机融合智能决策模型。并通过游戏的平台实验,有效验证本专利技术构建的PK
‑
DQN(Prior Knowledge
‑
DQN)算法的可行性及相较于DQN算法的优势。并且明确验证PK
‑
DQN算法可击败高水平的基于规则的对手,为智能对抗平台领域及智能博弈推演的探索提供先验知识和强化学习结合的工作验证。
[0003]CN201811075660.0面向多领域可扩展智能对抗平台推演平台;CN201510386728.7一种运用栅格矩阵建立兵棋地图地形属性的方法;CN202110078476.7兵棋通视分析方法、终端设备和计算机可读存储介质;CN201810238441.3陆军战术兵棋博弈中坦克战术行为模拟方法及系统和设备等专利虽然对兵棋等推演平台系统进行了改进 ...
【技术保护点】
【技术特征摘要】
1.一种融入先验知识的智能指挥决策模型方法,其特征在于,首先介绍智能对抗平台的建模设计,然后引入强化学习中的DQN算法,在推演中引入智能红蓝军,红方AI以DQN算法构建,蓝方AI则以规则构建,通过红蓝对抗博弈,以规则为基础的蓝方算法对以DQN算法的红方算子进行训练,提出构建智能对抗平台领域的专家知识模型,建立基于PK
‑
DQN算法的人机融合智能决策模型。2.根据权利要求1所述的融入先验知识的智能指挥决策模型方法,其特征在于,S1.智能对抗平台建模设计;S2.智能对抗平台先验知识构建。3.根据权利要求2所述的融入先验知识的智能指挥决策模型方法,其特征在于,S3.制定基于DQN算法的红方行动策略。4.根据权利要求2所述的融入先验知识的智能指挥决策模型方法,其特征在于,所述智能对抗平台系统建模设计主要由四个模块组成:推演环境模块、分配模块、存储记忆模块、学习模块;推演环境模块设置若干推演场次,并输出给分配模块,分配模块输出信息给存储记忆模块,存储记忆模块输出信息给学习模块进行决策学习;所述前提,硬件设备包括输入端、处理器、存储器、显示器、网络端、上位机、兵棋盘、兵棋杆、摄像头及传感器;处理器电连接输入端、摄像头、存储器、显示器、网络端;网络端连接上位机;设备还包括红蓝方算子、具有六角格并采用x
‑
y坐标的兵棋盘及兵棋杆;传感器布置在兵棋盘上及红蓝方棋子,在兵棋盘上分布有指示灯,兵棋杆用于拨送红蓝方棋子在兵棋盘上移动;推演环境模块包含交互的推演环境与AI模型、定义推演环境的基本功能、存入推演的基本参数;其中,基本功能包括判断胜利条件、检查回合数及读入推演想定;基本参数包括红蓝得分数、红蓝击杀数、红蓝存活数以及红蓝获胜数;在推演环境模块生成红蓝两方的对抗环境,设定确定的回合数,在回合数内进行自我博弈。5.根据权利要求2所述的融入先验知识的智能指挥决策模型方法,其特征在于,分配模块,负责从推演环境模块收集每次步骤step所得到的样例数据,并把收集到的数据以数组形式传入存储记忆模块,样例数据包括当前状态、回报值、行动以及下一步状态;存储记忆模块,占用存储器空间,把分配模块分配输出的数组数据依次传入并存储;当存储数组数据大于所占用存储器空间时,剔除存储器空间之前占用数据,同时,提取batch size大小的数据传入学习模块进行策略网络更新,降低loss函数;学习模块,借助于处理器及存储器,通过调用batch size中的状态、动作、回报值和下一步状态,不断的更新神经网络参数,为了高效率的减少cost函数值,学习模块和存储记忆模块共同使用一块存储结构,经过学习模块通过先验知识训练好的模型以点对点的形式快速同步到推演环境模块,进而实现模型对动作的选择。6.根据权利要求2所述的融入先验知识的智能指挥决策模型方法,其特征在于,先验知识分包括智能对抗平台行动的基本定义及在领域专家经验基础上的先验知识,从而可以加快训练过程的收敛;智能对抗平台行动的基本定义实现的先验知识,通过基础功能的调用进而实现智能对抗平台的算法,最终实现智能引擎的建立。7.根据权利要求6所述的融入先验知识的智能指挥决策模型方法,其特征在于,基本定义包括
获取移动位置坐标,首先,初始化出发位置,在想定中进行赋值,计算每个算子的x,y坐标,获取周围六角格的坐标;然后,在获取的六角格坐标中选择一个坐标进行赋值;其次,进行坐标移动,移动方向包括东、西、东北、西北、东南、西南六个方向;获取射击奖励积分,首先,对敌方算子进行射击,获取敌方算子的坐标,进而判断射击后敌方算子是否存在,如果存在且坐标对应符合敌方算子坐标,即获的相应的奖励积分,否则不得分;获取射击效果,首先,获取算子的坐标位置,通过调用可视函数判断是否可对敌方算子进行观察,如果观察到可射击的目标,根据敌方与距离设定打击效果;获取相邻坐标,输入算子x,y坐标,代表六角格的坐标,输出清单list列表,以列表形式表示周围设定距离的六角格坐标;查询两个六角格之间的距离,输入x0,y0,x1,y1为int的坐标,分别表示起点六角格坐标和终点六角格坐标,输出表示两个六角格之间的距离;获取算子状态信息,获取算子的当前坐标以及回合机动状态;检查算子能否观察对方算子,借助于输入端,输入对方算子状态信息,若确定为可观察对方算子,则输出true,否则输出false;对抗规则是红蓝双方进行对抗,双方算子可进行机动、遮蔽、直瞄射击以及间瞄射击,其中机动是指输入x,y坐标,代表相邻六角格的坐标,输出效果,算子进行移动;遮蔽是保证算子进入隐蔽状态,不利于被攻击;直瞄射击是输入敌方算子,输出相应射击效果,射击敌方算子;输入x,y代表目标六角格坐标,输出效果,间瞄目标六角格。8.根据权利要求7所述的融入先验知识的智能指挥决策模型方法,其特征在于,领域专家先验知识包括算子的移动策略、射击策略以及走子策略;走子策略采用以既往对抗的数据构建;移动策略、射击策略以及走子策略形成静态的综合势能表,仿真实现了领域专家的先验知识;通过领域专家的先验知识结合DQN算法实现loss函数的加速收敛。9.根据权利要求2所述的融入先验知识的智能指挥决策模型方法,其特征在于,领域专家先验知识的算子行动策略;首先,读取红蓝双方所在位置、地形和夺控点信息;然后,以夺控点为中心,计算夺控点周围能够一个回合内机动到夺控点的坐标,存储这个坐标列表;其次,判断算子当前坐标是否在这个列表,如果在,计算机动的最短路径,并沿路径向夺控点机动1格;再次...
【专利技术属性】
技术研发人员:卫翔,杨家轩,刘星璇,范学满,
申请(专利权)人:中国人民解放军海军潜艇学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。