【技术实现步骤摘要】
一种实现兵棋推演智能决策的系统和方法
[0001]本专利技术属于计算机兵棋推演
,涉及一种实现兵棋推演智能决策的系统和方法。
技术介绍
[0002]兵棋(wargame)是现代战争模拟的起源之一。现代类型的兵棋是由普鲁士的战争顾问冯
·
莱斯维茨于1811年专利技术的,它由地图、棋子、对阵人、裁判、详细规则、概率表和骰子组成,用这套兵棋,可以逼真地模拟战场的实际作战活动。对兵棋的概念可以做如下描述,兵棋是指基于表示战场环境和军事力量的地图和棋子,依据从战争经验、演习和研究实验中抽象积累的规则和数据,通过建立行动概率表体现战场不确定性,运用随机方式体现战场偶然性,用回合制抽象作战时间和指挥周期,对博弈各方一系列决策活动进行模拟推演和分析研究的工具。未来战争中,利用兵棋推演,可以预测对手的作战策略,提前制定应对战场变化的谋略;和平时期,它是提高军事指挥人员的指挥能力和谋略水平不可多得且非常有效的训练工具。
[0003]兵棋分为手工版和计算机版两种形式。手工版兵棋具有规则开放、便于修改的优点,但其推演 ...
【技术保护点】
【技术特征摘要】
1.一种实现兵棋推演智能决策的系统,包括任务想定模块、资源配置模块、数据管理模块,其特征在于,还包括导调控制模块、推演引擎模块、智能对抗训练接口模块和智能训练与决策模块;任务想定模块用于设定作战目标、战场环境数据、作战规则、作战任务序列,并发送给资源配置模块、导调控制模块和数据管理模块;资源配置模块用于设定红蓝双方参与作战仿真推演的装备、装备功能和装备的性能指标,并发送给导调控制模块和数据管理模块;导调控制模块设定当前推演为智能训练模式或智能决策模式,并设置推演过程的开始、暂停、加速、恢复、结束;推演引擎模块用于作战仿真自动推演,并将每一步推演的状态数据发送给智能对抗训练接口模块和数据管理模块;智能对抗训练接口模块一方面用于将接收的状态数据转换为状态向量发送给智能训练与决策模块;智能训练与决策模块接收状态向量作为训练数据集进行训练,生成对抗策略向量,发送给智能对抗训练接口模块;智能对抗训练接口模块另一方面用于接收对抗策略向量,并将对抗策略向量进行解析得到装备的动作命令,发送给推演引擎模块,使推演引擎模块执行接收的动作命令;数据管理模块用于存储推演过程和结果数据。2.根据权利要求1所述的一种实现兵棋推演智能决策的系统,其特征在于,所述推演引擎模块推演的状态数据包括装备的编号:使用8位整数表示;装备的存亡状态:使用1位整数表示,0表示阵亡,1表示存活;装备的位置:使用三维坐标形式表示;装备的功能:所述功能包括侦察、机动、打击、防卫,以每一位为0或1的4位数表示:0表示不具备该功能,1表示具备该功能;装备的性能:通过将性能指标的数值填充到预定义的X位数据段表示,X>1;战场环境数据:包括雨雪风雾的等级,均分为8个等级,用整数1~8表示这8个等级。3.根据权利要求2所述的一种实现兵棋推演智能决策的系统,其特征在于,在智能训练模式时,所述推演引擎模块进行自动推演的方式为:将每个装备的动作类型A分为4类,分别是侦察、机动、打击和防卫;在每一步推演开始时,红方所有具有侦察能力的装备进行对敌侦察,获得蓝方目标的位置信息;定义一条打击选项为红方的i号装备打击蓝方的j号装备;基于红方装备的打击范围罗列出所有的打击选项,将所有打击选项的集合记为Q,从集合Q中随机选择一条打击选项作为当前推演执行的打击动作;如果蓝方所有目标都在红方装备的打击范围之外,则集合Q为空集,此时装备执行机动动作:确定机动动作选项集合为M,从集合M中随机选择一条机动动作作为当前推演执行的机动动作;当装备机动到蓝方目标在打击范围之内时,根据红方装备的打击范围更新集合Q执行打击动作;通过侦察获得蓝方装备的位置信息,当蓝方装备本身或蓝方装备发射的攻击武器向红方装备移动时,表示红方装备正在或将要被攻击,基于红方装备的防卫能力罗列出所有的防卫选项,所有防卫选项的集合记为D,从集合D中随机选择一条防卫选项作为这一步推演执行的防卫动作;自动推演每推进一步,将得到新的状态数据,并通过智能对抗训练接口模块将新状态数据转换为状态向量。4.根据权利要求3所述的一种实现兵棋推演智能决策的系统,其特征在于,所述一条打击选项的形式为:H
i
装备打击B
j
装备,其中,H
i
装备表示红方的i号装备,B
j
装备表示蓝方的j
号装备;所述一条机动动作的形式为:H
i
装备向B
j
装备机动。5.根据权利要求3所述的一种实现兵棋推演智能决策的系统,其特征在于,智能对抗训练接口模块接收状态数据后,将状态数据转换为状态向量的方法为:每个参战装备的状态数据转换为S
i
=<U,L,P,F,I,E,>向量形式,其中i表示第i个装备,i=1,
…
,n,n为装备数量;U表示装备编号,L表示装备存亡状态;P表示装备当前的位置;F表示装备当前的功能;I表示装备的性能指标参数;E表示战场环境;将各个参战装备按照序号顺序拼接成一个向量,则整个推演系统的状态向量为V=<S1,S2,
…
,S
n
>。6.根据权利要求3所述的一种实现兵棋推演智能决策的系统,其特征在于,所述推演引擎模块通过自动推演完成一次仿真推演任务后,智能对抗训练接口模块将状态数据全部转换为状态向量发送到智能训练与决策模块,智能训练与决策模块使用基于马尔科夫决策过程的强化学习方法建立训练模型,训练模型的输入数据...
【专利技术属性】
技术研发人员:吴耀军,李志,蒙波,黄剑斌,黄良伟,张志民,庞羽佳,黄龙飞,韩旭,史也,
申请(专利权)人:中国空间技术研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。