一种基于深度随机博弈的空战机动策略生成技术制造技术

技术编号:26650852 阅读:22 留言:0更新日期:2020-12-09 00:51
本发明专利技术公开了一种基于深度随机博弈的近距空战机动策略生成技术,包括以下步骤:首先,依据1V1近距空战流程构建战机博弈对抗的训练环境,并设置敌方机动策略;其次,以随机博弈为标准,构建空战对抗双方的智能体,确定每个智能体的状态空间、动作空间和奖励函数;然后,使用随机博弈与深度强化学习相结合的极大极小值DQN算法构建神经网络,并训练我方智能体;最后,根据训练好的神经网络,通过线性规划方法得到空战态势下的最优机动策略,与敌方进行博弈对抗。本发明专利技术结合了随机博弈与深度强化学习的思想,提出了极大极小值DQN算法来获取一种最优的空战机动策略,可以应用于现有的空战机动引导系统中,能够实时准确地做出有效决策引导战机占据有利的态势位置。

【技术实现步骤摘要】
一种基于深度随机博弈的空战机动策略生成技术
本专利技术涉及空战博弈机动策略生成
,特别设计一种基于深度随机博弈的空战机动策略生成技术。
技术介绍
空中力量在现代战争中起着越来越重要的作用,制空权的争夺很大程度上决定了战争的胜负。然而空中作战形势瞬息万变,需要采集的信息极为复杂,使得作战方在感知空战态势后做出决策变得困难,传统方法无法实现一种快速准确的空战策略。本专利技术提出了一种基于深度随机博弈的空战机动策略生成技术,该方法结合了深度强化学习和随机博弈的思想,能够有效地针对空战对手的行动策略实时地选择有利于我方的机动动作并取得优势地位,对空战博弈对抗中制空权的争夺具有重要意义。
技术实现思路
本专利技术提供了一种基于深度随机博弈的空战机动策略生成技术,旨在感知空战态势后快速准确地获取一种能有效对抗对手的最优机动策略。实现本专利技术的技术方案为:一种基于深度随机博弈的空战机动策略生成技术,包括如下步骤:S1:根据飞机的运动学和动力学方程,构建双方战机的运动模型,结合空战规则,建立智能体的训练环境,并设置敌方机动策略;S2:构建基于随机博弈和深度强化学习的红蓝双方智能体,确定每个智能体的状态空间、动作空间和奖励函数;S3:使用随机博弈与深度强化学习相结合的极大极小值DQN算法构建神经网络,并训练红方智能体;S4:在空战博弈中,训练完成的红方智能体通过感知当前的空战态势,实时地生成最优机动策略,与蓝方进行博弈对抗,引导战机在空战中占据有利的态势位置。作为优选的技术方案,步骤S3中,所述极大极小值DQN算法训练智能体的过程包括:S301:利用DQN处理战机的连续无限状态空间,创建两个神经网络,分别为当前Q网络和目标Q网络,初始化当前Q网络参数为θ,目标Q网络参数为θ-=θ。神经网络的输入为战机的状态特征,输出为该状态下所有红方可选动作a与蓝方可选动作o对应的状态动作值函数Q(s,a,o);S302:将智能体与环境交互得到的当前状态s、红方采取的动作a、蓝方采取的动作o、红方获取的奖励值r以及执行动作到达的下一状态s'作为一个五元组{s,a,o,r,s'}存储到记忆池;S303:从记忆池中随机抽取一定大小的数据作为训练样本,将训练样本的s'值作为神经网络的输入,根据神经网络输出得到状态s'下的Q[s'];S304:采用极大极小值算法求解随机博弈状态s下的最优值函数为根据公式使用线性规划得到极大极小状态值V[s'],再根据公式target_q=(1-α)*Q[s,a,o,θ-]+α*(r+γ·V[s'])计算出目标Q值target_q,式中α代表学习效率,r代表当前获得的奖励;γ代表折扣因子,是对未来奖励的衰减;S305:计算损失函数loss=(target_q-Q(s,a,o,θ))2,采用梯度下降法进行优化,更新当前Q网络参数。作为优选的技术方案,步骤S4中,所述生成最优机动策略的方法是根据公式使用训练好的神经网络输出的Q值进行线性规划求解得到最优策略π,红方智能体根据策略π采用轮盘赌选法选择动作,引导战机占据有利态势位置。本专利技术相对于现有技术具有如下的优点和效果:1.本专利技术利用基于深度强化学习的技术,大大提高了计算效率,能够在5ms内生成一条指令,保证了策略生成的实时性。2.本专利技术构建仿真环境,引入深度强化学习等方法探索一种近距空战机动策略智能生成技术,通过搭建面向深度强化学习的仿真环境,利用DQN算法训练网络生成指令,具有较高的适应性和智能性。3.本专利技术结合随机博弈的思想,通过极大极小值算法求纳什均衡解,与传统方法相比,能够更加准确地针对对手可能执行的最优决策来选择自己的机动策略,从而可以有效应对高决策水平的对手,提高了我方博弈对抗的胜率。附图说明图1为本专利技术实施例的步骤流程图;图2为本专利技术实施例的红蓝双方战机相对几何关系图;图3为本专利技术实施例的极大极小值DQN算法训练过程示意图;图4为本专利技术实施例的极大极小值DQN算法流程图;具体实施方式为了使本专利技术的目的、技术方案以及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步的详细说明。应当理解,此处所描述的具体实施例仅用于解释本专利技术,并不用于限定本专利技术。在本实施例中,红蓝双方战机进行1V1近距空战机动博弈,一种基于深度随机博弈的空战机动策略生成技术,智能化生成机动策略,引导红方战机在空战中到达有利态势位置;如图1所示,该方法包括下述步骤:S1:根据飞机的运动学和动力学方程,构建双方战机的运动模型,结合空战规则,建立智能体的训练环境,并设置敌方机动策略;S2:构建基于随机博弈和深度强化学习的红蓝双方智能体,确定每个智能体的状态空间、动作空间和奖励函数;S3:使用随机博弈与深度强化学习相结合的极大极小值DQN算法构建神经网络,并训练红方智能体;S4:在空战博弈中,训练完成的红方智能体通过感知当前的空战态势,实时地生成最优机动策略,与蓝方进行博弈对抗,引导战机在空战中占据有利的态势位置。所述步骤S1具体包括以下步骤:在本实施例中,设定空战博弈的环境,空域范围限制在水平面内,水平面横坐标x∈[-10km,10km],水平面纵坐标y∈[-10km,10km]。根据飞机的运动学和动力学方程,构建战机的运动模型如下:其中,(xpos,ypos)表示战机在坐标系下的位置,υ表示战机速度,ψ表示航迹偏角,φ和分别表示滚转角和滚转角变化率,其中航迹偏角的限制范围为[-180°,180°],滚转角的范围根据实际飞机最大转弯能力限制;在本实施例中,红方战机的目标是在蓝方战机背后取得并保持优势地位,使用视界角(AA)和天线偏转角(ATA)来量化这个优势位置,航向交叉角(HCA)也用于描述红蓝战机之间的朝向差异。红蓝双方战机相对几何关系如图2所示。所述步骤S2具体包含以下步骤:根据影响战机空战态势的因素,构建红蓝双方基于随机博弈的状态空间为其中,表示红方战机的坐标位置、表示蓝方战机坐标位置、和φr表示红方战机的航迹偏角与滚转角,和φb表示蓝方战机的航迹偏角与滚转角;在本实施例中,战机的可选机动动作设置为向左滚转、维持滚转和向右滚转,分别用L,S,R代表这3种可选动作,构建离散的动作空间,红方的动作空间为Ar={L,S,R},蓝方动作空间为Ab={L,S,R};在本实施例中,战机的优势奖励函数主要根据视界角(AA)和天线偏转角(ATA)来量化。战机占据有利态势需要满足的要求如下:其中,D表示红蓝双方战机的欧氏距离,Dmin和Dmax分别表示满足优势态势的最小与最大距离,本实施例中分别为100米和500米,AA表示战机的视界角,其绝对值应小于AAmax,本实施例中为60度,ATA表示战机的天线偏转角,其绝对值应小于ATAmax,本实施例中为30度。同时满足上式三个条件则判定战机取得优势,并获得奖励本文档来自技高网...

【技术保护点】
1.一种基于深度随机博弈的空战机动策略生成技术,其特征在于,包括以下步骤:/nS1:根据飞机的运动学和动力学方程,构建双方战机的运动模型,结合空战规则,建立智能体的训练环境,并设置敌方机动策略;/nS2:构建基于随机博弈和深度强化学习的红蓝双方智能体,确定每个智能体的状态空间、动作空间和奖励函数;/nS3:使用随机博弈与深度强化学习相结合的极大极小值DQN算法构建神经网络,并训练红方智能体;/nS4:在空战博弈中,训练完成的红方智能体通过感知当前的空战态势,实时地生成最优机动策略,与蓝方进行博弈对抗,引导战机在空战中占据有利的态势位置。/n

【技术特征摘要】
1.一种基于深度随机博弈的空战机动策略生成技术,其特征在于,包括以下步骤:
S1:根据飞机的运动学和动力学方程,构建双方战机的运动模型,结合空战规则,建立智能体的训练环境,并设置敌方机动策略;
S2:构建基于随机博弈和深度强化学习的红蓝双方智能体,确定每个智能体的状态空间、动作空间和奖励函数;
S3:使用随机博弈与深度强化学习相结合的极大极小值DQN算法构建神经网络,并训练红方智能体;
S4:在空战博弈中,训练完成的红方智能体通过感知当前的空战态势,实时地生成最优机动策略,与蓝方进行博弈对抗,引导战机在空战中占据有利的态势位置。


2.根据权利要求1所述的一种基于深度随机博弈的空战机动策略生成技术,其特征在于:步骤S3中,所述极大极小值DQN算法训练智能体的过程包括:
S301:利用DQN处理战机的连续无限状态空间,创建两个神经网络,分别为当前Q网络和目标Q网络,初始化当前Q网络参数为θ,目标Q网络参数为θ-=θ。神经网络的输入为战机的状态特征,输出为该状态下所有红方可选动作a与蓝方可选动作o对应的状态动作值函数Q(s,a,o);
S302:将智能体与环境交...

【专利技术属性】
技术研发人员:马文王壮吴昭欣李辉
申请(专利权)人:成都蓉奥科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1