【技术实现步骤摘要】
一种基于课程学习的无人机对抗决策优化方法
[0001]本专利技术涉及无人机决策
,涉及一种基于课程学习的无人机对抗决策优化方法,具体涉及一种基于课程学习辅助深度强化学习的无人机对抗决策训练优化方法
。
技术介绍
[0002]无人机空战对抗问题已成为研究热点,目前已在忠诚僚机
、
空战演进
(Air Combat Evolution
,
ACE)、Skyborg、Alpha AI
等项目中取得了重大进展
。
[0003]空战决策是空战对抗的核心问题,由于空战对抗中无人机往往进行高速大机动飞行,空战态势高动态变化,且作战环境复杂,对敌信息感知不完全,因此如何面向信息不确定
、
高动态
、
强对抗的空战环境,进行实时决策十分关键
。
空战对抗决策的算法分为基于专家知识
、
博弈理论
、
优化理论
、
深度强化学习
。
[0004]传统的基于规则的专家系统针对特定场景进行建模分析,适用性较差,已无法满足智能作战需求;基于博弈理论的空战对抗决策主要分为微分博弈和矩阵博弈,常用于解决一对一空战对抗问题,其中,微分博弈建立状态
‑
决策微分博弈方程,求解在约束条件下的纳什均衡解作为最优策略,但是求解计算复杂
、
灵活性差;矩阵博弈实质是微分博弈的离散化,随着决策空间广度和深度的加大,求解时间急剧增加;空战对抗机动 ...
【技术保护点】
【技术特征摘要】
1.
一种基于课程学习的无人机对抗决策优化方法,其特征在于,具体包括:
S1、
基于空战双方无人机的位置
、
速度
、
姿态,构建无人机空战对抗运动模型;将所述无人机空战对抗运动模型结合空战态势要素,基于优势函数法建立空战态势评估模型;
S2、
使用步骤
S1
所述无人机空战对抗运动模型分别设计深度强化学习算法的状态空间和动作空间;基于无人机空战对抗运动模型
、
空战态势评估模型以及所述状态空间和动作空间获取空战对抗的状态转移函数并设计奖励函数;基于所述状态空间
、
动作空间
、
状态转移函数和奖励函数建立无人机空战对抗决策的马尔可夫决策过程;
S3、
利用步骤
S2
所述状态空间和动作空间设计网络空间;基于所述状态空间
、
动作空间
、
网络空间以及步骤
S2
所述马尔可夫决策过程,构建深度强化学习算法;
S4、
基于所述空战态势评估模型对所述奖励函数进行重塑,获得重塑后奖励函数;基于所述重塑后奖励函数和所述深度强化学习算法训练所述网络空间;将步骤
S2
所述奖励函数基于课程学习进行改进,获取改进后的奖励函数,使用所述改进后的奖励函数对训练过程进行优化,获得训练后的网络空间;基于所述训练后的网络空间建立无人机空战对抗策略模型;
S5、
使用步骤
S4
所述无人机空战对抗策略模型进行无人机空战对抗
。2.
根据权利要求1所述的无人机对抗决策优化方法,其特征在于,步骤
S1
所述无人机空战对抗运动模型包括:无人机质点运动模型和相对运动模型;所述空战态势要素包括:空战双方无人机的角度
、
高度
、
速度和距离
。3.
根据权利要求1所述的无人机对抗决策优化方法,其特征在于,所述空战态势评估模型的表达式为:
S
=
k1*S
a
+k2*S
h
+k3*S
v
+k4*S
d
其中,
S
为红方无人机空战态势评估值,
S
a
为红方无人机空战角度的态势评估值,
S
h
为红方无人机空战高度的态势评估值,
S
v
为红方无人机空战速度的态势评估值,
S
d
为红方无人机空战距离的态势评估值;
k1表示红方无人机空战角度的态势对应的权重,
k2表示红方无人机空战高度的态势对应的权重,
k3表示红方无人机空战速度的态势对应的权重,
k4表示红方无人机空战距离的态势对应的权重
。4.
根据权利要求1所述的无人机对抗决策优化方法,其特征在于,所述状态空间基于所述无人机空战对抗运动模型获取相对状态与绝对状态,将所述相对状态与绝对状态...
【专利技术属性】
技术研发人员:池沛,安乐,赵江,吴坤,王英勋,
申请(专利权)人:北京航空航天大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。