一种基于课程学习的无人机对抗决策优化方法技术

技术编号:39831456 阅读:8 留言:0更新日期:2023-12-29 16:12
本发明专利技术涉及一种基于课程学习的无人机对抗决策优化方法,属于无人机决策技术领域,本发明专利技术的技术方案建立了无人机三自由度质点模型,同时关注空战中动态几何要素,基于角度

【技术实现步骤摘要】
一种基于课程学习的无人机对抗决策优化方法


[0001]本专利技术涉及无人机决策
,涉及一种基于课程学习的无人机对抗决策优化方法,具体涉及一种基于课程学习辅助深度强化学习的无人机对抗决策训练优化方法


技术介绍

[0002]无人机空战对抗问题已成为研究热点,目前已在忠诚僚机

空战演进
(Air Combat Evolution

ACE)、Skyborg、Alpha AI
等项目中取得了重大进展

[0003]空战决策是空战对抗的核心问题,由于空战对抗中无人机往往进行高速大机动飞行,空战态势高动态变化,且作战环境复杂,对敌信息感知不完全,因此如何面向信息不确定

高动态

强对抗的空战环境,进行实时决策十分关键

空战对抗决策的算法分为基于专家知识

博弈理论

优化理论

深度强化学习

[0004]传统的基于规则的专家系统针对特定场景进行建模分析,适用性较差,已无法满足智能作战需求;基于博弈理论的空战对抗决策主要分为微分博弈和矩阵博弈,常用于解决一对一空战对抗问题,其中,微分博弈建立状态

决策微分博弈方程,求解在约束条件下的纳什均衡解作为最优策略,但是求解计算复杂

灵活性差;矩阵博弈实质是微分博弈的离散化,随着决策空间广度和深度的加大,求解时间急剧增加;空战对抗机动决策问题采用优化理论求解多目标优化问题;传统的优化算法求解需遍历整个搜索空间,效率低

因此需要研究一种更加高效

实时准确的求解算法来获取面向高动态

强对抗

信息不确定的复杂空战环境中无人机实时准确的决策方法


技术实现思路

[0005]鉴于上述问题,本专利技术提供了一种基于课程学习的无人机对抗决策优化方法,依据深度强化学习算法设计空战对抗动作空间

状态空间

奖励函数

网络空间,基于
SAC
算法训练获取无人机空战决策方法,结合课程学习优化训练过程,实现无人机空战对抗智能决策

[0006]本专利技术的第一个目的在于提供一种基于课程学习的无人机对抗决策优化方法,具体提供了一种基于课程学习辅助深度强化学习的无人机对抗决策优化方法,具体包括:
[0007]S1、
基于空战双方无人机的位置

速度

姿态,构建无人机空战对抗运动模型;将所述无人机空战对抗运动模型结合空战态势要素,基于优势函数法建立空战态势评估模型;
[0008]优选的,步骤
S1
所述无人机空战对抗运动模型包括:无人机质点运动模型和相对运动模型;
[0009]所述空战态势要素包括:空战双方无人机的角度

高度

速度

距离

[0010]进一步的,建立所述无人机空战对抗运动模型,所述无人机空战对抗运动模型适用于红蓝双方无人机,具体步骤包括:
[0011]分别获取红蓝双方无人机在惯性坐标系下
x

y

z
轴的运动信息集,基于所述运动信息集建立三自由度质点模型;所述运动信息集包括位置矢量

速度大小

航迹倾角

航迹
偏角;
[0012]更进一步,所述三自由度质点模型表达式为:
[0013][0014][0015]其中,为无人机
x
轴方向变化率,为无人机
y
轴方向变化率,为无人机
z
轴方向变化率,
Y
轴是前进方向轴;
V
为无人机的速度大小,
γ
为无人机的航迹倾角,
χ
为无人机的航迹偏角,为无人机速度大小变化率,
g
为重力加速度;
n
y
为无人机沿飞行速度方向,表示无人机的切向过载;为航迹倾角变化率;
n
z
为无人机垂直于飞行速度方向,表示无人机法向过载,
μ
为无人机绕速度轴的滚转角,为航迹偏角变化率

[0016]进一步的,建立所述无人机相对运动模型,如图2所示,表达式为:
[0017]v
r

[V
r
cos
γ
r sin
χ
r

V
r
cos
γ
r cos
χ
r

V
r
sin
γ
r
][0018]v
b

[V
b cos
γ
b sin
χ
b

V
b cos
γ
b cos
χ
b

V
b sin
γ
b
][0019]d
R

[x
b

x
r

y
b

y
r

z
b

z
r
][0020][0021][0022]其中,假定我方为红方无人机,
v
r
为红方无人机速度矢量,
V
r
为红方的速度大小,
γ
r
为红方的航迹倾角,
χ
r
为红方的航迹偏角;假定对手为蓝方无人机,
v
b
为蓝方无人机速度矢量,
V
b
为蓝方的速度大小,
γ
b
为蓝方的航迹倾角,
χ
b
为蓝方的航迹偏角;
d
R
为红蓝双方相对位置矢量,
x
r

y
r

z
r
,表示红方在惯性坐标系下的位置坐标,
x
b

y
b

z
n
表示蓝方在惯性坐标系下的位置坐标;
ATA
为偏离角,即红方无人机速度矢量与红蓝无人机相对位置矢量的夹角;
AA
为脱离角,即蓝方无人机速度矢量与红蓝无人机相对位置矢量的夹角

[0023]优选的,步骤
S1
所述空战态势评估模型为红方无人机空战态势评本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于课程学习的无人机对抗决策优化方法,其特征在于,具体包括:
S1、
基于空战双方无人机的位置

速度

姿态,构建无人机空战对抗运动模型;将所述无人机空战对抗运动模型结合空战态势要素,基于优势函数法建立空战态势评估模型;
S2、
使用步骤
S1
所述无人机空战对抗运动模型分别设计深度强化学习算法的状态空间和动作空间;基于无人机空战对抗运动模型

空战态势评估模型以及所述状态空间和动作空间获取空战对抗的状态转移函数并设计奖励函数;基于所述状态空间

动作空间

状态转移函数和奖励函数建立无人机空战对抗决策的马尔可夫决策过程;
S3、
利用步骤
S2
所述状态空间和动作空间设计网络空间;基于所述状态空间

动作空间

网络空间以及步骤
S2
所述马尔可夫决策过程,构建深度强化学习算法;
S4、
基于所述空战态势评估模型对所述奖励函数进行重塑,获得重塑后奖励函数;基于所述重塑后奖励函数和所述深度强化学习算法训练所述网络空间;将步骤
S2
所述奖励函数基于课程学习进行改进,获取改进后的奖励函数,使用所述改进后的奖励函数对训练过程进行优化,获得训练后的网络空间;基于所述训练后的网络空间建立无人机空战对抗策略模型;
S5、
使用步骤
S4
所述无人机空战对抗策略模型进行无人机空战对抗
。2.
根据权利要求1所述的无人机对抗决策优化方法,其特征在于,步骤
S1
所述无人机空战对抗运动模型包括:无人机质点运动模型和相对运动模型;所述空战态势要素包括:空战双方无人机的角度

高度

速度和距离
。3.
根据权利要求1所述的无人机对抗决策优化方法,其特征在于,所述空战态势评估模型的表达式为:
S

k1*S
a
+k2*S
h
+k3*S
v
+k4*S
d
其中,
S
为红方无人机空战态势评估值,
S
a
为红方无人机空战角度的态势评估值,
S
h
为红方无人机空战高度的态势评估值,
S
v
为红方无人机空战速度的态势评估值,
S
d
为红方无人机空战距离的态势评估值;
k1表示红方无人机空战角度的态势对应的权重,
k2表示红方无人机空战高度的态势对应的权重,
k3表示红方无人机空战速度的态势对应的权重,
k4表示红方无人机空战距离的态势对应的权重
。4.
根据权利要求1所述的无人机对抗决策优化方法,其特征在于,所述状态空间基于所述无人机空战对抗运动模型获取相对状态与绝对状态,将所述相对状态与绝对状态...

【专利技术属性】
技术研发人员:池沛安乐赵江吴坤王英勋
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1