一种基于并行自我博弈的空战机动方法技术

技术编号:29220848 阅读:36 留言:0更新日期:2021-07-10 01:00
本发明专利技术公开了一种基于并行自我博弈的空战机动方法,首先构建无人机机动模型,再构建红蓝运动态势获取模型,描述红蓝作战相对态势;然后依据马尔科夫过程构建红蓝双方状态空间、红双方动作空间和奖惩函数,接下来构建基于SAC算法的机动决策模型结构,通过空战对抗实现并行自我博弈训练SAC算法,最后测试训练得到的网络,显示作战轨迹并统计作战成功率。本发明专利技术能够有效提升敌我对抗水平,增大决策模型作战成功率。型作战成功率。型作战成功率。

【技术实现步骤摘要】
一种基于并行自我博弈的空战机动方法


[0001]本专利技术属于无人机
,具体涉及一种空战机动方法。

技术介绍

[0002]自主空战机动决策是指:基于数学优化、人工智能等方法,模拟各种空战态势下飞行员空战决策,自动生成对飞行器(包括有人、无人机等)操纵决策的过程。
[0003]按照方法的不同,常见的无人机机动决策可以分为传统方法以及智能方法。传统方法指采取专家知识、公式推导、影响图等方法来实现择优决策过程,这类方法更注重先验知识或数学运算,对于决策往往不具备自优化过程。智能方法指使用诸如遗传算法、贝叶斯、人工智能等具有自学习、自优化能力的智能方法来实现无人机的机动控制,这类方法一般可以根据态势目标自主达到策略的优化。
[0004]然而,在解决敌我对抗问题时,这些方法均为在单一确定环境下训练,智能体学习得到的策略模型会过于适应当前环境及态势,具有较弱的鲁棒性。当应用至新环境或改变自身初始态势,策略模型将无法准确选择合理的决策动作。若在面临新环境时从头学习,则会消耗大量的训练时间。

技术实现思路
/>[0005]为了本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于并行自我博弈的空战机动方法,其特征在于,包括以下步骤:步骤S1:构建无人机机动模型;步骤S2:定义我方无人机为红方,敌方无人机为蓝方;初始化红蓝双方,构建红蓝运动态势获取模型,描述红蓝作战相对态势;步骤S3:依据马尔科夫过程构建红蓝双方状态空间S
r
,S
b
,红蓝双方动作空间A
r
,A
b
,奖惩函数R;步骤S4:构建基于SAC算法的机动决策模型结构;步骤S5:初始化多组作战双方,定义实验参数,多组作战双方使用同一个机动决策模型及同一个经验池,通过空战对抗实现并行自我博弈训练SAC算法;步骤S6:随机初始化作战双方,测试训练得到的网络,显示作战轨迹;随机初始化多组作战双方,测试训练得到的网络,统计作战成功率。2.根据权利要求1所述的一种基于并行自我博弈的空战机动方法,其特征在于,所述构建无人机机动模型的具体步骤包括:设OXYZ坐标系为无人机所在的三维空间坐标系,其中原点O表示无人机作战区域中心,X轴指向正北方向,Z轴指向正东方向,Y轴指向垂直向上的方向;将无人机视为质点,无人机运动方程如下所示:将无人机视为质点,无人机运动方程如下所示:其中t为当前时刻,dT为无人机的积分步长,[X
t
,Y
t
,Z
t
],[X
t+dT
,Y
t+dT
,Z
t+dT
]分别为t时刻和t+dT时刻无人机的坐标位置分量,V
t
,V
t+dT
分别为无人机在t时刻和t+dT时刻的速度大小,俯仰角θ
t

t+dT
分别为无人机在t时刻和t+dT时刻的速度向量与XOZ平面夹角,航向角为无人机在t时刻和t+dT时刻的速度向量在XOZ平面投影向量与X轴正向夹角,dv为无人机加速度大小,dθ为无人机俯仰角变化量,为无人机航向角变化量。3.根据权利要求2所述的一种基于并行自我博弈的空战机动方法,其特征在于,所述步骤S2的具体步骤包括:红蓝运动态势获取模型获取的作战双方的相对态势用d与q描述,其中,表示红方与蓝方之间的位置向量,方向由红方指向蓝方,d表示红方与蓝方距离,q表示相对方位角,为红方速度向量与距离向量的夹角;蓝方相对于红方的作战态势用d、q
r
表示,红方相对于蓝方的作战态势用d及q
b
表示;表示红方与蓝方之间的位置向量,方向由红方指向蓝方,表示蓝方与红方之间的位置向量,方向由蓝方指向红方,q
r
表示蓝方相对红方的相对方位角,q
b
表示红方相对蓝
方的相对方位角;d、q
r
与q
b
的计算如下:的计算如下:的计算如下:的计算如下:的计算如下:其中,为红方的位置向量,为红方的速度向量,v
r
为红方的速度大小,θ
r
为红方的俯仰角,为红方的航向角;为蓝方的位置向量,为蓝方的速度向量,v
b
为蓝方的速度大小,θ
b
为蓝方的俯仰角,为蓝方的航向角。4.根据权利要求3所述的一种基于并行自我博弈的空战机动方法,其特征在于,所述步骤S3的具体步骤包括:定义红方无人机状态空间为蓝方无人机状态空间为红方无人机动作空间为蓝方无人机动作空间为奖惩函数R由距离奖惩函数R
d
和角度奖惩函数R
q
组成,R=w1*R
d
+w2*R
a
,其中w1,w2为距离奖惩与角度奖惩的权重;距离奖惩函数R
d
为:R
d1


d/(5*D
max
)R
d
=R
d1
+R
d2
其中,R
d1
为距离连续奖惩值,R
d2
为距离稀疏奖惩值,D
min
为红方所载导弹的最小攻击距离,D
max
为红方所载导弹的最大攻击距离;角度奖惩函数R
q
为:R
q1


q/180R
q2
=3,if q<q
max
R
q
=R
q1
+R
q2
其中,R
q1
表示角度连续奖惩值,R
q2
表示角度稀疏奖惩值,q
max
表示红方所载导弹的最大离轴发射角。5.根据权利要求4所述的一种基于并行自我博弈的空战机动方法,其特征在于,所述构建基于SAC算法的机动决策模型结构的具体步骤包括:基于SAC算法的机动决策模型采用SAC方...

【专利技术属性】
技术研发人员:李波甘志刚梁诗阳高晓光万开方越凯强杨志鹏
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1