一种基于改进DDPG的近距空战机动决策方法技术

技术编号:38658349 阅读:19 留言:0更新日期:2023-09-02 22:43
本发明专利技术公开了一种基于改进DDPG的近距空战机动决策方法,首先建立了无人机运动学模型,与一对一的近距空战模拟对抗场景及胜负裁决模型。将空战决策过程转化为马尔可夫决策过程,设计无人机的状态

【技术实现步骤摘要】
一种基于改进DDPG的近距空战机动决策方法


[0001]本专利技术属于无人机
,涉及无人机空战机动决策,尤其涉及一种基于改进DDPG的近距空战机动决策方法。

技术介绍

[0002]以深度强化学习为背景的人工智能方法,在实际的非线性优化决策问题求解上已展现出优于人类的表现,如融合深度强化学习和蒙特卡洛搜索树的AlphaZero,基于分层强化学习的AlphaDogfight空战决策智能体等。无人机作为未来空战的主要作战力量,以深度强化学习为核心赋能技术的无人机空战机动决策方法,是自主空战技术研究的核心,也有现有技术研究的重难点问题。无人机空战决策需要在快节奏、强对抗的空战环境中依据当前空战态势信息,实时生成对自身最有利的战术机动指令,从而取得先敌占位、先敌攻击和先敌规避的空战优势。
[0003]现有的空战机动决策方法可以分为基于博弈理论、基于优化理论和基于人工智能三大类,由于空战决策问题空间庞杂,前两种方法均存在求解困难、实时性差的特点,难以应用于快节奏的空战对抗环境。深度强化学习作为基于人工智能的空战机动决策主流方法,其基本思想是将机动决策建模成马尔可夫决策过程,通过智能体与环境不断地试错交互,利用环境中反馈的奖励不断调整自身策略,以获得最大累计折扣奖励。在应用深度强化学习训练空战决策智能体时,存在着需要探索的状态

动作空间较大导致难以收敛、学习过程中奖励稀疏等问题。

技术实现思路

[0004]针对现有技术的不足,本专利技术提出了一种基于改进DDPG的近距空战机动决策方法,依据胜负裁决模型设计了一套基于目标视线角、相对速度的奖励函数模型,并且通过衰减的噪声,平衡智能体对空间的探索和对经验的利用,并使用基于博弈理论的矩阵对策的对手进行仿真对抗中,实现高效训练学习,解决空战机动决策学习效率低,决策效果欠佳等问题。
[0005]一种基于改进DDPG的近距空战机动决策方法,具体步骤如下:
[0006]步骤1、无人机运动模型与近距格斗空战环境构建
[0007]近距格斗空战场景构建包括空战对抗实体的无人机运动学建模、无人机的传感器和武器能力设定,和胜负裁定标准设定。
[0008]在东北天坐标系下建立如下无人机运动模型:
[0009][0010]式中,V表示无人机速度,分别表示在三维直角坐标系下x、y、z轴方向上的速度分量。θ为俯仰角,表示速度矢量与水平面xoy的夹角。ψ为偏航角,表示速度矢量在水平面xoy上的投影与x轴正方向的夹角。g表示重力加速度,n
x
为沿速度方向的切向过载,n
z
表示
[0011][0012]沿俯仰方向的法向过载,n
y
表示垂直于n
x
、n
z
的侧向过载。表示导数。
[0013]在近距空战格斗环境中,假设红、蓝双方依靠自身机载传感器获取对方的实时信息,通过机动决策抢占有利攻击位置,使其机载火控雷达截获目标,引导武器发射锁定,并在满足发射条件的情况下实施攻击,则攻击条件应满足:
[0014][0015]其中,表示红方的机载武器攻击角,β0为机载武器最大离轴发射角,R
rb
表示红蓝双方之间的距离,R
min
、R
max
分别为机载武器的最小、最大不可逃逸攻击距离。t
lock
表示当前锁定目标时长,t
set
为机载武器锁定后能够发射的最短时间。当任意一方满足发射条件时,即判定当前回合该方胜利。若在当前回合结束时,双方均未满足发射条件,则判定为平局。
[0016]假设红、蓝双方无人机在三维空间下的运动状态信息为:
[0017]T
Ω
=[X,Y,Z,V,θ,ψ]ꢀꢀ
(3)
[0018]速度矢量为
[0019]v
Ω
=[Vcos(θ)cos(ψ),Vcos(θ)sin(ψ),Vsin(θ)]ꢀꢀ
(4)
[0020]其中,Ω=r、b分别表示红方、蓝方。X,Y,Z表示无人机在三维空间下的位置信息,无人机速度V∈[100,250]m/s。基于无人机的运动学模型,采用四阶龙格

库塔法开展红、蓝双方的飞行轨迹对抗推演,四阶龙格

库塔法推进步长为RK_Step。
[0021]构建一对一近距离空战场景,假设双方无人机的性能完全相同,即每个方向的最大过载值以及无人机速度的上下限相同。红方初始位置、高度、速度、俯仰角、偏航角均恒定,蓝方初始高度、速度、俯仰角恒定,初始位置、偏航角在一定范围内随机选择。
[0022]步骤2、蓝方决策方法
[0023]蓝方无人机使用基于博弈理论的矩阵对策进行决策。所述矩阵对策的方法原理容易理解,且算法复杂度较小,通过将无人机机动决策的动作离散化为7种典型的机动动作,分别为

保持不变,

最大过载加速,

最大过载减速,

最大过载左转,

最大过载右转

最大过载拉起,

最大过载俯冲。并假设对战双方都使用这7种典型的机动方式作为决策
执行。在红方选择第j种机动方式,蓝方选择第i种机动方式时,经过一个决策步长后,计算蓝方对红方的优势函数值adv
ij
。通过预测红蓝双方各7种的机动决策后的总体优势值,计算出蓝方的优势矩阵A
ij

[0024][0025]计算优势矩阵A
ij
的行和最大值,并选取行和最大值所对应的机动动作作为蓝方的最终决策在环境中执行。
[0026]由于优势函数的设计会直接影响矩阵对策方法做出的决策准确性,因此设计了综合角度、速度、高度和距离的优势函数,使蓝方智能体具有一定决策水平。
[0027]所述角度优势函数为:
[0028][0029]速度优势函数为:
[0030][0031]其中,V0表示最佳空战速度。
[0032]高度优势函数为:
[0033][0034]其中,Z0表示最佳空战高度。
[0035]距离优势函数为:
[0036][0037]其中,R0表示最佳空战距离,D0为距离衰减系数。
[0038]综合上述优势函数,总体优势函数为:
[0039][0040]其中,α1,α2,α3,α4分别是角度优势、速度优势、高度优势、距离优势的加权系数。
[0041]步骤3、基于DDPG的空战机动决策架构
[0042]将红方无人机的机动决策过程描述为马尔可夫决策过程,并应用DDPG的Actor

Critic框架构建了无人机的机动决策模型,包括状态动作空间的设计、网络结构设计。
[0043]s3.1、状态动作空间设计
[0044]为了完整地描述空战中红蓝双方的状态信息并将其本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改进DDPG的近距空战机动决策方法,其特征在于:该方法具体包括以下步骤:步骤1、无人机运动模型与近距格斗空战环境构建针对对抗双方建立运动学模型,设定双方无人机的传感器和武器能力,制定胜负裁定标准;将无人机决策的动作离散化为7种机动动作,包括

保持不变,

最大过载加速,

最大过载减速,

最大过载左转,

最大过载右转

最大过载拉起,

最大过载俯冲,设定对抗双方使用上述机动方式作为决策执行;步骤2、蓝方决策方法蓝方无人机使用基于博弈理论的矩阵对策进行决策,当红方选择第j种机动方式、蓝方选择第i种机动方式时,计算蓝方对红方的优势函数值adv
ij
,得到蓝方的优势矩阵A
ij
:将优势矩阵A
ij
中行和最大值所对应的机动动作作为蓝方最终决策在环境中执行的动作;步骤3、红方决策方法将红方无人机的机动决策过程描述为马尔可夫决策过程,并应用DDPG的Actor

Critic框架构建了无人机的机动决策模型,包括状态动作空间的设计和网络结构设计:s3.1、状态动作空间设计定义红、蓝双方的相对距离R
rb
=[X
b

X
r
,Y
b

Y
r
,Z
b

Z
r
],红、蓝双方的相对速度v
rb
=[v
b

v
r
],红、蓝双方的速度矢量夹角红方攻击角蓝方攻击角其中,位置信息单位为m,速度信息单位为m/s,角度信息单位为rad;空战状态空间表示为无人机的动作空间a=[n
x
,n
y
,n
z
],n
x
为沿速度方向的切向过载,n
z
表示沿俯仰方向的法向过载,n
y
表示垂直于n
x
、n
z
的侧向过载;X、Y、Z表示无人机在三维空间下的位置信息,v表示速度矢量,下标r表示红方,b表示蓝方;s3.2、网络结构设计构建两个全连接的前馈神经网络,分别作为在线Actor网络和在线Critic网络;初始化在线Actor网络的节点参数π(s|θ
π
)及在线Critic网络的节点参数Q(s,a|θ
Q
),使用ReLu()作为激活函数,并利用误差反向传播和梯度下降的方法实时更新网络节点参数;再构建两个分别与在线Actor网络、在线Critic网络的结构相同、节点参数相同的目标Actor网络和目标Critic网络,即π'(s|θ'
π
)

π(s|θ
π
),Q'(s,a|θ'
Q
)

Q(s,a|θ
Q
);目标网络通过复制部分在线网络的节点参数实现软更新;步骤4、红方单步决策过程红方无人机将t时刻空战状态输入到步骤3构建的在线Actor网络,网络输出动作在
动作的基础上添加一个均值为标准差为σ的高斯噪声,得到实际执行的动作其中clip(

N,N)为截断函数,用于使无人机3个方向上的过载落入过载饱和的限制范围内;设置高斯噪声的标准差σ在网络训练过程中按照下述方式衰减:σ
init
表示标准差初始值,episode表示训练回合数,episode
end
停止衰减的训练回合数,Max_Episode表示训练的最大回合数;红方无人机在环境中执行动作a
t
后,环境反馈下一时刻的空战状态s
t+1
及单步奖励r
t
;所述单步奖励r
t
包括角度奖励和速度奖励:其中,ω1、ω2分别为角度奖励速度奖励r
v
的权重;步骤5、经验存储与更新假设决策周期时间长度为δ秒,在决策周期内,动作保持不变,通过步骤4进行一次单步决策,产生一个四元组<s
t
,a
t
,r
t*
,s
t+1
>,将其存入临时经验库中,其中r
t*
表示当前决策的单步奖励回报值,重复步骤4,直至达到最大决策步长时间Max_Step,或对战双方有一方达到胜利条件;若红方胜利,则给予胜利全局奖励r
win
,即若判定蓝方胜利,则给予红方失败全局奖励r
lose
,即若判定为平局,则不进行操作,即其中t_end表示回合结束时刻;在t_end时刻将临时经验库中每个决策周期的四元组<s
...

【专利技术属性】
技术研发人员:方峰李文韬朱奕超彭冬亮
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1