【技术实现步骤摘要】
一种基于改进DDPG的近距空战机动决策方法
[0001]本专利技术属于无人机
,涉及无人机空战机动决策,尤其涉及一种基于改进DDPG的近距空战机动决策方法。
技术介绍
[0002]以深度强化学习为背景的人工智能方法,在实际的非线性优化决策问题求解上已展现出优于人类的表现,如融合深度强化学习和蒙特卡洛搜索树的AlphaZero,基于分层强化学习的AlphaDogfight空战决策智能体等。无人机作为未来空战的主要作战力量,以深度强化学习为核心赋能技术的无人机空战机动决策方法,是自主空战技术研究的核心,也有现有技术研究的重难点问题。无人机空战决策需要在快节奏、强对抗的空战环境中依据当前空战态势信息,实时生成对自身最有利的战术机动指令,从而取得先敌占位、先敌攻击和先敌规避的空战优势。
[0003]现有的空战机动决策方法可以分为基于博弈理论、基于优化理论和基于人工智能三大类,由于空战决策问题空间庞杂,前两种方法均存在求解困难、实时性差的特点,难以应用于快节奏的空战对抗环境。深度强化学习作为基于人工智能的空战机动决策主流方法,其基本思想是将机动决策建模成马尔可夫决策过程,通过智能体与环境不断地试错交互,利用环境中反馈的奖励不断调整自身策略,以获得最大累计折扣奖励。在应用深度强化学习训练空战决策智能体时,存在着需要探索的状态
‑
动作空间较大导致难以收敛、学习过程中奖励稀疏等问题。
技术实现思路
[0004]针对现有技术的不足,本专利技术提出了一种基于改进DDPG的近距空战机动决策方 ...
【技术保护点】
【技术特征摘要】
1.一种基于改进DDPG的近距空战机动决策方法,其特征在于:该方法具体包括以下步骤:步骤1、无人机运动模型与近距格斗空战环境构建针对对抗双方建立运动学模型,设定双方无人机的传感器和武器能力,制定胜负裁定标准;将无人机决策的动作离散化为7种机动动作,包括
①
保持不变,
②
最大过载加速,
③
最大过载减速,
④
最大过载左转,
⑤
最大过载右转
⑥
最大过载拉起,
⑦
最大过载俯冲,设定对抗双方使用上述机动方式作为决策执行;步骤2、蓝方决策方法蓝方无人机使用基于博弈理论的矩阵对策进行决策,当红方选择第j种机动方式、蓝方选择第i种机动方式时,计算蓝方对红方的优势函数值adv
ij
,得到蓝方的优势矩阵A
ij
:将优势矩阵A
ij
中行和最大值所对应的机动动作作为蓝方最终决策在环境中执行的动作;步骤3、红方决策方法将红方无人机的机动决策过程描述为马尔可夫决策过程,并应用DDPG的Actor
‑
Critic框架构建了无人机的机动决策模型,包括状态动作空间的设计和网络结构设计:s3.1、状态动作空间设计定义红、蓝双方的相对距离R
rb
=[X
b
‑
X
r
,Y
b
‑
Y
r
,Z
b
‑
Z
r
],红、蓝双方的相对速度v
rb
=[v
b
‑
v
r
],红、蓝双方的速度矢量夹角红方攻击角蓝方攻击角其中,位置信息单位为m,速度信息单位为m/s,角度信息单位为rad;空战状态空间表示为无人机的动作空间a=[n
x
,n
y
,n
z
],n
x
为沿速度方向的切向过载,n
z
表示沿俯仰方向的法向过载,n
y
表示垂直于n
x
、n
z
的侧向过载;X、Y、Z表示无人机在三维空间下的位置信息,v表示速度矢量,下标r表示红方,b表示蓝方;s3.2、网络结构设计构建两个全连接的前馈神经网络,分别作为在线Actor网络和在线Critic网络;初始化在线Actor网络的节点参数π(s|θ
π
)及在线Critic网络的节点参数Q(s,a|θ
Q
),使用ReLu()作为激活函数,并利用误差反向传播和梯度下降的方法实时更新网络节点参数;再构建两个分别与在线Actor网络、在线Critic网络的结构相同、节点参数相同的目标Actor网络和目标Critic网络,即π'(s|θ'
π
)
←
π(s|θ
π
),Q'(s,a|θ'
Q
)
←
Q(s,a|θ
Q
);目标网络通过复制部分在线网络的节点参数实现软更新;步骤4、红方单步决策过程红方无人机将t时刻空战状态输入到步骤3构建的在线Actor网络,网络输出动作在
动作的基础上添加一个均值为标准差为σ的高斯噪声,得到实际执行的动作其中clip(
‑
N,N)为截断函数,用于使无人机3个方向上的过载落入过载饱和的限制范围内;设置高斯噪声的标准差σ在网络训练过程中按照下述方式衰减:σ
init
表示标准差初始值,episode表示训练回合数,episode
end
停止衰减的训练回合数,Max_Episode表示训练的最大回合数;红方无人机在环境中执行动作a
t
后,环境反馈下一时刻的空战状态s
t+1
及单步奖励r
t
;所述单步奖励r
t
包括角度奖励和速度奖励:其中,ω1、ω2分别为角度奖励速度奖励r
v
的权重;步骤5、经验存储与更新假设决策周期时间长度为δ秒,在决策周期内,动作保持不变,通过步骤4进行一次单步决策,产生一个四元组<s
t
,a
t
,r
t*
,s
t+1
>,将其存入临时经验库中,其中r
t*
表示当前决策的单步奖励回报值,重复步骤4,直至达到最大决策步长时间Max_Step,或对战双方有一方达到胜利条件;若红方胜利,则给予胜利全局奖励r
win
,即若判定蓝方胜利,则给予红方失败全局奖励r
lose
,即若判定为平局,则不进行操作,即其中t_end表示回合结束时刻;在t_end时刻将临时经验库中每个决策周期的四元组<s
...
【专利技术属性】
技术研发人员:方峰,李文韬,朱奕超,彭冬亮,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。