【技术实现步骤摘要】
一种基于深度强化学习的无人机机动决策方法
[0001]本专利技术属于无人机
,具体涉及一种无人机机动决策方法。
技术介绍
[0002]无人机自凭借零伤亡、机动性能强、成本低、隐身性等优势进入军事领域以来,已经被快速并广泛的应用于各类军事用途。然而,现在的无人机在作战方面仍需要有人机或者地面站指挥员的指挥控制,未能实现真正的自主能力,无人机的自主机动决策也逐渐成为无人机领域重要的研究内容之一。
[0003]近年来,国内外针对无人机自主智能机动决策问题具有广泛的研究。崔明朗等人提出采用蒙特卡洛强化学习方法实现近距空战机动决策。该方法将动作空间离散化,选择态势评估函数构建状态空间,以空战结果作为返回奖赏的依据,保证机动动作的连续性。专利CN110488872A采用D3QN网络实现无人机的实施路径规划。胡真财设计了基于Q学习(Q
‑
learning)与价值评估网络的空战机动决策方法。该方法将作战动作空间离散化,实现与敌机的对抗机动决策过程。
[0004]这些方法没有考虑空战具有大状态空间及大机 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度强化学习的无人机机动决策方法,其特征在于,包括以下步骤:步骤S1:构建无人机机动模型;步骤S2:描述无人机和敌机作战相对态势;步骤S3:依据马尔科夫过程构建状态空间S,动作空间A,奖惩函数R;步骤S4:构建SAC算法模型结构;步骤S5:定义SAC算法模型参数并进行训练;步骤S6:初始化无人机和敌机作战态势,使用训练完成算法进行机动决策。2.根据权利要求1所述的一种基于深度强化学习的无人机机动决策方法,其特征在于,所述构建无人机机动模型的具体步骤包括:设OXYZ坐标系为无人机所在的三维空间坐标系,其中原点O表示无人机作战区域中心,X轴指向正北方向,Z轴指向正东方向,Y轴指向垂直向上的方向;将无人机视为质点,无人机运动方程如下所示:将无人机视为质点,无人机运动方程如下所示:其中t为当前时刻,dT为无人机的积分步长,[X
t
,Y
t
,Z
t
],[X
t+dT
,Y
t+dT
,Z
t+dT
]分别为t时刻和t+dT时刻无人机的坐标位置分量,V
t
,V
t+dT
分别为无人机在t时刻和t+dT时刻的速度大小,俯仰角θ
t
,θ
t+dT
分别为无人机在t时刻和t+dT时刻的速度向量与XOZ平面夹角,航向角为无人机在t时刻和t+dT时刻的速度向量在XOZ平面投影向量与X轴正向夹角,dv为无人机加速度大小,dθ为无人机俯仰角变化量,为无人机航向角变化量。3.根据权利要求2所述的一种基于深度强化学习的无人机机动决策方法,其特征在于,所述描述无人机和敌机作战相对态势的具体步骤包括:用表示无人机与敌机之间的位置向量,方向由无人机指向敌机,d为无人机到敌机的距离;q表示相对方位角,为无人机速度向量与距离向量的夹角;无人机与敌机相对态势数据用d与q描述:d与q描述:d与q描述:其中,为无人机在三维空间坐标系的位置向量,为速
度向量,v
r
为无人机速度大小,θ
r
为无人机俯仰角,为无人机航向角;为敌机在三维空间坐标系的位置向量,为速度向量,v
b
为敌机速度大小,θ
b
为敌机俯仰角,为敌机航向角。4.根据权利要求3所述的一种基于深度强化学习的无人机机动决策方法,其特征在于,所述依据马尔科夫过程构建状态空间S,动作空间A,奖惩函数R的具体步骤包括:定义状态空间为动作空间为奖惩函数R由距离奖惩函数R
d
和角度奖惩函数R
q
组成,R=w1*R
d
+w2*R
a
,其中w1,w2为距离奖惩与角度奖惩的权重;距离奖惩函数R
d
为:R
d1
=
‑
d/(5*D
max
)R
d
=R
d1
+R
d2
其中,R
d1
为距离连续奖惩值,R
d2
为距离稀疏奖惩值,D
min
为红方所载导弹的最小攻击距离,D
max
为红方所载导弹的最大攻击距离;角度奖惩函数R
q
为:R
q1
=
‑
q/180R
q2
=3,if q<q
max
R
q
=R
q1
+R
q2
其中,R
q1
表示角度连续奖惩值,R
q2
表示角度稀疏奖惩值,q
max
表示红方所载导弹的最大离轴发射角。5.根据权利要求4所述的一种基于深度强化学习的无人机机动决策方法,其特征在于,所述构建SAC算法模型结构的具体步骤包括:SAC算法模型通过神经网络实现,包含经验池M、一个Actor神经网络π
θ
、两个Soft
‑
Q神经网络和两个Target Soft
‑
Q网络和其中,θ,均表示对应网络的权重;Actor神经网络π
θ
的输入为状态值s
t
,输出为均值μ和方差σ,噪声τ从标准正态分布采样得到;由均值μ和方差σ和噪声τ生成动作a
【专利技术属性】
技术研发人员:李波,甘志刚,梁诗阳,高晓光,万开方,越凯强,杨志鹏,
申请(专利权)人:西北工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。