【技术实现步骤摘要】
基于深度强化学习TD3算法的无人机格斗自主决策方法
[0001]本专利技术涉及无人机
,具体涉及一种基于深度强化学习TD3算法的无人机格斗自主决策方法。
技术介绍
[0002]智能型自主格斗无人机及无人机集群具有改变战场格局的巨大潜力。机动决策是无人机格斗对抗核心技术,研究无人机根据战场态势和任务目标自主机动以取得作战优势具有重要意义。
[0003]基于传统的微分对策理论等数学方法研究无人机空中格斗问题时,需要先精确建立数学模型,不论定性问题还是定量问题,前提都需要已知双方的机动策略和性能参数,这在现实中是不可能的。未来格斗中敌方战略意图、战术、出动的装备性能等信息我们一般不可能提前准确预判,以及格斗环境中各种不确定性因素干扰和目标的低可探测性都将限制方法的适用程度。无人机动力学模型较为复杂,其状态方程为非线性微分方程,导致求解困难且计算量巨大,占用大量计算资源且耗时长,当敌我双方无人机数量进一步增加时会发生维度灾难。
[0004]深度确定性策略梯度(Deep Deterministic Policy ...
【技术保护点】
【技术特征摘要】
1.一种基于深度强化学习TD3算法的无人机格斗自主决策方法,其特征在于,包括步骤:建立无人机运动模型;根据所述无人机运动模型,基于马尔可夫决策过程建立无人机空中格斗模型,其中,所述无人机空中格斗模型使用包括状态空间、动作空间、奖励函数和折扣因子的四元组表示,所述无人机运动模型表示所述无人机空中格斗模型中的状态转移函数;根据所述无人机空中格斗模型,基于TD3算法训练无人机学习机动策略。2.根据权利要求1所述的一种基于深度强化学习TD3算法的无人机格斗自主决策方法,其特征在于,所述无人机运动模型包括动力学模型和运动学模型,所述建立无人机运动模型包括:建立无人机在惯性坐标系中的动力学模型:其中,所述g表示重力加速度;所述v表示所述无人机的速度且所述v满足约束条件:v
min
≤v≤v
max
;航迹倾角γ表示v与水平面的夹角,γ∈[
‑
π/2,π/2];航迹偏角ψ表示v在水平面上的投影与坐标轴X轴的夹角,ψ∈(
‑
π,π];所述n
τ
表示切向过载;所述n
f
表示法向过载;所述μ表示滚转角;建立所述无人机在所述惯性坐标系中的运动学模型:其中,所述x、所述y和所述z表示所述无人机在所述惯性坐标系下的坐标。3.根据权利要求2所述的一种基于深度强化学习TD3算法的无人机格斗自主决策方法,其特征在于,所述状态空间包括:敌方无人机和我方无人机的本身状态和相对状态。4.根据权利要求3所述的一种基于深度强化学习TD3算法的无人机格斗自主决策方法,其特征在于,通过如下方式构建所述状态空间:设定所述敌方无人机和所述我方无人机的本身状态:S=[x
r
,y
r
,z
r
,x
b
,y
b
,z
b
,v
r
,v
b
,γ
r
,γ
b
,ψ
r
,ψ
b
,μ
r
,μ
b
]基于所述敌方无人机和所述我方无人机的本身状态,设定所述敌方无人机和所述我方无人机的相对状态:S
rb
=[D,α,β,v
r
,v
b
,γ
r
,γ
b
,ψ
r
,ψ
b
,μ
r
,μ
b
]其中,x
r
,y
r
,z
r
表示所述我方无人机在三维空间中的坐标值,x
b
,y
b
,z
b
表示所述敌方无人机在所述三维空间中的坐标值,所述v
r
表示所述我方无人机的速度,所述v
b
表示所述敌方
无人机的速度,所述γ
r
表示所述我方无人机的航迹倾角,所述γ
b
表示所述敌方无人机的航迹倾角,所述ψ
r
表示所述我方无人机的航迹偏角,所述ψ
b
表示所述敌方无人机的航迹偏角,所述μ
r
表示所述我方无人机的滚转角,所述μ
b
表示所述敌方无人机的滚转角,所述D表示所述敌方无人机和所述我方无人机之间的相对距离,水平视线偏角α表示所述敌方无人机和所述我方无人机的视线在水平面上投影与X轴的夹角,纵向视线偏角β表示所述敌方无人机和所述我方无人机的视线与水平面的夹角。5.根据权利要求2所述的一种基于深度强化学习TD3算法的无人机格斗自主决策方法,其特征在于,通过如下公式构建所述动作空间:A=[n
τ
,n
f
,ω]其中,所述n
τ
表示切向过载,n
f
表示法向过载,ω表示机体滚转角速度。6.根据权利要求4所述的一种基于深度强化学习TD3算法的无人机格斗自主决策方法,其特征在于,所述奖励函数包括锁定奖励函数、角度优势函数、距离优势函数、高度优势函数以及速度优势函数,其中,所述锁定奖励函数为:其中,所述D
*
表示我方无人机成功锁定敌方无人机时两机最小距离,所述p<...
【专利技术属性】
技术研发人员:高显忠,候中喜,金泉,王玉杰,邓小龙,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。