【技术实现步骤摘要】
一种基于强化学习的高超声速飞行器航迹规划方法
[0001]本专利技术属于高超声速飞行器航迹规划的
,具体涉及一种基于强化学习的高超声速飞行器航迹规划方法。
技术介绍
[0002]高超声速飞行器具有快速响应、高机动性、大航程、高效摧毁和强突防能力等突出优点,受到世界各军事和科技强国的普遍关注。高超声速飞行器在飞行过程中,如果能够有效地实施机动飞行,就能避开障碍或威胁区域,从而提高生存概率.但是由于高超声速飞行器的复杂性,使得很难对这种控制对象进行路径规划和控制。
[0003]强化学习(Reinforcement Learning,RL)具有较好的实时性、优秀的泛化表现、设计流程的通用性等优点,使得它在机器人、无人机等领域的路径规划问题上均取得了优异的表现。但智能体在训练初期由于存在盲目性,使其不断的试错与探索,导致训练时间较长,过于耗费计算资源并且降低了实时性。
[0004]交叉熵方法(Cross
‑
Entropy Method,CEM)是一种简单、高效、易于并行和不依赖于梯度计算的优化 ...
【技术保护点】
【技术特征摘要】
1.一种基于强化学习的高超声速飞行器航迹规划方法,其特征在于:步骤如下:步骤1:构建模拟环境来模拟真实的飞行环境;步骤2:构建MDP(Markov Decision Process,MDP)模型MDP模型能够观察到飞行器的信息和目标的信息,还能观察到所有威胁的相关信息;步骤3:根据步骤2,设置网络结构;步骤4:根据步骤3,确保RL智能体构建的航迹平滑;步骤5:根据步骤4,设计RL
‑
CEM规划方法。2.根据权利要求1所述的一种基于强化学习的高超声速飞行器航迹规划方法,其特征在于:步骤1的虚拟环境中,飞行器为子弹形状的刚体,威胁和禁飞区为大小相同的圆形刚体;飞行器执行任务的空域大小为:2000km
×
400km;任务成功的条件是避开不利的区域抵达目标点。3.根据权利要求1所述的一种基于强化学习的高超声速飞行器航迹规划方法,其特征在于:步骤2具体如下:步骤2.1:MDP的状态空间RL智能体观察完整的环境状态,观察到的状态为s∈S,状态s包含飞行器的实时位置:(x,z);弹道偏角的信息:(cosψ
v
,sinψ
v
),其中ψ
v
为弹道偏角;弹道偏角的转动角速度:飞行器的巡航速度:v;目标的实时位置:(x
g
,z
g
);视线角的信息:(cosq,sinq),其中q为视线角;目标线是否与威胁相交的标志位:F,条件为真表示相交;在RL智能体视角正前方180
°
均匀分布19条长500km的射线,d
ray
包含了每条射线到最近的威胁边沿的距离信息,则每威胁的实时位置:飞行器和威胁的连线与基准线之间的夹角信息:i=1,...,N;(cosη
i
,sinη
i
),其中η为飞行器和威胁的连线与基准线之间的夹角;当前经过的时间信息:i=1,...,N;(cosh,sinh),其中h=2π
·
(T/T
max
),T为当前经过的时间步数;步骤2.2:设置MDP的动作空间将动作a定义为最大角速度的比率,a与的关系式为其中g表示重力加速度,v表示巡航速度,表示航迹最大的需用过载;步骤2.3:设置MDP模型的奖励函数奖励函数定义公式为:r
t
=k[r
tn
,r
td
,r
tg
,r
tc
,r
ts
,r
t...
【专利技术属性】
技术研发人员:池海红,宋国福,周明鑫,王良华,
申请(专利权)人:哈尔滨工程大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。