【技术实现步骤摘要】
基于深度强化学习的飞行器时间协同制导方法
[0001]本专利技术涉及飞行器
,具体涉及飞行时间协同领域,尤其涉及一种基于深度强化学习的飞行器时间协同制导方法。
技术介绍
[0002]飞行器(如:导弹)是打击重要战略目标的中坚力量,但是现代战争中,敌方的防御反制手段多种多样,尤其是地面或舰载平台拥有远程拦截武器、近防武器,这些都对飞行器造成了很大的威胁。
[0003]多弹协同打击是一种效率较高的突防手段,它能够使敌方的防御系统达到饱和,提高突防成功的几率。其中,飞行时间协同是实现多弹协同打击的一种可行手段,目前对飞行时间的协同主要分为以下两种途径:1.通过弹间通信协调各弹的预测到达时间;2.发射前为导弹装定相等的期望到达时间。但是,无论采取何种途径,都要精确控制各弹的剩余飞行时间,针对该问题,现有的制导律大多基于常值速度假设,将问题转化为对剩余飞行路径的控制,然而剩余飞行时间与飞行器速度相关,基于常值速度假设提出的制导律实际应用效果不佳。若使用微分方程迭代计算,虽然能够提高预测精度,但是计算量较大,难以实现在线预测。
[0004]上述的多弹协同对抗决策技术需要建立对抗环境的任务模型或环境模型,无法充分考虑模型的不确定性,而且,建立行为模型或行为准则的方法,会人为限制了行为策略的求解空间,难以获得最优策略,从而无法适应动态多变的多弹协同对抗环境。而且,复杂环境下,环境变量和决策变量维度增加,问题复杂度随之增加,进而导致上述多飞行器协同对抗决策技术无法适应复杂环境或算法难以求解。
[0005] ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于深度强化学习的飞行器时间协同制导方法,所述方法通过深度强化学习模型输出偏置项a
b
,基于偏置比例导引的形式得到新的制导指令a
m
,最后根据制导指令a
m
对飞行器控制系统进行控制;所述制导指令a
m
通过下式(一)获得:其中,a
m
表示制导指令,v表示飞行器的绝对速度,λ表示弹目视线角,表示弹目视线角的变化率,a
b
表示偏置项。2.根据权利要求1所述的方法,其特征在于,所述偏置项a
b
通过以下步骤获得:步骤1,设计仿真飞行试验,训练得到深度强化学习模型;步骤2,对深度强化学习模型进行测试;步骤3,飞行器飞行时,使用测试通过的深度强化学习模型获得偏置项a
b
,基于偏置比例导引的形式得到新的制导指令a
m
,最后根据制导指令a
m
对飞行器控制系统进行控制。3.根据权利要求2所述的方法,其特征在于,在步骤1中,所述深度强化学习模型优选通过近端策略优化方法(PPO)进行学习;优选地,所述步骤1包括以下子步骤:步骤1
‑
1,根据飞行器模型设计仿真飞行试验;步骤1
‑
2,设计深度强化学习模型的结构与参数,训练得到深度强化学习模型。4.根据权利要求3所述的方法,其特征在于,所述步骤1
‑
1包括以下子步骤:1
‑1‑
1,通过飞行器的风洞试验获得飞行器的气动参数与参考面积;1
‑1‑
2,根据飞行器的运动微分方程组设计飞行器仿真模型,获得飞行器的飞行状态s;1
‑1‑
3,以偏置比例导引律为制导律,部署深度强化学习模型与飞行器仿真模型的接口,所述接口包括飞行器状态到深度强化学习模型的接口、深度强化学习模型到偏置比例导引的偏置项的接口、以及训练深度强化学习模型时飞行器给出的奖励值接口。5.根据权利要求3所述的方法,其特征在于,所述步骤1
‑
2包括以下子步骤:步骤1
‑2‑
1,深度强化学习模型根据飞行器的飞行状态输出偏置项a
b
至飞行器仿真模型;步骤1
‑2‑
2,采集深度强化学习模型与飞行器仿真模型交互的数据,并存储至经验池中;步骤1
‑2‑
3,使用经验池中的数据改进深度强化学习模型输出的偏置项a
b
。6.根据权利要求3所述的方法,其特征在于,步骤1
‑2‑
2中,所述深度强化学习模型与飞行器仿真模型交互的数据为元素组(s
t
,a
t
,r
t
);其中,s
t
表示飞行器在t时刻的飞行状态;a
t
表示深度强化学习模型在t时刻输出的偏置项;r
t
表示飞行器在t时刻执行偏置项a
技术研发人员:王江,刘子超,何绍溟,侯淼,王鹏,
申请(专利权)人:北京理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。