基于深度强化学习的飞行器时间协同制导方法技术

技术编号:34905495 阅读:15 留言:0更新日期:2022-09-15 06:50
本发明专利技术公开了一种基于深度强化学习的飞行器时间协同制导方法,所述方法通过深度强化学习模型根据飞行器的飞行状态输出偏置项a

【技术实现步骤摘要】
基于深度强化学习的飞行器时间协同制导方法


[0001]本专利技术涉及飞行器
,具体涉及飞行时间协同领域,尤其涉及一种基于深度强化学习的飞行器时间协同制导方法。

技术介绍

[0002]飞行器(如:导弹)是打击重要战略目标的中坚力量,但是现代战争中,敌方的防御反制手段多种多样,尤其是地面或舰载平台拥有远程拦截武器、近防武器,这些都对飞行器造成了很大的威胁。
[0003]多弹协同打击是一种效率较高的突防手段,它能够使敌方的防御系统达到饱和,提高突防成功的几率。其中,飞行时间协同是实现多弹协同打击的一种可行手段,目前对飞行时间的协同主要分为以下两种途径:1.通过弹间通信协调各弹的预测到达时间;2.发射前为导弹装定相等的期望到达时间。但是,无论采取何种途径,都要精确控制各弹的剩余飞行时间,针对该问题,现有的制导律大多基于常值速度假设,将问题转化为对剩余飞行路径的控制,然而剩余飞行时间与飞行器速度相关,基于常值速度假设提出的制导律实际应用效果不佳。若使用微分方程迭代计算,虽然能够提高预测精度,但是计算量较大,难以实现在线预测。
[0004]上述的多弹协同对抗决策技术需要建立对抗环境的任务模型或环境模型,无法充分考虑模型的不确定性,而且,建立行为模型或行为准则的方法,会人为限制了行为策略的求解空间,难以获得最优策略,从而无法适应动态多变的多弹协同对抗环境。而且,复杂环境下,环境变量和决策变量维度增加,问题复杂度随之增加,进而导致上述多飞行器协同对抗决策技术无法适应复杂环境或算法难以求解。
[0005]因此,有必要提供一种克服依赖常值速度假设的缺陷,并具有良好控制效果的飞行器时间协同制导方法。

技术实现思路

[0006]为了克服上述问题,本专利技术人进行了锐意研究,设计出一种基于深度强化学习的飞行器时间协同制导方法,该方法根据飞行器自身的当前速度、当前速度方向、当前位置以及剩余飞行时间误差,训练深度强化学习模型,并由深度强化学习模型实现剩余飞行时间控制。该方法克服了依赖常值速度假设的缺陷,具有良好的控制效果,能够应用于在线制导控制场景,从而完成了本专利技术。
[0007]具体来说,本专利技术的目的在于提供一种基于深度强化学习的飞行器时间协同制导方法,所述方法根据飞行器的飞行状态通过深度强化学习模型输出偏置项a
t
,基于偏置比例导引的形式得到新的制导指令a
m
,最后根据制导指令a
m
对飞行器控制系统进行控制;
[0008]所述制导指令a
m
通过下式(一)获得:
[0009][0010]其中,a
m
表示制导指令,v表示飞行器的绝对速度,λ表示弹目视线角,表示弹目视线角的变化率,a
b
表示偏置项。
[0011]所述偏置项a
b
通过以下步骤获得:
[0012]步骤1,设计仿真飞行试验,训练得到深度强化学习模型;
[0013]步骤2,对深度强化学习模型进行测试;
[0014]步骤3,飞行器飞行时,使用测试通过的深度强化学习模型获得偏置项a
t
,基于偏置比例导引的形式得到新的制导指令a
m
,最后根据制导指令a
m
对飞行器控制系统进行控制。
[0015]在步骤1中,所述深度强化学习模型优选通过近端策略优化方法(PPO)进行学习;
[0016]优选地,所述步骤1包括以下子步骤:
[0017]步骤1

1,根据飞行器模型设计仿真飞行试验;
[0018]步骤1

2,设计深度强化学习模型的结构与参数,训练得到深度强化学习模型。
[0019]所述步骤1

1包括以下子步骤:
[0020]1‑1‑
1,通过飞行器的风洞试验获得飞行器的气动参数与参考面积;
[0021]1‑1‑
2,根据飞行器的运动微分方程组设计飞行器仿真模型,获得飞行器的飞行状态s;
[0022]1‑1‑
3,以偏置比例导引律为制导律,部署深度强化学习模型与飞行器仿真模型的接口,所述接口包括飞行器状态到深度强化学习模型的接口、深度强化学习模型到偏置比例导引的偏置项的接口、以及训练深度强化学习模型时飞行器给出的奖励值接口。
[0023]所述步骤1

2包括以下子步骤:
[0024]步骤1
‑2‑
1,深度强化学习模型根据飞行状态输出偏置项a
b
至飞行器仿真模型;
[0025]步骤1
‑2‑
2,采集深度强化学习模型与飞行器交互的数据,并存储至经验池中;
[0026]步骤1
‑2‑
3,使用经验池中的数据改进深度强化学习模型输出偏置项a
b
的策略。
[0027]步骤1
‑2‑
2中,所述深度强化学习模型与飞行器仿真模型交互的数据为元素组(s
t
,a
t
,r
t
);
[0028]其中,s
t
表示飞行器在t时刻的飞行状态;a
t
表示深度强化学习模型在t时刻输出的偏置项;r
t
表示飞行器在t时刻执行偏置项a
t
后给出的奖励;
[0029]所述r
t
根据下式获得:
[0030][0031]其中,t
d
表示期望飞行时间,t
f
表示实际飞行时间;R表示弹目距离;
[0032]c1表示飞行时间奖励的归一化参数,设置为常数100;c2表示弹目距离奖励的归一化参数,设置为常数10000。
[0033]所述深度强化学习模型包括两个不同的神经网络:策略网络和评价网络;
[0034]所述策略网络以飞行状态s为输入,偏置项a
b
为输出;
[0035]所述评价网络以飞行状态s为输入,状态s的状态值函数V
π
(s)为输出;
[0036]其中,优势函数为用于改进策略网络,所述优势函数通过下式得到:
[0037][0038]其中,k为奖励的个数,V表示状态值函数,r
t
表示t时刻的奖励,r
t+1
表示t+1时刻的奖励,r
t+2
表示t+2时刻的奖励,以此类推r
t+k
‑1表示t+k

1时刻的奖励,γ为折扣因子,设置为常数0.99。
[0039]所述策略网络的目标函数为:
[0040][0041]其中,ω表示策略网络中权重w1和偏移量b1的集合,ω={w1,b1};w1表示策略网络中全连接层的权重,b1表示策略网络中全连接层的偏移量;
[0042]r
t
(ω)表示改进策略与旧策略之间的比率,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的飞行器时间协同制导方法,所述方法通过深度强化学习模型输出偏置项a
b
,基于偏置比例导引的形式得到新的制导指令a
m
,最后根据制导指令a
m
对飞行器控制系统进行控制;所述制导指令a
m
通过下式(一)获得:其中,a
m
表示制导指令,v表示飞行器的绝对速度,λ表示弹目视线角,表示弹目视线角的变化率,a
b
表示偏置项。2.根据权利要求1所述的方法,其特征在于,所述偏置项a
b
通过以下步骤获得:步骤1,设计仿真飞行试验,训练得到深度强化学习模型;步骤2,对深度强化学习模型进行测试;步骤3,飞行器飞行时,使用测试通过的深度强化学习模型获得偏置项a
b
,基于偏置比例导引的形式得到新的制导指令a
m
,最后根据制导指令a
m
对飞行器控制系统进行控制。3.根据权利要求2所述的方法,其特征在于,在步骤1中,所述深度强化学习模型优选通过近端策略优化方法(PPO)进行学习;优选地,所述步骤1包括以下子步骤:步骤1

1,根据飞行器模型设计仿真飞行试验;步骤1

2,设计深度强化学习模型的结构与参数,训练得到深度强化学习模型。4.根据权利要求3所述的方法,其特征在于,所述步骤1

1包括以下子步骤:1
‑1‑
1,通过飞行器的风洞试验获得飞行器的气动参数与参考面积;1
‑1‑
2,根据飞行器的运动微分方程组设计飞行器仿真模型,获得飞行器的飞行状态s;1
‑1‑
3,以偏置比例导引律为制导律,部署深度强化学习模型与飞行器仿真模型的接口,所述接口包括飞行器状态到深度强化学习模型的接口、深度强化学习模型到偏置比例导引的偏置项的接口、以及训练深度强化学习模型时飞行器给出的奖励值接口。5.根据权利要求3所述的方法,其特征在于,所述步骤1

2包括以下子步骤:步骤1
‑2‑
1,深度强化学习模型根据飞行器的飞行状态输出偏置项a
b
至飞行器仿真模型;步骤1
‑2‑
2,采集深度强化学习模型与飞行器仿真模型交互的数据,并存储至经验池中;步骤1
‑2‑
3,使用经验池中的数据改进深度强化学习模型输出的偏置项a
b
。6.根据权利要求3所述的方法,其特征在于,步骤1
‑2‑
2中,所述深度强化学习模型与飞行器仿真模型交互的数据为元素组(s
t
,a
t
,r
t
);其中,s
t
表示飞行器在t时刻的飞行状态;a
t
表示深度强化学习模型在t时刻输出的偏置项;r
t
表示飞行器在t时刻执行偏置项a

【专利技术属性】
技术研发人员:王江刘子超何绍溟侯淼王鹏
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1