面向多种目标域任务的飞行器制导控制方法技术

技术编号:37669127 阅读:21 留言:0更新日期:2023-05-26 04:29
本发明专利技术公开了一种面向多种目标域任务的飞行器制导控制方法,该方法中在飞行器上预先灌装训练好的域对抗神经网络,该域对抗神经网络在训练时需要指定不同的目标域任务,从而使得该对抗神经网络能够在收到飞行器的状态向量后,针对每一组目标域任务各自给出制导偏置项,而飞行器在发射前仅需确定并输入期望的目标域任务,即可寻找到对应的制导偏置项,进而得到制导指令,并打舵工作,控制飞行器精确命中目标,从而完成本发明专利技术。从而完成本发明专利技术。

【技术实现步骤摘要】
面向多种目标域任务的飞行器制导控制方法


[0001]本专利技术涉及飞行器的控制方法,具体涉及一种面向多种目标域任务的飞行器制导控制方法。

技术介绍

[0002]制导控制是飞行器准确与否的核心影响因素,制导指令的好坏会直接影响飞行器的精度,甚至决定任务的成败。目前被广泛使用的方法是较成熟的解析法和数值迭代法等传统制导算法,能够在可预见的范围内保证较好的控制效果和较高的精度。但随着航空航天领域的不断发展,任务复杂度愈发提高,人们对制导控制系统的精度、鲁棒性、实时性的要求也越来越高,传统方法的局限性渐渐显现出来。
[0003]深度学习制导方法作为基于数据算法的主要代表,近年来在制导律设计领域备受关注,其将制导问题视为一个“黑盒”,使用神经网络学习机载计算机的输入与输出之间的映射关系。然而针对传统的深度学习制导算法,随着制导任务的改变,在原任务环境中训练好的制导模型无法直接作用于新任务环境,再次训练适应于当前任务条件下的制导模型需要大量的弹道数据,然而在要求严苛的任务中获取新的训练数据十分困难;
[0004]另外,现有的方案中,每种飞行器都对应于一种单一的任务目标/环境,如果在飞行器发射前确定其任务目标/环境与预设的不同,需要重新灌注新的任务目标/环境,导致飞行器发射准备时间延长,可能会导致错失最佳发射时机;基于此,如何缩短该发射准备时间,提升飞行器对不同任务目标/环境的适应能力是目前急需解决的主要问题。
[0005]当飞行器中同时灌装两套或多套针对不同任务目标/环境的控制系统时,又会存在信息冗余,运行效率低,生产成本高等等一些列问题。
[0006]基于上述问题,本专利技术人对飞行器制导控制方法做了深入研究,针对现有研究所面临的不足,提出了一种能够解决上述问题的面向多种目标域任务的飞行器制导控制方法。

技术实现思路

[0007]为了克服上述问题,本专利技术人进行了锐意研究,设计出一种面向多种目标域任务的飞行器制导控制方法,该方法中在飞行器上预先灌装训练好的域对抗神经网络,该域对抗神经网络在训练时需要指定不同的目标域任务,从而使得该对抗神经网络能够在收到飞行器的状态向量后,针对每一组目标域任务各自给出制导偏置项,而飞行器在发射前仅需确定并输入期望的目标域任务,即可寻找到对应的制导偏置项,进而得到制导指令,并打舵工作,控制飞行器精确命中目标,从而完成本专利技术。
[0008]具体来说,本专利技术的目的在于提供一种面向多种目标域任务的飞行器制导控制方法,该方法中预先在飞行器中灌装训练好的域对抗神经网络;
[0009]该方法包括:
[0010]S1,在飞行器的飞行过程中,按照预定频率获得飞行器的状态向量,并且通过域对
抗神经网络对应输出多个各自匹配于不同目标域任务的制导偏置项,
[0011]S2,基于预设的目标域任务来选择对应制导偏置项,
[0012]S3,基于制导偏置项实时获得制导指令,
[0013]S4,飞行器基于该制导指令打舵控制,最终命中目标。
[0014]其中,收集飞行器在不同初始状态下经GPOPS

II求解得到的飞行轨迹离散点数据,得到训练所述域对抗神经网络的数据集;
[0015]根据不同的约束条件和不同的优化目标,将数据集划分为源域数据和多个目标域数据;
[0016]优选地,所述目标域数据包括目标域I数据和目标域II数据。
[0017]其中,所述域对抗神经网络包括特征提取器、域判别器、源域预测器、目标域I预测器和目标域II预测器。
[0018]其中,所述域对抗神经网络的训练过程包括:
[0019]步骤1,通过特征提取器提取输入的源域数据、目标域I预测器、目标域II预测器的共同特征;
[0020]步骤2,将得到的共同特征正向传播到域判别器G
d
,获得域判别器的域分类损失并通过梯度反转层将分类损失以梯度上升的方式反向传播至特征提取器;
[0021]步骤3,将得到的共同特征正向传播到源域预测器G
s
、目标域I预测器目标域II预测器获得源域预测器的预测值、目标域I预测器的预测值、目标域II预测器的预测值;进一步获得源域预测器的损失目标域I预测器的损失目标域II预测器的损失
[0022]步骤4,获得该域对抗神经网络的总目标函数基于使得该域对抗神经网络的总目标函数最小来反馈可训练模型参数;
[0023]步骤5,当该域对抗神经网络到达最大epoch时停止训练。
[0024]其中,所述域对抗神经网络的总目标函数通过下式(一)获得:
[0025][0026]其中,表示源域预测器的分类损失;
[0027]表示目标域I预测器的分类损失;
[0028]表示目标域II预测器的分类损失;
[0029]表示域判别器的分类损失;
[0030]μ表示平衡目标域I预测器损失的超参数;
[0031]ν表示平衡目标域II预测器损失的超参数;
[0032]γ表示平衡域判别器损失的超参数。
[0033]其中,域判别器的分类损失通过下式(二)获得:
[0034][0035]其中,当χ
α
=β时,当χ
α
≠β时,
[0036]p
ic
表示域判别器的输出;
[0037]在域判别器的分类过程中,对源域数据给予标签χ
α
=1,对目标域I数据给予标签χ
α
=2,对目标域II数据给予标签χ
α
=3,
[0038]N表示标签类别的数量,取值为3,
[0039]β表示不同的任务标签,取值为1、2、3。
[0040]其中,源域预测器的分类损失通过下式(三)获得:
[0041][0042]目标域I预测器的分类损失通过下式(四)获得:
[0043][0044]目标域II预测器的分类损失通过下式(五)获得:
[0045][0046]其中,i表示第i个数据样本;
[0047]n表示源域数据的样本个数;
[0048]m1表示目标域I数据的样本个数;
[0049]m2表示目标域II数据的样本个数;
[0050]表示针对第i个源域数据样本,源域预测器的预测值;
[0051]表示第i个源域数据样本中的标签;
[0052]表示针对第i个目标域I数据样本,目标域I预测器的预测值;
[0053]表示第i个目标域I数据样本中的标签;
[0054]表示针对第i个目标域II数据样本,目标域预II测器的预测值;
[0055]表示第i个目标域II数据样本中的标签。
[0056]其中,域判别器的输出p
ic
通过下式(六)获得:
[0057]p
ic
=G
d
(G
f
(x
i
;θ
f
);θ...

【技术保护点】

【技术特征摘要】
1.一种面向多种目标域任务的飞行器制导控制方法,其特征在于,该方法中预先在飞行器中灌装训练好的域对抗神经网络;该方法包括:S1,在飞行器的飞行过程中,按照预定频率获得飞行器的状态向量,并且通过域对抗神经网络对应输出多个各自匹配于不同目标域任务的制导偏置项,S2,基于预设的目标域任务来选择对应制导偏置项,S3,基于制导偏置项实时获得制导指令,S4,飞行器基于该制导指令打舵控制,最终命中目标。2.根据权利要求1所述的面向多种目标域任务的飞行器制导控制方法,其特征在于,收集飞行器在不同初始状态下经GPOPS

II求解得到的飞行轨迹离散点数据,得到训练所述域对抗神经网络的数据集;根据不同的约束条件和不同的优化目标,将数据集划分为源域数据和多个目标域数据;优选地,所述目标域数据包括目标域I数据和目标域II数据。3.根据权利要求2所述的面向多种目标域任务的飞行器制导控制方法,其特征在于,所述域对抗神经网络包括特征提取器、域判别器、源域预测器、目标域I预测器和目标域II预测器。4.根据权利要求3所述的面向多种目标域任务的飞行器制导控制方法,其特征在于,所述域对抗神经网络的训练过程包括:步骤1,通过特征提取器提取输入的源域数据、目标域I预测器、目标域II预测器的共同特征;步骤2,将得到的共同特征正向传播到域判别器G
d
,获得域判别器的域分类损失并通过梯度反转层将分类损失以梯度上升的方式反向传播至特征提取器;步骤3,将得到的共同特征正向传播到源域预测器G
s
、目标域I预测器目标域II预测器获得源域预测器的预测值、目标域I预测器的预测值、目标域II预测器的预测值;进一步获得源域预测器的损失目标域I预测器的损失目标域II预测器的损失步骤4,获得该域对抗神经网络的总目标函数基于使得该域对抗神经网络的总目标函数最小来反馈可训练模型参数;步骤5,当该域对抗神经网络到达最大epoch时停止训练。5.根据权利要求4所述的面向多种目标域任务的飞行器制导控制方法,其特征在于,所述域对抗神经网络的总目标函数通过下式(一)获得:其中,表示源域预测器的分类损失;表示目标域I预测器的分类损失;
表示目标域II预测器的分类损失;表示域判别器的分类损失;μ表示平衡目标域I预测器损失的超参数;ν表示平衡目标域II预测器损失的超参数;γ表示平衡域判别器损失的超参数。6.根据权利要求4所述的面向多种目标域任务的飞行器制导控制方法,其特征在于,域判别器的分类损失通过下式(二)获得:其中,当χ
α
=β时,当χ
α
≠β时,p
ic
表示域判别器的输出;在域判别器的分类过程中,对源域数据给予标签χ
α
=1,对目标域I数据给予标签χ
α
=2,对目标域II数据给予标签χ
α
=3,N表示标签类别的数量,取值为3,β表示不同的任务标签,取值为1...

【专利技术属性】
技术研发人员:何绍溟罗皓文侯利兵金天宇刘子超
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1