一种基于DuelingDQN的虚实融合一二级分离模型参数优化方法技术

技术编号:34018573 阅读:41 留言:0更新日期:2022-07-02 16:22
本发明专利技术涉及一种基于Dueling DQN的虚实融合一二级分离模型参数优化方法,属于航天器设计参数优化技术领域。本发明专利技术使用BP神经网络训练的代理模型替代火箭一二级分离系统物理仿真模型,可以快速地生成数据、完成预测。使用Dueling DQN深度强化学习对火箭一二级分离系统结构参数进行优化,将Q值函数分解为价值函数和优势函数,考虑状态单独的影响,使网络更易收敛。相比传统启发式算法,深度强化学习搜索更细致,迭代次数更多,优化结果更优,深度网络可以积累智能体在可行解空间里的搜索经验,对于结构相同的问题大大提升了其拓展性和泛化能力,对于新的数据可以在已经训练过的基础上在进行训练,减少再次开发的成本和时间,通过历史经验减少训练消耗的时间。过历史经验减少训练消耗的时间。过历史经验减少训练消耗的时间。

【技术实现步骤摘要】
一种基于Dueling DQN的虚实融合一二级分离模型参数优化方法


[0001]本专利技术涉及航天器设计参数优化
,具体涉及一种火箭一二级分离系统仿真模型的参数优化,主要基于深度强化学习方法Dueling DQN网络进行模型参数优化。

技术介绍

[0002]航天领域设备研制具有系统复杂、难度大、关键技术多等特点,在研制过程中通常需要借助仿真技术手段,根据仿真结果开展分析验证工作,评估在各种偏差和故障工况下的总体综合性能,并根据结果对模型进行优化,进一步确保飞行试验和发射任务的成功。
[0003]虚实融合的航天复杂仿真模型,将获取成本高、实际数据量小的航天器数据与基于物理原理的仿真实验或半实物仿真数据相结合,提高了数据质量和数量,以便后续相关实验。由于系统使用环境复杂,且设计过程与实际实验过程中存在不确定影响,虚实融合的航天复杂仿真模型参数需要进一步优化与调整。
[0004]火箭一二级分离系统是一种典型的航天复杂系统,其具有模型结构复杂,控制参数多,不确定性高等特点。通过传统物理公式对一二级分离系统进行仿真建模,由于存在多种本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于Dueling DQN的虚实融合一二级分离模型参数优化方法,其特征在于,包括以下内容:建立目标模型对应的或使用已有的目标物理仿真模型TM;使用所述TM产生模拟数据D_TM;构建代理模型并使用所述D_TM进行训练得到符合要求的所述TM的代理模型Agent_TM;构建一二级分离参数优化算法模型,确定深度强化学习网络结构,将参数调优行为优化策略模型转化为马尔可夫决策过程模型;使用所述Agent_TM构建深度强化学习训练环境;所述深度强化学习网络基于所述强化学习训练环境对待优化参数进行学习寻优。2.根据权利要求1所述的方法,其特征在于,所述使用所述TM产生模拟数据D_TM的过程为:确定所述待优化参数的分布情况,所述分布为均值分布、正态分布或威布尔分布;对各所述待优化参数依据其分布随机取值,连同其它所述火箭一二级分离系统的确定参数一起构成输入参数,将输入参数输入所述TM得到由若干个参数组成的预测结果,将输入参数与预测结果合并为一组完整数据,即输入

输出对;重复上述过程得到多组输入

输出对,即模拟数据D_TM。3.根据权利要求2所述的方法,其特征在于,所述代理模型为BP神经网络模型,BP神经网络是由输入层、2层隐藏层和输出层构成的全连接神经网络,其输入层神经元个数等于所述TM的输入参数个数,其输出层神经元个数等于所述TM中目标结果个数,每个隐藏层神经元个数为128,使用SmoothL1Loss作为损失函数,使用Adam梯度下降方法,使用Relu函数作为激活函数,dropout率为0.5,动态学习率调整以及提前停止方式防止过拟合。4.根据权利要求3所述的方法,其特征在于,所述符合要求的所述Agent_TM满足置信度评估结果C≥90%。5.根据权利要求4所述的方法,其特征在于,所述C通过以下过程获得:(1)根据所述TM各项输入参数分布产生输入数据D;(2)将所述D分别输入物理仿真模型与所述代理模型产生物理仿真模型输出数据O
SM
和代理模型输出数据O
SU
;(3)计算所述O
SM
的平均向量μ以及协方差矩阵M;(4)分别计算所述O
SM
与所述O
SU
中每个向量相对所述μ以及所述M的马氏距离,产生两组新的马氏距离数据结果M
SM
与M
SU
;(5)根据所述M
SM
与M
SU
通过下式分别计算近似的联合概率密度分布函数CDF
SM
与CDF
SU
::其中,n为样本数量,x
i
为n个样本中第i个样本所对应的距离,x
max
为n个样本中每个样本所对应的距离的最大值;(6)根据所述CDF
SM
与CDF
SU
通过下式计算数据范围内两个概率密度分布函数面积差D'以及仿真模型输出概率度函数面积D:
其中,d
min
与d
max
分别代表所述M
SM
中的最大值与最小值;(7)根据所述D'与D通过下式计算置信度结果C:6.根据权利要求5所述的方法,其特征在于,所述构建一二级分离参数优化算法模型,确定深度强化学习网络结构,将参数调优行为优化策略模型转化为马尔可夫决策过程模型为:马尔可夫决策过程是一个五元组<S,A,P,R,γ>模型,包括状态空间S={s1,s2,...,s
t
}、动作空间A={a1,a2,...,a
t
}、状态转移概率P、奖励函数R和折扣因子γ五部分,其中,s
t
为t时刻的状态,a
t
表示t时刻状态下选择的动作,奖励函数R计算t时刻s
t
下采取动作a
t
获得的奖励r
t
,折扣因子γ取0.9,状态转移概率P表示由一个状态转移到另一个状态的概率,即在深度强化学习中在s
t
状态采取动作a
t
的概率,由深度神经网络Dueling DQN计算Q值得到;Dueling DQN网络的结构如下:一个输入层与2个全连接隐藏层依次连接,输入层节点数与s
t
的元素个数相同,每个隐藏层节点数为128,记为公共部分网络;第二个隐藏层分别与价值函数独有网络和优势函数独有网络连接,价值函数独有网络由依次相连的隐藏层和输出层组成,隐藏层节点数为128,输出层节点数为1;优势函数独有网络由依次相连的隐藏层和输出层组成,隐藏层节点数为128,输出层节点数与待优化参数个数相同;网络的输入为t时刻的状态s
t
,网络的输出为t时刻的Q值;Dueling DQN将Q值函数表示为价值函数V(s;θ,α)和优势函数A(s,a;θ,β)之和,即:Q(s,a;θ,α,β)=V(s;θ,α)+A(s,a;θ,β)其中,s表示状态,θ表示公共部分网络参数,α表示价值函数独有网络...

【专利技术属性】
技术研发人员:张美慧史继筠何祎君侯佳成
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1