System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于强化学习随机控制的一体化制导控制系统与方法技术方案_技高网

基于强化学习随机控制的一体化制导控制系统与方法技术方案

技术编号:41349035 阅读:4 留言:0更新日期:2024-05-20 10:03
本发明专利技术公开了一种基于强化学习随机控制的一体化制导控制方法与系统,属于导弹制导与控制技术领域,该方法首先建立受到随机干扰的导弹非仿射制导控制一体化模型,引入辅助积分系统对随机干扰的制导控制一体化模型的非仿射输入问题进行分析并生成增广系统模型;其次,采用actor‑critic神经网络拟合增广系统模型的不确定性,经过更新迭代最终得到增广系统模型不确定性的最优估计;最后,采用反步法设计增广系统模型的虚拟控制律,将虚拟控制律转化为控制信号,使增广系统模型的系统误差趋于0;该方法实现了在导弹制导以及姿态控制的过程产生的附加干扰、模型存在未知部分和随机噪声多重困难情况下飞行器可以高精度命中目标。

【技术实现步骤摘要】

本专利技术涉及导弹制导与控制,具体为基于强化学习随机控制的一体化制导控制系统与方法


技术介绍

1、长期以来,导弹武器系统在现代战争中占据重要地位,导弹在精准清除、火力压制、掩护地面推进等方面的重要作用。制导和控制是导弹系统的关键技术之一。首先,侧滑转弯技术可以使导引导弹的滚转、俯仰和偏航动力学之间的惯性交叉耦合忽略不计。而随着导弹不断朝强机动、大过载的方向发展,在导弹系统中采用制导控制一体化设计方法,可以避免传统设计方法中基于时标分离假设而导致的复杂设计过程和高昂的设计成本,同时可以提高导弹的飞行性能。其次,在飞行器系统中,执行器和传感器的故障是普遍存在的,忽视这些故障可能会导致系统性能下降甚至不稳定。再者,由于导弹系统内部的气动特性会导致俯仰舵等执行器的输出是非仿射形式,因此对于纯反馈系统,传统地反推设计已无法适用,难以分离构造严格反馈信号,这使得控制器的设计具有极大的挑战性。同时,制导控制系统中由于测量误差等原因会造成模型的输入不确定性,而强化学习中的actor-critic(ac)神经网络结构被用来处理系统的未知不确定性时具有优越性;以及导弹飞行过程中遇到的热流噪声会给系统带来随机噪声干扰,导致制导的命中率降低。


技术实现思路

1、针对现有技术中存在的问题,本专利技术提供一种基于强化学习随机控制的一体化制导控制系统与方法,该控制方法可以提高导弹的制导精度以及制导过程中的鲁棒性。

2、本专利技术是通过以下技术方案来实现:

3、一种基于强化学习随机控制的一体化制导控制方法,包括以下步骤:

4、步骤1、建立受到随机干扰的导弹非仿射制导控制一体化模型,引入辅助积分系统对随机干扰的制导控制一体化模型的非仿射输入问题进行分析,并生成增广系统模型;

5、步骤2、采用critic神经网络对增广系统模型的代价函数进行迭代寻优,得到代价函数的最优估计,并将最优代价函数的结果作为强化信号,采用actor神经网络拟合增广系统模型的不确定性,经过更新迭代最终得到增广系统模型不确定性的最优估计;

6、对增广系统模型中存在的干扰,采用双曲正切函数进行自适应补偿,得到增广系统模型的干扰估计值;

7、步骤3、根据增广系统模型的不确定性和随机噪声,并结合增广系统模型的不确定性的最优估计和干扰估计值,采用反步法设计增广系统模型的虚拟控制律,将虚拟控制律转化为控制信号,使增广系统模型的系统误差趋于最小。

8、优选的,步骤1中建立受到随机干扰的导弹非仿射制导控制一体化模型的方法如下:

9、根据stt导弹的纵向动力学以及平面导弹拦截目标的运动学,构建制导控制一体化模型,基于导弹飞行过程中的随机干扰因素对制导控制一体化模型进行改写,得到受到随机干扰的制导控制一体化模型。

10、优选的,所述受到随机干扰的制导控制一体化模型的表达式如下:

11、

12、

13、

14、其中,vr是相对速度沿los的投影;atλ是相对加速度垂直于los的投影;λ是沿los与参考线之间的夹角;nl,γm表示导弹的法向加速度和航迹角;tα是转换时间率常数,α,v,q表示导弹的攻角,速度,俯仰角速率;ρ,l,s表示空气密度,参考长度和参考面积,mm是马赫数;为气动系数;iyy表示导弹绕俯仰轴的惯性矩,是导弹飞行过程中的随机干扰,是随机干扰的增益系数。

15、优选的,步骤1中所述增广系统模型的生成方法如下:

16、基于飞行器的状态变量,将受到随机干扰的制导控制一体化模型转化为面向控制的系统模型,采用辅助积分系统对面向控制的系统模型的非仿射输入问题进行分析生成增广系统模型。

17、优选的,所述面向控制的系统模型的表达式如下:

18、

19、

20、

21、其中,δfi,i=1,2,3是测量引起的未知不确定性,是导弹飞行过程中遇到的随机干扰,是随机白噪声的幅值。

22、优选的,步骤2中所述代价函数的迭代寻优方法如下:

23、基于期望信号或增广系统模型的子系统的虚拟控制输出与实际控制输出的误差构建代价函数,利用梯度下降法更新critic神经网络的权重,使critic神经网络的平方误差函数最小,经过更新迭代最终得到代价函数的最优估计。

24、优选的,所述不确定性的最优估计的方法如下:

25、将critic神经网络输出的代价函数的最优估计作为强化信号,采用actor神经网络拟合增广系统模型的不确定性,利用梯度下降法更新actor神经网络的权重,使actor神经网络的平方误差函数最小,经过更新迭代最终得到不确定性的最优估计。

26、优选的,步骤3中根据反步法设计思想,确定增广系统模型的系统误差,其表达式如下:

27、z1(t)=x1(t)

28、z2(t)=g1(t)-g1d

29、z3(t)=g2(t)-g2d

30、z4(t)=g3(t)-g3d

31、其中,gid,i=1,2,3为增广系统模型各子系统的控制信号,0<τi<1,i=1,2,3是滤波时间常数。

32、优选的,步骤3所述使增广系统模型的控制方法如下:

33、所述增广系统模型包括内环子系统中间环子系统和外环子系统

34、根据内环子系统、中间环子系统和外环子系统的干扰、不确定性以及随机噪声,并结合增广系统模型的不确定性的最优估计和干扰估计值,采用反步法设计各子系统的虚拟控制律,并对虚拟控制律进行滤波得到各子系统的控制信号;

35、根据内环子系统的控制信号g1d控制增广系统模型的误差z1趋于0;

36、根据中环子系统的控制信号g2d使得增广系统模型中的实际信号g1趋于g1d,进而控制增广系统模型误差z2趋于0;

37、根据外环子系统的控制信号g3d使得控制增广系统模型中的实际信号g2趋于g2d,进而控制增广系统模型的误差z3趋于0;

38、根据增广系统模型中辅助积分系统,并结合增广系统模型的不确定性的最优估计和干扰估计值,采用反步法设计增广系统模型的辅助控制输入uf,根据辅助控制输入uf使得增广系统模型中的实际信号g3趋于g3d,进而控制增广系统模型的系统误差z4趋于0。

39、一种基于强化学习随机控制的一体化制导控制方法的系统,包括,

40、增广系统模块,用于建立受到随机干扰的导弹非仿射制导控制一体化模型,引入辅助积分系统对随机干扰的制导控制一体化模型的非仿射输入问题进行分析,并生成增广系统模型;

41、actor-critic网络模块,用于采用critic神经网络对增广系统模型的代价函数进行迭代寻优,得到代价函数的最优估计,并将最优代价函数的结果作为强化信号,采用actor神经网络拟合增广系统模型的不确定性,经过更新迭代最终得到增广系统模型不确定性的最优估计;...

【技术保护点】

1.一种基于强化学习随机控制的一体化制导控制方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于强化学习随机控制的一体化制导控制方法,其特征在于,步骤1中建立受到随机干扰的导弹非仿射制导控制一体化模型的方法如下:

3.根据权利要求1所述的一种基于强化学习随机控制的一体化制导控制方法,其特征在于,所述受到随机干扰的制导控制一体化模型的表达式如下:

4.根据权利要求1所述的一种基于强化学习随机控制的一体化制导控制方法,其特征在于,步骤1中所述增广系统模型的生成方法如下:

5.根据权利要求1所述的一种基于强化学习随机控制的一体化制导控制方法,其特征在于,所述面向控制的系统模型的表达式如下:

6.根据权利要求1所述的一种基于强化学习随机控制的一体化制导控制方法,其特征在于,步骤2中所述代价函数的迭代寻优方法如下:

7.根据权利要求6所述的一种基于强化学习随机控制的一体化制导控制方法,其特征在于,所述不确定性的最优估计的方法如下:

8.根据权利要求1所述的一种基于强化学习随机控制的一体化制导控制方法,其特征在于,步骤3中根据反步法设计思想,确定增广系统模型的系统误差,其表达式如下:

9.根据权利要求1所述的一种基于强化学习随机控制的一体化制导控制方法,其特征在于,步骤3所述使增广系统模型的控制方法如下:

10.一种执行权利要求1-9任一项所述基于强化学习随机控制的一体化制导控制方法的系统,其特征在于,包括,

...

【技术特征摘要】

1.一种基于强化学习随机控制的一体化制导控制方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于强化学习随机控制的一体化制导控制方法,其特征在于,步骤1中建立受到随机干扰的导弹非仿射制导控制一体化模型的方法如下:

3.根据权利要求1所述的一种基于强化学习随机控制的一体化制导控制方法,其特征在于,所述受到随机干扰的制导控制一体化模型的表达式如下:

4.根据权利要求1所述的一种基于强化学习随机控制的一体化制导控制方法,其特征在于,步骤1中所述增广系统模型的生成方法如下:

5.根据权利要求1所述的一种基于强化学习随机控制的一体化制导控制方法,其特征在于,所述面向控制的系统模型的表达式如下:

6....

【专利技术属性】
技术研发人员:王铮郝宇婷王时雨宁昕晁鲁静
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1