一种基于深度强化学习的飞行器智能控制器训练方法技术

技术编号：41305082 阅读：3 留言：0更新日期：2024-05-13 14:50

本发明专利技术公开了一种基于深度强化学习的飞行器智能控制器训练方法，构建含有突变干扰的飞行器仿真环境，构建支持分布式交互的深度强化学习飞行器智能控制平台，设计基于深度强化学习的飞行器过载和姿态控制算法，设计基于目标性能指标的奖励函数自学习算法。本发明专利技术在飞行器模型不准确、非线性、强耦合、多约束的条件下，得到了行器环境状态值和控制指令之间的非线性映射，具有更快的求解响应能力、更好的稳定性和更高的鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于深度强化学习的飞行器智能控制器训练方法，属于飞行器的控制器设计领域。

技术介绍

1、飞行器控制系统是关系飞行成败的关键系统之一，作用是接受来自制导系统的指令，根据指令控制飞行器在各种干扰条件下稳定飞行并根据指令控制飞行器的姿态进而修正轨迹保证航迹准确。随着飞行器应用环境的复杂化以及高速飞行器的干扰技术发展，这对控制系统的准确性、抗干扰性和自适应性提出了更高的控制要求。

2、目前，飞行器控制面临的主要问题是面对飞行器模型不准确、非线性、强耦合及多约束条件的情形下控制精度不高和自适应能力不足。另外，现代和未来战争的战场环境越来越复杂，机动目标有可能会使用各种干扰手段(例如伪装、隐蔽、欺骗等)试图躲避打击，从而达到干扰甚至破坏突防的目的，这就对飞行器控制系统的稳定性与鲁棒性提出了更高的要求。

3、目前已经有传统的控制理论应用于飞行器控制系统的设计，包括动态逆控制、反步法、滑模控制法、有限时间控制法等。总体来说，这些控制方法均很好地实现了控制目的，达到了良好的控制效果，但经典控制理论和现代控制理论均是基于模型的控制，而实际中对于飞行器复杂系统的建模总是存在一定的误差，且涉及到力、电、机械等环节的不确定性，这些因素会影响飞行器的控制效果甚至带来灾难性后果。

技术实现思路

1、本专利技术解决的技术问题是：克服现有技术的不足，提出了一种基于深度强化学习的飞行器智能控制器训练方法，得到飞行器环境状态值和控制指令之间的非线性映射，具有更快的求解响应能力、

2、本专利技术的技术解决方案是：

3、一种基于深度强化学习的飞行器智能控制器训练方法，包括：

4、构建含有突变干扰的飞行器仿真环境，根据俯仰和偏航舵偏控制指令，产生飞行器的环境状态值，并对生成的环境状态值进行奖励；所述飞行器的环境状态值包括飞行器位置、姿态、速度、加速度以及运行时间；

5、建立支持分布式交互的深度强化学习飞行器智能控制平台；用历史数据中飞行器环境状态值及对应的俯仰和偏航舵偏控制指令、飞行器仿真环境给出的奖励值进行强化学习训练，得到最大化实现飞行指标的控制策略，将所述控制策略作为飞行器智能控制器的控制方法。

6、优选的，建立支持分布式交互的深度强化学习飞行器智能控制平台，所述平台包括若干个分布式智能体、分布式仿真环境交互模块、历史数据收集模块；

7、所述分布式仿真环境交互模块用于各分布式智能体与飞行器仿真环境之间的数据交互；采用并行异步方法使用编程语言中的多线程模块，将不同的智能体以及环境副本交互的数据分配给不同的线程进行并行计算，每个智能体对应一个环境副本，每个智能体独立探索整个状态空间，并进行信息共享；

8、所述历史数据收集模块存储样本数据，包括智能体的飞行器环境状态值及对应的俯仰和偏航舵偏控制指令；使用udp通讯协议进行飞行器仿真环境与飞行器智能控制平台之间的实时通讯和数据转换。

9、所述分布式智能体的指令控制采用马尔可夫决策方法，获取历史数据中飞行器环境状态值作为状态空间值，从控制指令集中选择一个俯仰和偏航舵偏控制指令作为输出动作并输出至分布式仿真环境交互模块，并接收分布式仿真环境交互模块输入的执行所述指令后飞行器新的环境状态值及奖励值；通过q函数计算q值，评估所采取输出动作的价值；通过智能体的训练，不断地调整输出动作获得最大的累计奖励值。

10、优选的，采用双延迟深度确定性策略梯度算法，对飞行器环境状态值及选择的俯仰和偏航舵偏控制指令进行训练，包括：

11、将历史数据集中的飞行器环境状态值输入actor神经网络，生成控制飞行器的俯仰和偏航舵偏控制指令，将飞行器环境状态值、控制飞行器的俯仰和偏航舵偏控制指令、飞行环境根据所述指令生成的飞行器环境状态值及奖励值存入回放缓存池中；同时，飞行器环境状态值，生成的奖励函数值和对应的俯仰和偏航舵偏控制指令输入critic神经网络，由critic神经网络生成目标q值。

12、优选的，对actor网络的控制策略进行深度学习训练，包括：

13、初始化actor网络的神经网络参数πφ，critic网络的神经网络参数qθ；初始化目标网络参数，包括target actor策略网络和target critic价值网络参数与actor策略网络πφ和critic价值网络qθ相同；

14、从回放缓存池中随机采样数据(st,at,rt,st+1)，通过设计的损失函数和选定的优化器来训练actor策略网络πφ和critic价值网络qθ；更新target actor策略网络和target critic价值网络

15、计算critic网络的期望输出y为：

16、

17、其中，γ为折扣因子，r为奖励函数值，为价值网络目标值，为飞行器环境状态值，为actor策略网络目标值；

18、在训练过程中，critic网络使用均方差公式将值向期望输出y值逼近，actor网络中的策略πφ向最大化值的方向逼近，在经过多次迭代后，策略πφ为使得奖励函数最大化的策略。

19、优选的，根据飞行器过载输出和姿态跟踪指令信号的控制场景，设计基于目标性能指标的奖励函数：

20、r＝ra+ro+rh+rt

21、式中，ra为与飞行器攻角相关的奖励函数，ro为与飞行器过载量相关的奖励函数，rt为与飞行器时间相关的奖励函数，rh为与飞行器高度相关的奖励函数。

22、优选的，设计与飞行器攻角相关的奖励函数ra：

23、ra＝ba-ka(ac-at)2

24、其中，ba为飞行器攻角奖励偏置，ka飞行器攻角奖励倍数，ac为当前飞行器攻角传感器测量值，at为飞行器攻角目标值。

25、优选的，设计与飞行器过载量相关的奖励函数ro：

26、ro＝bo-ko(oc-ot)2

27、其中，ba为飞行器过载量奖励偏置，ko飞行器过载量奖励倍数，oc为当前飞行器过载量传感器测量值，ot为飞行器过载量目标值。

28、优选的，设计与飞行器高度相关的奖励函数：

29、

30、其中，kh为飞行器高度奖励偏置值，且kh＞0，引导智能体始终维持在地表以上高度的位置。

31、优选的，设计与飞行器时间相关的奖励函数：

32、rt＝rt

33、其中，rt为飞行器时间奖励偏置值，且rt＞0。

34、优选的，设计奖励函数自学习算法：

35、采集历史数据收集模块中多个相同环境下的时序数据，存储至序列数据回放缓存池中，以最小时序数据长度h进行对所有数据进行切分，序列数据回放缓存池中数据格式为{sk,ak,…,sk+h,ak+h}形式；

36、设计目标性能比较器，比较同一环境不同时间序列数据的控制性能，输出优劣偏好值，目标性能根据信号偏差值和响应时间设计本文档来自技高网...

【技术保护点】

1.一种基于深度强化学习的飞行器智能控制器训练方法，其特征在于，包括：

2.根据权利要求1所述的飞行器智能控制器训练方法，其特征在于，建立支持分布式交互的深度强化学习飞行器智能控制平台，所述平台包括若干个分布式智能体、分布式仿真环境交互模块、历史数据收集模块；

3.根据权利要求2所述的飞行器智能控制器训练方法，其特征在于，采用双延迟深度确定性策略梯度算法，构建Actor-Critic决策神经网络框架，对飞行器环境状态值及选择的俯仰和偏航舵偏控制指令进行训练，包括：

4.根据权利要求3所述的飞行器智能控制器训练方法，其特征在于，对Actor网络的控制策略进行强化学习训练，包括：

5.根据权利要求4所述的飞行器智能控制器训练方法，其特征在于，根据飞行器过载输出和姿态跟踪指令信号的控制场景，设计基于目标性能指标的奖励函数：

6.根据权利要求5所述的飞行器智能控制器训练方法，其特征在于，设计与飞行器攻角相关的奖励函数Ra：

7.根据权利要求5所述的飞行器智能控制器训练方法，其特征在于，设计与飞行器过载量相关的奖励函数Ro：

8.根据权利要求5所述的飞行器智能控制器训练方法，其特征在于，设计与飞行器高度相关的奖励函数：

9.根据权利要求5所述的飞行器智能控制器训练方法，其特征在于，设计与飞行器时间相关的奖励函数：

10.根据权利要求5所述的飞行器智能控制器训练方法，其特征在于，设计奖励函数自学习算法：

...

【技术特征摘要】

1.一种基于深度强化学习的飞行器智能控制器训练方法，其特征在于，包括：

3.根据权利要求2所述的飞行器智能控制器训练方法，其特征在于，采用双延迟深度确定性策略梯度算法，构建actor-critic决策神经网络框架，对飞行器环境状态值及选择的俯仰和偏航舵偏控制指令进行训练，包括：

4.根据权利要求3所述的飞行器智能控制器训练方法，其特征在于，对actor网络的控制策略进行强化学习训练，包括：

5.根据权利要求4所述的飞行...

【专利技术属性】
技术研发人员：何永宁，陈光山，高轶琳，孙晓晖，张万超，史树峰，
申请(专利权)人：上海航天控制技术研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人