一种基于深度强化学习的飞行器智能控制器训练方法技术

技术编号:41305082 阅读:30 留言:0更新日期:2024-05-13 14:50
本发明专利技术公开了一种基于深度强化学习的飞行器智能控制器训练方法,构建含有突变干扰的飞行器仿真环境,构建支持分布式交互的深度强化学习飞行器智能控制平台,设计基于深度强化学习的飞行器过载和姿态控制算法,设计基于目标性能指标的奖励函数自学习算法。本发明专利技术在飞行器模型不准确、非线性、强耦合、多约束的条件下,得到了行器环境状态值和控制指令之间的非线性映射,具有更快的求解响应能力、更好的稳定性和更高的鲁棒性。

【技术实现步骤摘要】

本专利技术涉及一种基于深度强化学习的飞行器智能控制器训练方法,属于飞行器的控制器设计领域。


技术介绍

1、飞行器控制系统是关系飞行成败的关键系统之一,作用是接受来自制导系统的指令,根据指令控制飞行器在各种干扰条件下稳定飞行并根据指令控制飞行器的姿态进而修正轨迹保证航迹准确。随着飞行器应用环境的复杂化以及高速飞行器的干扰技术发展,这对控制系统的准确性、抗干扰性和自适应性提出了更高的控制要求。

2、目前,飞行器控制面临的主要问题是面对飞行器模型不准确、非线性、强耦合及多约束条件的情形下控制精度不高和自适应能力不足。另外,现代和未来战争的战场环境越来越复杂,机动目标有可能会使用各种干扰手段(例如伪装、隐蔽、欺骗等)试图躲避打击,从而达到干扰甚至破坏突防的目的,这就对飞行器控制系统的稳定性与鲁棒性提出了更高的要求。

3、目前已经有传统的控制理论应用于飞行器控制系统的设计,包括动态逆控制、反步法、滑模控制法、有限时间控制法等。总体来说,这些控制方法均很好地实现了控制目的,达到了良好的控制效果,但经典控制理论和现代控制理论均是基于模型的控制,而本文档来自技高网...

【技术保护点】

1.一种基于深度强化学习的飞行器智能控制器训练方法,其特征在于,包括:

2.根据权利要求1所述的飞行器智能控制器训练方法,其特征在于,建立支持分布式交互的深度强化学习飞行器智能控制平台,所述平台包括若干个分布式智能体、分布式仿真环境交互模块、历史数据收集模块;

3.根据权利要求2所述的飞行器智能控制器训练方法,其特征在于,采用双延迟深度确定性策略梯度算法,构建Actor-Critic决策神经网络框架,对飞行器环境状态值及选择的俯仰和偏航舵偏控制指令进行训练,包括:

4.根据权利要求3所述的飞行器智能控制器训练方法,其特征在于,对Actor网络的控制策略...

【技术特征摘要】

1.一种基于深度强化学习的飞行器智能控制器训练方法,其特征在于,包括:

2.根据权利要求1所述的飞行器智能控制器训练方法,其特征在于,建立支持分布式交互的深度强化学习飞行器智能控制平台,所述平台包括若干个分布式智能体、分布式仿真环境交互模块、历史数据收集模块;

3.根据权利要求2所述的飞行器智能控制器训练方法,其特征在于,采用双延迟深度确定性策略梯度算法,构建actor-critic决策神经网络框架,对飞行器环境状态值及选择的俯仰和偏航舵偏控制指令进行训练,包括:

4.根据权利要求3所述的飞行器智能控制器训练方法,其特征在于,对actor网络的控制策略进行强化学习训练,包括:

5.根据权利要求4所述的飞行...

【专利技术属性】
技术研发人员:何永宁陈光山高轶琳孙晓晖张万超史树峰
申请(专利权)人:上海航天控制技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1