一种基于强化学习的飞行器控制方法技术

技术编号:38757314 阅读:22 留言:0更新日期:2023-09-10 09:42
本发明专利技术公开了一种基于强化学习的飞行器控制方法,具体为:建立飞行器运动环境,并根据控制目标设计控制性能验证指标;建立马尔可夫决策过程,构建智能控制方式,将控制过程转化为决策过程,搭建强化学习环境,通过神经网络来拟合控制目标与相关自变量关系,在不同的飞行器飞行状态下给出最优解;选择强化学习算法并构建状态空间、动作空间和奖惩函数,进行归一化;设计训练空间,预设控制指令空间并进行训练;根据控制律设计需求,设计基于经典控制的三回路过载驾驶仪,在不同时间段跟踪不同的阶跃过载,并且通过控制性能验证指标来比对性能差异。本发明专利技术可以更好的适应飞行器飞行过程中遇到强干扰、大攻角改变等情形,控制效果得到较高提升。到较高提升。到较高提升。

【技术实现步骤摘要】
一种基于强化学习的飞行器控制方法


[0001]本专利技术涉及自动控制与强化学习
,特别是一种基于强化学习的飞行器控制方法。

技术介绍

[0002]自动驾驶仪是飞行制导,控制不可缺少的部件,核心作用是保证飞行器精确、稳定的跟踪制导系统生成的指令信号,使飞行器根据指令信号产生相应的控制力和力矩,从而让飞行器稳定飞行至目标点。自动驾驶仪可以增加飞行器阻尼,保持系统稳定性,加快飞行器响应速度,提高飞行器抗干扰能力,并且能精确、快速的跟踪输入指令。目前应用最广泛的为过载自动驾驶仪,跟踪信号为过载信号。
[0003]现有基于经典控制方法的过载自动驾驶仪,由于在设计过程中使用小扰动,线性化等方法来辅助完成设计,使得设计结果在面对大攻角改变等情形时,效果并不理想。并且基于反馈的调节方式,并不能第一时间给出较好解,积分初值往往难以选取。经典设计方法存在以下问题:(1)过多的依赖设计者的设计经验,尝试性强;(2)设计过程繁琐,尤其处理多输入多输出的系统时更加难以设计,难以完全的掌握系统的性能;(3)基于选取特征点的设计方式,无法全盘考虑控制系统性能,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的飞行器控制方法,其特征在于,包括以下步骤:步骤1、根据飞行动力学,建立飞行器运动环境,并根据控制目标设计控制性能验证指标;步骤2、根据飞行器运动环境建立马尔可夫决策过程,构建智能控制方式,将控制过程转化为决策过程,搭建强化学习环境,通过神经网络来拟合控制目标与相关自变量关系,在不同的飞行器飞行状态下给出最优解;步骤3、根据设计的强化学习环境,选择强化学习算法并构建状态空间、动作空间和奖惩函数,然后进行归一化;步骤4、根据强化学习算法,设计训练空间,预设控制指令空间并进行训练;步骤5、在步骤4训练完成后,根据控制律设计需求,设计基于经典控制的三回路过载驾驶仪,在不同时间段跟踪不同的阶跃过载,并且通过控制性能验证指标来比对性能差异。2.根据权利要求1所述的基于强化学习的飞行器控制方法,其特征在于,步骤1中,控制性能验证指标的设计具体如下:设计三种控制性能验证指标,分别为启控时间到达第一次跟踪上信号的过渡时间、在该时间内与控制量的偏差和、第一次跟踪上信号时间后保持在跟踪信号
±
5%范围内的维系时间。3.根据权利要求1所述的基于强化学习的飞行器控制方法,其特征在于,步骤2中智能控制方式为:根据实际情况,选择控制机构为舵机,控制指令信号为纵向过载,采取端到端的控制方式,通过当前的火箭状态和过载指令直接给出当前的舵偏值,使用预设多种过载指令的做法,不断地通过尝试拟合预设指令与舵偏之间的关系,并通过真实的仿真环境训练,得到当前状态及连续状态下,在预设控制指令下得到的一系列最优舵偏值,其中没有预设的指令,通过拟合后的神经网络自动给出,根据过载和状态关系,设计马尔可夫决策过程,并同时设计奖励函数。4.根据权利要求1所述的基于强化学习的飞行器控制方法,其特征在于,步骤3中的强化学习算法为:使用actor

critic双网络来调整参数,即通过actor网络采样,由critic网络给出评价,但是由于每次更新后,实际上动作策略和更新策略并不相同,因此采用重要性采样;actor网络动作策略π
ε

,与环境交互,采样出轨迹ε

,来更新进化策略π
ε
;actor网络在参数ε下在状态s
t
,采取动作a
t
的奖励为a
t
,并计算这个状态跟动作对的优势A
ε
(s
t
,a
t
);A
ε
(s
t
,a
t
)就是累积奖励减掉偏置项;如果A
ε
(s
t
,a
t
)为正的,就要增加概率,如果是负的,就要减少概率。5.根据权利要求1所述的基于强化学习的飞行器控制方法,其特征在于,步骤2中所述将控制过程转化为决策过程,具体如下:将基于反馈的控制过程改变为基于当前状态的决策过程,从当前的状态直接得出达到控制目标的解;智能控制是基于数据的决策方式,认为火箭的控制过程是连续的,且认为当前状态下到达下一状态的概率为100%,即飞行过程的连续性,并且在设定状态下取得最好的跟踪效果的舵偏值有且只有一个;马尔可夫过程通过采取不断调节策略的参数,取得该策略下的总奖励值最高;将马尔可夫过程的奖励设置为与指令信号的差值,并取负值,使智...

【专利技术属性】
技术研发人员:白宏阳赵大想孙瑞胜薛帅曹宇
申请(专利权)人:南京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1