基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法技术

技术编号:27195089 阅读:20 留言:0更新日期:2021-01-31 11:47
本发明专利技术公开了一种基于深度确定性策略算法的飞行器大迎角摇滚抑制方法,包括搭建摇滚抑制问题强化学习环境和针对控制目标设计深度确定性策略智能体两部分,将目标飞行器模型安装在风洞中的滚转单自由度释放机构上,在每一个时间步上,根据滚转单自由度释放机构采集到的数据和智能体输送进来的舵机控制指令生成一组经验数据,并将这组经验数据添加到经验缓存区,以供智能体采样进行控制策略自学习;在每一个时间步上,通过从经验数据缓存区采样得到的经验数据,基于深度确定性策略梯度算法,调节四个深度网络的参数,通过向强化学习环境输送舵机控制指令。本发明专利技术采用深度确定性策略梯度方法,实现不依赖于模型的飞行器大迎角摇滚最优控制器设计。角摇滚最优控制器设计。角摇滚最优控制器设计。

【技术实现步骤摘要】
基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法


[0001]本专利技术属于大迎角飞行控制
,特别是一种基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法。

技术介绍

[0002]飞行器在大迎角机动情况下,非常容易产生摇滚非指令运动,对于细长三角翼而言(后掠角≥75
°
),通常表现为以零度滚转角为中心的极限环振荡,对于非细长三角翼而言(后掠角≤65
°
),摇滚通常伴随有非零滚转中心角。这种摇滚运动对于高机动飞行器而言非常危险,但是为了完成某些机动动作,有时候必须要进入大迎角区域。
[0003]飞行器大迎角情况下的气动特性表现出高度非定常非线性现象。一方面,由于其气动特性复杂,致使传统的基于精确模型的PID等控制方法在这一特定迎角范围控制效果表现糟糕;另一方面,在大迎角下,为飞行器建立精确的气动模型本身就是非常困难的一项工作,所以很多基于模型的现代先进控制设计方法,如鲁棒控制等,也因为这一问题难以开展。

技术实现思路

[0004]本专利技术基于深度确定性策略梯度,结合低速风洞实验,提出一种基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法。
[0005]为实现上述目的,本专利技术采用的技术方案如下:一种基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法,该方法包括:通过虚拟飞行技术搭建强化学习环境:将目标飞行器模型安装在风洞中的滚转单自由度释放机构上,在每一个时间步上,将滚转单自由度释放机构采集到的数据作为观测量,将智能体输送进来的舵机控制指令作为动作量,基于观测量和动作量,计算此动作产生的奖励信号,并组合观测量,动作量以及奖励信号生成一组经验数据,并将这组经验数据添加到经验缓存区,以供智能体采样进行控制策略自学习;构建摇滚抑制深度确定性策略梯度算法智能体:在每一个时间步上,通过从经验数据缓存区采样得到的经验数据,基于深度确定性策略梯度算法,调节四个深度网络的参数,通过向强化学习环境输送舵机控制指令。
[0006]与现有技术相比,本专利技术的显著优点为:(1)常规的控制方法需要提供一个相对准确的动力学模型,在此基础上进行控制律的设计,而大迎角建模是一个很复杂的问题,本专利技术绕开了非线性气动力难以精确建模的困境,采用深度确定性策略梯度方法,实现不依赖于模型的飞行器大迎角摇滚最优控制器设计;(2)由于大迎角情况下,飞行器的动力学特性极度非线性,故其最优控制策略往往是关于观测量的非线性函数,本专利技术由于采用了神经网络来表达策略,神经网络具有表达任何一种非线性函数的能力,故智能体可以自学习出任何一种非线性的控制律。
附图说明
[0007]图1为风洞实验滚转单自由度释放机构示意图。
[0008]图2为强化学习环境结构示意图。
[0009]图3为针对摇滚抑制的DDPG算法流程图。
具体实施方式
[0010]将强化学习应用于解决飞行器大迎角非指令运动是新颖可行的思路,强化学习起源于生物对于自身行为的学习过程。生物通过对过往行为所获得回报的多少来评估自己行为的正确性,通过尝试和犯错学习正确的行为方式。对于生物来说,所处的世界一开始对于他们是未知的,但是它们却可以通过不断地尝试学会很多有益的行为。具体而言,一个典型的强化学习系统由两部分组成,一是智能体,二是环境。智能体并不是一个实体,可以把它理解为一个具有自学习功能的控制器,环境的动态特性对于智能体来说是未知的,但是智能体可以观测环境,并根据观测做出行动。在行动之后,智能体获得奖励,强化学习通过与环境的交互来学习,实现最大化累积奖励。强化学习完全通过数据来驱动最优(智能体长期累积奖励最大化)控制器的形成,所以说,强化学习为完全不依赖模型的最优控制器设计提供了一种思路。
[0011]本专利技术基于强化学习思想,利用深度确定性策略梯度算法,设计一种完全不依赖模型的摇滚抑制控制律设计方法,旨在抑制飞行器大迎角摇滚非指令运动。
[0012]一种基于深度确定性策略算法的飞行器大迎角摇滚抑制控制器设计方法,该方法包括:通过虚拟飞行技术搭建强化学习环境:将目标飞行器模型安装在风洞中的滚转单自由度释放机构上,在每一个时间步上,将滚转单自由度释放机构采集到的数据作为观测量,将智能体输送进来的舵机控制指令作为动作量,基于观测量和动作量,根据自定义的合理的奖励信号,计算此动作产生的奖励信号,并组合观测量,动作量以及奖励信号生成一组经验数据,并将这组经验数据添加到经验缓存区,以供智能体采样进行控制策略自学习;构建摇滚抑制深度确定性策略梯度算法智能体:在每一个时间步上,通过从经验数据缓存区采样得到的经验数据,基于深度确定性策略梯度算法,调节四个深度网络的参数,通过向强化学习环境输送舵机控制指令,对飞行器模型的姿态数据产生影响。
[0013]进一步的,通过虚拟飞行技术搭建的强化学习环境中,观测量是一个四维向量,分别由滚转角、滚转角速度、侧滑角、侧滑角速度组成。
[0014]进一步的,通过虚拟飞行技术搭建的强化学习环境,奖励信号由四项组成,分别用于惩罚飞行器滚转角偏离零度的行为、惩罚飞行器控制量过大的行为、惩罚飞行器观测量或者控制量超出限定条件的行为以及奖励飞行器将滚转角控制在精度要求以内的行为。
[0015]进一步的,滚转单自由度释放机构上安装有高精度磁编码器,运营获取飞行器实时的滚转角和滚转角速度数据,并通过采集板卡传输到工作站;在安装时,滚转单自由度释放机构轴线的方向穿过飞行器模型的重心位置,飞行器实验模型上安装舵机用以控制飞行器的舵面。
[0016]进一步的,飞行器摇滚抑制深度确定性策略梯度算法智能体包括四个深度神经网络,其中,执行者和目标执行者网络以观测量为输入,以舵机控制量为输出,两个网络结构
一致;评论者和目标评论者网络以观测量和舵机控制量的组合量为输入,以在当前时刻观测量、当前时刻策略及当前输出控制量条件下所估计的智能体未来累积折扣奖励值为输出,两个网络结构一致。
[0017]进一步的,摇滚抑制深度确定性策略梯度算法智能体,无需为飞行器建立任何模型,通过向强化学习环境输送舵机控制指令,产生经验数据,基于经验数据构造经验缓存区,用于学习最优控制策略,使得飞行器在采用执行者网络输出舵机控制指令的时候,能够获得最大化的长期累积折扣奖励。
[0018]所述强化学习环境基于搭建的硬件在环虚拟飞行技术实验平台。在低速风洞中,将飞行器缩比实验模型安装在带有高精度磁编码器的滚转单自由度释放机构上,将磁编码器与计算机上通过无线方式进行连接,实时获取状态观测量,并通过状态观测量和智能体输出的控制量数据,通过本专利技术中定义的深度确定性策略奖励形式,计算实时的奖励,将这些数据整合,存入到经验池之中,以供智能体学习更优的摇滚抑制策略;所述深度确定性策略智能体,在每一时间步上,从经验池采样特定大小的经验数据,基于监督式学习中的神经网络训练方式来训练智能体中的评论者网络和目标评论者网络,基于确定性策略梯度的方式来训练执行者网络和目标执行者网络,最终使执行者网络获取使得长期累积折扣奖励最大化的控本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法,其特征在于,该方法包括:通过虚拟飞行技术搭建强化学习环境:将目标飞行器模型安装在风洞中的滚转单自由度释放机构上,在每一个时间步上,将滚转单自由度释放机构采集到的数据作为观测量,将智能体输送进来的舵机控制指令作为动作量,基于观测量和动作量,计算此动作产生的奖励信号,并组合观测量,动作量以及奖励信号生成一组经验数据,并将这组经验数据添加到经验缓存区,以供智能体采样进行控制策略自学习;构建摇滚抑制深度确定性策略梯度算法智能体:在每一个时间步上,通过从经验数据缓存区采样得到的经验数据,基于深度确定性策略梯度算法,调节四个深度网络的参数,通过向强化学习环境输送舵机控制指令。2.根据权利要求1所述的基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法,其特征在于,通过虚拟飞行技术搭建的强化学习环境,观测量是一个四维向量,由滚转角、滚转角速度、侧滑角、侧滑角速度组成。3.根据权利要求1所述的基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法,其特征在于,通过虚拟飞行技术搭建的强化学习环境,奖励信号由四项组成,分别用于惩罚飞行器滚转角偏离零度的行为、惩罚飞行器控制量过大的行为、惩罚飞行器观测量或者控制量超出限定条件的行为以及奖励飞行器将...

【专利技术属性】
技术研发人员:陈坤
申请(专利权)人:南京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1