The invention discloses a Q-learning automatic parameter adjustment method for an aircraft attitude control loop, which includes: establishing an aircraft attitude control model and an attitude controller structure with preset multiple complex nonlinear factors; designing an environment state and parameter adjustment action and learning reward for interactive learning according to each aircraft attitude control simulation experiment result; and The state of interactive learning environment, parameter adjustment action, learning reward and historical learning experience Q value corresponding to the results of state control simulation experiment are used to update the learning experience Q value; the parameter adjustment action is selected by using the learning experience Q value updated after each aircraft simulation experiment; the aircraft attitude control simulation experiment is executed according to the selected parameter adjustment action; if the experimental results are concluded Beam condition, then output controller parameters, otherwise update learning experience Q value. The method of the invention can realize the automatic adjustment of the attitude control parameters of the aircraft.
【技术实现步骤摘要】
一种飞行器姿态控制回路的Q学习自动调参方法
本专利技术属于飞行器姿态控制
,涉及飞行器姿态控制器的参数调节领域,特别涉及一种飞行器姿态控制回路的Q学习自动调参方法。
技术介绍
飞行器姿态角包括俯仰角、偏航角和滚转角,描述了飞行器与地面坐标系的相对姿态。飞行器姿态决定了飞行器的运动方向、飞行高度、飞行速度等物理状态。因此,姿态控制是飞行器控制中的核心环节。飞行器姿态控制问题受到诸多未知的、非线性的因素影响,例如舵面控制输入饱和、姿态角量测噪声、未知的气动数据偏差、舵面控制输入延迟等。经过近几十年的研究,已有许多成熟的飞行器姿态控制器设计方法,包括定点线性化的比例-微分误差反馈控制方法、利用风动数据的动态逆控制方法、自抗扰控制方法、滑模控制方法等。然而,由于飞行器姿态控制问题中的诸多未知的、非线性的因素,并且不同飞行器的物理特性不同,导致这类未知非线性因素的影响不同。因此,针对特定的飞行器结构与气动数据,上述控制方法的控制器参数需要重新调节。这导致实际工程中需要耗费大量的人力与时间来重复参数调节过程。如何设计一种能够自动调节控制器参数的方法,节省飞行器姿态控制器参数调节的人力与时间成本,是飞行器控制工程中亟需解决的问题。
技术实现思路
本专利技术的目的在于提供一种飞行器姿态控制回路的Q学习自动调参方法,以解决上述存在的一个或多个技术问题。本专利技术的方法,能够实现飞行器姿态控制参数自动调节。为达到上述目的,本专利技术采用以下技术方案:本专利技术的一种飞行器姿态控制回路的Q ...
【技术保护点】
1.一种飞行器姿态控制回路的Q学习自动调参方法,其特征在于,包括以下步骤:/n步骤1,建立带有预设多种复杂非线性因素的飞行器姿态控制模型与姿态控制器结构;/n步骤2,针对每一次飞行器姿态控制仿真实验结果,设计交互学习的环境状态、参数调整动作与学习奖励;/n步骤3,根据每一次飞行器姿态控制仿真实验结果对应的交互学习环境状态、参数调整动作、学习奖励以及历史学习经验Q值,更新学习经验Q值;/n步骤4,利用每一次飞行器仿真实验后更新的学习经验Q值,选择参数调节动作;/n步骤5,根据步骤4选择的参数调节动作,执行飞行器姿态控制仿真实验;若实验结果达成结束条件,则输出控制器参数,否则,跳转至步骤3,更新学习经验Q值。/n
【技术特征摘要】
1.一种飞行器姿态控制回路的Q学习自动调参方法,其特征在于,包括以下步骤:
步骤1,建立带有预设多种复杂非线性因素的飞行器姿态控制模型与姿态控制器结构;
步骤2,针对每一次飞行器姿态控制仿真实验结果,设计交互学习的环境状态、参数调整动作与学习奖励;
步骤3,根据每一次飞行器姿态控制仿真实验结果对应的交互学习环境状态、参数调整动作、学习奖励以及历史学习经验Q值,更新学习经验Q值;
步骤4,利用每一次飞行器仿真实验后更新的学习经验Q值,选择参数调节动作;
步骤5,根据步骤4选择的参数调节动作,执行飞行器姿态控制仿真实验;若实验结果达成结束条件,则输出控制器参数,否则,跳转至步骤3,更新学习经验Q值。
2.根据权利要求1所述的一种飞行器姿态控制回路的Q学习自动调参方法,其特征在于,步骤1中,建立的带有多种复杂非线性因素的飞行器姿态控制模型表达式为:
其中,θ(t)∈R为飞行器在t时刻的姿态角,ω(t)∈R为飞行器在t时刻的姿态角速度,b(t)∈R为飞行器在t时刻的舵面效率,δ(t)∈R为飞行器在t时刻的舵面角度,f(θ(t),ω(t),δ(t))∈R为飞行器在t时刻受到的内部气动参数不确定性与外部风干扰,θm(t)∈R为飞行器在t时刻的姿态角测量值,τ∈R为飞行器姿态角测量值的延迟,n∈R为飞行器姿态角测量值的噪声,sat(δ(t))为飞行器舵面角度的饱和环节;
sat(δ(t))表达式为:
其中,δmax∈R为飞行器舵面角度上界约束,δmin∈R为飞行器舵面角度下界约束。
3.根据权利要求2所述的一种飞行器姿态控制回路的Q学习自动调参方法,其特征在于,步骤1中,设计的姿态控制器结构为:
δ(t)=fc(θm(t),θr(t),τ,δmax,δmin,λ),
其中,fc(θm,θr,τ,δmax,δmin,λ)∈R为已设计的舵面角度控制量,θr(t)∈R为飞行器在t时刻的姿态角参考信号,λ∈Rl为姿态控制器的待调节参数向量,l∈R为姿态控制器的待调节参数个数。
4.根据权利要求3所述的一种飞行器姿态控制回路的Q学习自动调参方法,其特征在于,步骤2中,
设系统仿真实验运行时间区间为[0,T],其中T∈R为单次飞行器姿态控制仿真实验运行结束时间;选取特征时间点其中it∈R为特征时间点的计数指标,Nt∈R为特征时间点的总个数,为特征时间点;
根据第k次的飞行器姿态控制仿真实验结果,设计交互学习的环境状态S(k):
其中,k∈R为仿真实验次数计数指标,为第k次仿真实验对应的Nt维环境状态,为第k次仿真实验对应的第is维环境状态分量,is∈R为环境状态分量的计数指标,εθ∈R为可接受的姿态角...
【专利技术属性】
技术研发人员:陈森,白文艳,赵志良,
申请(专利权)人:陕西师范大学,北京航天自动控制研究所,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。