一种飞行器姿态控制回路的Q学习自动调参方法技术

技术编号:22783372 阅读:29 留言:0更新日期:2019-12-11 04:02
本发明专利技术公开了一种飞行器姿态控制回路的Q学习自动调参方法,包括:建立带有预设多种复杂非线性因素的飞行器姿态控制模型与姿态控制器结构;针对每一次飞行器姿态控制仿真实验结果,设计交互学习的环境状态、参数调整动作与学习奖励;根据每一次飞行器姿态控制仿真实验结果对应的交互学习环境状态、参数调整动作、学习奖励以及历史学习经验Q值,更新学习经验Q值;利用每一次飞行器仿真实验后更新的学习经验Q值,选择参数调节动作;根据选择的参数调节动作,执行飞行器姿态控制仿真实验;若实验结果达成结束条件,则输出控制器参数,否则更新学习经验Q值。本发明专利技术的方法,能够实现飞行器姿态控制参数自动调节。

A Q-learning automatic parameter adjustment method for aircraft attitude control loop

The invention discloses a Q-learning automatic parameter adjustment method for an aircraft attitude control loop, which includes: establishing an aircraft attitude control model and an attitude controller structure with preset multiple complex nonlinear factors; designing an environment state and parameter adjustment action and learning reward for interactive learning according to each aircraft attitude control simulation experiment result; and The state of interactive learning environment, parameter adjustment action, learning reward and historical learning experience Q value corresponding to the results of state control simulation experiment are used to update the learning experience Q value; the parameter adjustment action is selected by using the learning experience Q value updated after each aircraft simulation experiment; the aircraft attitude control simulation experiment is executed according to the selected parameter adjustment action; if the experimental results are concluded Beam condition, then output controller parameters, otherwise update learning experience Q value. The method of the invention can realize the automatic adjustment of the attitude control parameters of the aircraft.

【技术实现步骤摘要】
一种飞行器姿态控制回路的Q学习自动调参方法
本专利技术属于飞行器姿态控制
,涉及飞行器姿态控制器的参数调节领域,特别涉及一种飞行器姿态控制回路的Q学习自动调参方法。
技术介绍
飞行器姿态角包括俯仰角、偏航角和滚转角,描述了飞行器与地面坐标系的相对姿态。飞行器姿态决定了飞行器的运动方向、飞行高度、飞行速度等物理状态。因此,姿态控制是飞行器控制中的核心环节。飞行器姿态控制问题受到诸多未知的、非线性的因素影响,例如舵面控制输入饱和、姿态角量测噪声、未知的气动数据偏差、舵面控制输入延迟等。经过近几十年的研究,已有许多成熟的飞行器姿态控制器设计方法,包括定点线性化的比例-微分误差反馈控制方法、利用风动数据的动态逆控制方法、自抗扰控制方法、滑模控制方法等。然而,由于飞行器姿态控制问题中的诸多未知的、非线性的因素,并且不同飞行器的物理特性不同,导致这类未知非线性因素的影响不同。因此,针对特定的飞行器结构与气动数据,上述控制方法的控制器参数需要重新调节。这导致实际工程中需要耗费大量的人力与时间来重复参数调节过程。如何设计一种能够自动调节控制器参数的方法,节省飞行器姿态控制器参数调节的人力与时间成本,是飞行器控制工程中亟需解决的问题。
技术实现思路
本专利技术的目的在于提供一种飞行器姿态控制回路的Q学习自动调参方法,以解决上述存在的一个或多个技术问题。本专利技术的方法,能够实现飞行器姿态控制参数自动调节。为达到上述目的,本专利技术采用以下技术方案:本专利技术的一种飞行器姿态控制回路的Q学习自动调参方法,包括以下步骤:步骤1,建立带有预设多种复杂非线性因素的飞行器姿态控制模型与姿态控制器结构;步骤2,针对每一次飞行器姿态控制仿真实验结果,设计交互学习的环境状态、参数调整动作与学习奖励;步骤3,根据每一次飞行器姿态控制仿真实验结果对应的交互学习环境状态、参数调整动作、学习奖励以及历史学习经验Q值,更新学习经验Q值;步骤4,利用每一次飞行器仿真实验后更新的学习经验Q值,选择参数调节动作;步骤5,根据步骤4选择的参数调节动作,执行飞行器姿态控制仿真实验;若实验结果达成结束条件,则输出控制器参数,否则,跳转至步骤3,更新学习经验Q值。本专利技术的进一步改进在于,步骤1中,建立的带有多种复杂非线性因素的飞行器姿态控制模型表达式为:其中,θ(t)∈R为飞行器在t时刻的姿态角,ω(t)∈R为飞行器在t时刻的姿态角速度,b(t)∈R为飞行器在t时刻的舵面效率,δ(t)∈R为飞行器在t时刻的舵面角度,f(θ(t),ω(t),δ(t))∈R为飞行器在t时刻受到的内部气动参数不确定性与外部风干扰,θm(t)∈R为飞行器在t时刻的姿态角测量值,τ∈R为飞行器姿态角测量值的延迟,n∈R为飞行器姿态角测量值的噪声,sat(δ(t))为飞行器舵面角度的饱和环节;sat(δ(t))表达式为:其中,δmax∈R为飞行器舵面角度上界约束,δmin∈R为飞行器舵面角度下界约束。本专利技术的进一步改进在于,步骤1中,设计的姿态控制器结构为:δ(t)=fc(θm(t),θr(t),τ,δmax,δmin,λ),其中,fc(θm,θr,τ,δmax,δmin,λ)∈R为已设计的舵面角度控制量,θr(t)∈R为飞行器在t时刻的姿态角参考信号,λ∈Rl为姿态控制器的待调节参数向量,l∈R为姿态控制器的待调节参数个数。本专利技术的进一步改进在于,步骤2中,设系统仿真实验运行时间区间为[0,T],其中T∈R为单次飞行器姿态控制仿真实验运行结束时间;选取特征时间点其中it∈R为特征时间点的计数指标,Nt∈R为特征时间点的总个数,为特征时间点;根据第k次的飞行器姿态控制仿真实验结果,设计交互学习的环境状态S(k):其中,k∈R为仿真实验次数计数指标,为第k次仿真实验对应的Nt维环境状态,为第k次仿真实验对应的第is维环境状态分量,is∈R为环境状态分量的计数指标,εθ∈R为可接受的姿态角跟踪误差范围;设计的姿态控制器的待调节参数向量为λ=[λ1…λl],共有l个待调节的分量;设计2l+1个参数调整动作:a动作ia(1≤ia≤l):若iλ≠ia;b动作ia(l+1≤ia≤2l):若iλ≠ia-l;c动作2l+1:λ(k+1)=λ(k);其中,ia∈R为参数调整动作计数指标,iλ∈R为姿态控制器待调节参数计数指标,为第ia个姿态控制器待调节参数的调整变化值;第k次的飞行器姿态控制仿真实验结果对应的学习奖励设计为跟踪误差累积平方值的倒数:本专利技术的进一步改进在于,步骤3中,学习经验Q值记为Q(S,act,k),其中Q(S,act,k)∈R为环境状态S、参数调整行动act、第k次的飞行器姿态控制仿真实验时对应的学习经验Q值;在第k次的飞行器姿态控制仿真实验结束时,已知第k-1次参数调整动作act(k-1)与第k-1次飞行器姿态控制仿真实验时对应的环境状态S(k-1)学习经验Q值Q(S,act,k-1);根据步骤2,获得第k次环境状态S(k)与第k次学习奖励r(k);更新学习经验Q值的步骤包括:若S=S(k-1)且act=act(k-1),则否则Q(S,act,k)=Q(S,act,k-1),其中,αQ∈(0,1)为学习率,βQ∈(0,1)为预期收益比重,最大值通过查询学习经验Q值Q(S(k),act,k-1)获得。本专利技术的进一步改进在于,步骤4中,当前飞行器仿真实验结果对应的环境状态为S=S(k),根据Q(S(k),act,k)的取值,获得优先行动集合:其中,Ωact(k)表示第k次的飞行器姿态控制仿真实验后的优先行动集合;当集合Ωact(k)中元素唯一时,选择参数调整行动满足Ωact(k)={act(k)};当集合Ωact(k)中元素不唯一时,按均匀概率在Ωact(k)中选择参数调整行动。本专利技术的进一步改进在于,步骤3中,学习率αQ=0.9,预期收益比重βQ=0.9。本专利技术的进一步改进在于,步骤5中若实验结果达成结束条件,则输出控制器参数具体包括:飞行器仿真实验的姿态角跟踪误差平方积分小于0.0005,则输出控制器参数。本专利技术的进一步改进在于,姿态角跟踪误差维持在0.2度以内。与现有技术相比,本专利技术具有以下有益效果:本专利技术针对飞行器姿态控制问题中的诸多未知的、非线性的因素影响,在已有控制器结构基础上,提供了一种自动调节控制器参数的Q学习方法。飞行器姿态控制目标是设计舵面角度,使得飞行器姿态角能够跟踪参考信号。飞行器姿态控制受到诸多未知的、非线性的因素影响,包括舵面控制输入饱和、姿态角量测噪声、未知的气动数据偏差和舵面控制输入延迟。同时,不同飞行器的物理特性不同,导致这些未知的、非线性的因素具有差异。目前已有的控制器参数不能适应该变化,需要人工进行重新调节,费时本文档来自技高网...

【技术保护点】
1.一种飞行器姿态控制回路的Q学习自动调参方法,其特征在于,包括以下步骤:/n步骤1,建立带有预设多种复杂非线性因素的飞行器姿态控制模型与姿态控制器结构;/n步骤2,针对每一次飞行器姿态控制仿真实验结果,设计交互学习的环境状态、参数调整动作与学习奖励;/n步骤3,根据每一次飞行器姿态控制仿真实验结果对应的交互学习环境状态、参数调整动作、学习奖励以及历史学习经验Q值,更新学习经验Q值;/n步骤4,利用每一次飞行器仿真实验后更新的学习经验Q值,选择参数调节动作;/n步骤5,根据步骤4选择的参数调节动作,执行飞行器姿态控制仿真实验;若实验结果达成结束条件,则输出控制器参数,否则,跳转至步骤3,更新学习经验Q值。/n

【技术特征摘要】
1.一种飞行器姿态控制回路的Q学习自动调参方法,其特征在于,包括以下步骤:
步骤1,建立带有预设多种复杂非线性因素的飞行器姿态控制模型与姿态控制器结构;
步骤2,针对每一次飞行器姿态控制仿真实验结果,设计交互学习的环境状态、参数调整动作与学习奖励;
步骤3,根据每一次飞行器姿态控制仿真实验结果对应的交互学习环境状态、参数调整动作、学习奖励以及历史学习经验Q值,更新学习经验Q值;
步骤4,利用每一次飞行器仿真实验后更新的学习经验Q值,选择参数调节动作;
步骤5,根据步骤4选择的参数调节动作,执行飞行器姿态控制仿真实验;若实验结果达成结束条件,则输出控制器参数,否则,跳转至步骤3,更新学习经验Q值。


2.根据权利要求1所述的一种飞行器姿态控制回路的Q学习自动调参方法,其特征在于,步骤1中,建立的带有多种复杂非线性因素的飞行器姿态控制模型表达式为:



其中,θ(t)∈R为飞行器在t时刻的姿态角,ω(t)∈R为飞行器在t时刻的姿态角速度,b(t)∈R为飞行器在t时刻的舵面效率,δ(t)∈R为飞行器在t时刻的舵面角度,f(θ(t),ω(t),δ(t))∈R为飞行器在t时刻受到的内部气动参数不确定性与外部风干扰,θm(t)∈R为飞行器在t时刻的姿态角测量值,τ∈R为飞行器姿态角测量值的延迟,n∈R为飞行器姿态角测量值的噪声,sat(δ(t))为飞行器舵面角度的饱和环节;
sat(δ(t))表达式为:



其中,δmax∈R为飞行器舵面角度上界约束,δmin∈R为飞行器舵面角度下界约束。


3.根据权利要求2所述的一种飞行器姿态控制回路的Q学习自动调参方法,其特征在于,步骤1中,设计的姿态控制器结构为:
δ(t)=fc(θm(t),θr(t),τ,δmax,δmin,λ),
其中,fc(θm,θr,τ,δmax,δmin,λ)∈R为已设计的舵面角度控制量,θr(t)∈R为飞行器在t时刻的姿态角参考信号,λ∈Rl为姿态控制器的待调节参数向量,l∈R为姿态控制器的待调节参数个数。


4.根据权利要求3所述的一种飞行器姿态控制回路的Q学习自动调参方法,其特征在于,步骤2中,
设系统仿真实验运行时间区间为[0,T],其中T∈R为单次飞行器姿态控制仿真实验运行结束时间;选取特征时间点其中it∈R为特征时间点的计数指标,Nt∈R为特征时间点的总个数,为特征时间点;
根据第k次的飞行器姿态控制仿真实验结果,设计交互学习的环境状态S(k):



其中,k∈R为仿真实验次数计数指标,为第k次仿真实验对应的Nt维环境状态,为第k次仿真实验对应的第is维环境状态分量,is∈R为环境状态分量的计数指标,εθ∈R为可接受的姿态角...

【专利技术属性】
技术研发人员:陈森白文艳赵志良
申请(专利权)人:陕西师范大学北京航天自动控制研究所
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1