【技术实现步骤摘要】
一种指令跟踪控制器的稳态性能优化方法
[0001]本专利技术涉及一种指令跟踪控制器的稳态性能优化方法及其在航空发动机控制器的应用,属于航空发动机智能控制领域
。
技术介绍
[0002]航空发动机控制一般都需对过渡态过程和稳态过程设计控制方案
。
针对航空发动机过渡态控制,通常采用控制规律设计方法,离线设计控制规律,根据实验数据设计出主燃油流量与尾喷口喉道截面面积等控制参数关于转子转速
、
高度马赫数等的插值关系,在过渡态控制过程中根据插值关系开环控制各控制参数
。
针对航空发动机稳态控制,通常采用闭环控制方法,而基于深度强化学习控制器的优势在于可以很好地处理强非线性问题,在过渡态过程中即可使用闭环控制方法,因此不用对过渡态过程和稳态过程分别设计控制器
。
[0003]航空发动机控制任务多为指令跟踪控制,要求在保证限制变量在安全裕度之内的条件下,尽可能快速地
、
精准地使被控向量跟踪控制指令,稳态控制误差为指令跟踪控制的重要指标
。
然而,基于深度强化学习的控制器以深度网络作为控制器载体,其网络本质为一个估计器,不可避免地将存在估计误差,由作为深度网络的
critic
带来的值函数估计误差会最终导致控制器稳态误差的产生,另外,由同为深度网络的
actor
学习到的控制策略并不能保证为最优策略,这将会进一步加剧稳态误差的扩大,并且在深度强化学习的标准范式中,这样的稳态误差无法得到有效的抑 ...
【技术保护点】
【技术特征摘要】
1.
一种指令跟踪控制器的稳态性能优化方法,其特征在于,包括如下步骤:构建控制器优化问题模型,设置目标函数和约束条件,将控制器优化问题转化为马尔可夫决策过程,确定状态向量
s
t
和动作向量
a
t
,并通过控制指令和约束条件来确定奖励函数
r
及性能指标
J
total
;所述控制器优化问题模型包括自适应误差积分补偿模块,控制向量公式为
u
t
=
(1
‑
ε
)u
t
‑1+
ε
a
t
+u
i,t
,式中,
t
表示时刻,
u
t
为控制向量,
ε
为动量项因子,为误差积分控制量,式中,
e
k
为
k
时刻的控制误差,为积分分离因子,
g
t
为自适应积分增益系数,由控制器优化问题模型输出得到,
or1,else
为抗积分饱和因子,
b
l
为控制量下界,
b
u
为控制量上界;采用深度强化学习算法对马尔可夫决策过程的智能体进行训练,得到控制器稳态性能优化策略
。2.
根据权利要求1所述的一种指令跟踪控制器的稳态性能优化方法,其特征在于,进行奖励函数塑形,实现奖励函数在过渡态控制过程的梯度抑制与稳态控制过程的梯度增强,奖励函数为
r
t
=
‑
k
s
f
smooth
(e
t
)+k
n
f
normal
(e
t
)
,式中
k
s
与
k
n
为增益系数,为
smooth_L1
函数,
e
t
为控制误差,为类正态分布函数,
σ
为类正态分布函数标准差
。3.
根据权利要求1所述的一种指令跟踪控制器的稳态性能优化方法,其特征在于,所述性能指标
J
total
为结合动作值函数
Q
π
(s,a)
和
MAX
动作值函数构建的
MAX
融合性能指标式中,表示关于初始状态向量概率分布
s
ρ0和执行策略
π
时动作向量概率分布
a
π
的期望,为
MAX
值函数,式中,表示执行策略
π
时关于决策路径
λ
的期望,为
MAX
回报函数,
k
max
为调节增益系数,
s
为状态向量,
a
为动作向量,
γ
max
为
MAX
折扣因子,
r
t+k
为
t+k
时刻奖励函数
。4.
根据权利要求3所述的一种指令跟踪控制器的稳态性能优化方法,其特征在于,所述深度强化学习算法为
actor
‑
critic
学习算法,训练步骤包括:初始化
actor
及
critic
网络;控制器优化问题模型与环境交互,执行控制任务,收集训练数据元组
(s,a,r,s
′
)
,并存储于数据池式中,
s
′
为在状态
s
下执行动作
a
并发生状态转移后的下一时刻状态向量;在数据池中随机采样
n
组训练数据,计算
critic
网络损失函数:计算
actor
网络性能指标梯度下降法更新
critic
网络参数向量梯度上升法更新
actor
网络参数向量
重复上述过程直至最大训练次数,网络训练结束...
【专利技术属性】
技术研发人员:高文博,黄金泉,鲁峰,陈前景,吴斌,
申请(专利权)人:南京航空航天大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。