一种指令跟踪控制器的稳态性能优化方法技术

技术编号:39745242 阅读:8 留言:0更新日期:2023-12-17 23:44
本发明专利技术公开了一种指令跟踪控制器的稳态性能优化方法,包括以下步骤:构建控制器优化问题模型,设置目标函数和约束条件,将控制器优化问题转化为马尔可夫决策过程,确定状态向量和动作向量,并通过控制指令和约束条件来确定奖励函数及性能指标;采用深度强化学习算法对马尔可夫决策过程的智能体进行训练,得到控制器稳态性能优化策略

【技术实现步骤摘要】
一种指令跟踪控制器的稳态性能优化方法


[0001]本专利技术涉及一种指令跟踪控制器的稳态性能优化方法及其在航空发动机控制器的应用,属于航空发动机智能控制领域


技术介绍

[0002]航空发动机控制一般都需对过渡态过程和稳态过程设计控制方案

针对航空发动机过渡态控制,通常采用控制规律设计方法,离线设计控制规律,根据实验数据设计出主燃油流量与尾喷口喉道截面面积等控制参数关于转子转速

高度马赫数等的插值关系,在过渡态控制过程中根据插值关系开环控制各控制参数

针对航空发动机稳态控制,通常采用闭环控制方法,而基于深度强化学习控制器的优势在于可以很好地处理强非线性问题,在过渡态过程中即可使用闭环控制方法,因此不用对过渡态过程和稳态过程分别设计控制器

[0003]航空发动机控制任务多为指令跟踪控制,要求在保证限制变量在安全裕度之内的条件下,尽可能快速地

精准地使被控向量跟踪控制指令,稳态控制误差为指令跟踪控制的重要指标

然而,基于深度强化学习的控制器以深度网络作为控制器载体,其网络本质为一个估计器,不可避免地将存在估计误差,由作为深度网络的
critic
带来的值函数估计误差会最终导致控制器稳态误差的产生,另外,由同为深度网络的
actor
学习到的控制策略并不能保证为最优策略,这将会进一步加剧稳态误差的扩大,并且在深度强化学习的标准范式中,这样的稳态误差无法得到有效的抑

[0004]为了解决上述问题,本专利技术提出一种基于奖励函数塑形和值函数重设计的航空发动机深度强化学习控制器的稳态性能优化方法

首先考虑在深度强化学习范式外额外引入一个自适应误差积分环节,由深度强化学习策略和一个受误差积分影响的控制量同时影响控制器决策,保证在实现深度强化学习控制的同时消除稳态误差

然而实验证明,在深度强化学习控制策略的稳态误差本身较大时,引入一个误差积分环节会导致控制系统稳定性受到影响,两者的同时作用会使系统处在一个难以稳定的振荡过程中

因此在引入误差积分环节的同时,本专利技术也关注优化深度强化学习范式本身的稳态性能,主要从奖励函数和值函数两方面着手,降低深度强化学习策略的稳态误差

其一采用奖励函数塑性方法,对奖励函数进行梯度塑形,提高奖励函数对稳态性能的优化优先度

其二引入针对稳态性能的
MAX
值函数范式,重新构造性能指标函数,进一步提高学得的控制策略的稳态性能

由优化后的深度强化学习与上述的自适应误差积分环节结合,实现最终的航空发动机深度强化学习控制器稳态性能优化


技术实现思路

[0005]本专利技术所要解决的技术问题在于针对指令跟踪控制器在执行指令跟踪控制时的稳态控制误差问题,通过引入外环自适应误差积分模块,进行奖励函数梯度塑形,构建基于
MAX
值函数的
MAX
融合性能指标,提高控制器指令跟踪控制的稳态性能

[0006]本专利技术采用如下技术方案:一种指令跟踪控制器的稳态性能优化方法,其特征在于,该方法包括以下步骤:
[0007]构建控制器优化问题模型,设置目标函数和约束条件,将控制器优化问题转化为马尔可夫决策过程,确定状态向量
s
t
和动作向量
a
t
,并通过控制指令和约束条件来确定奖励函数
r
及性能指标
J
total

[0008]所述控制器优化问题模型包括自适应误差积分补偿模块,控制向量公式为
u
t

(1

ε
)u
t
‑1+
ε
a
t
+u
i

t
,式中,
t
表示时刻,
u
t
为控制向量,
ε
为动量项因子,
a
t
为动作向量,为误差积分控制量,式中,
e
k

k
时刻的控制误差,为积分分离因子,
g
t
为自适应积分增益系数,由控制器优化问题模型输出得到,为抗积分饱和因子,
b1为控制量下界,
b
u
为控制量上界;
[0009]采用深度强化学习算法对马尔可夫决策过程的智能体进行训练,得到控制器稳态性能优化策略

[0010]优选的,进行奖励函数塑形,实现奖励函数在过渡态控制过程的梯度抑制与稳态控制过程的梯度增强,奖励函数为
r
t


k
s
f
smooth
(e
t
)+k
n
f
normal
(e
t
)
,式中
k
s

k
n
为增益系数,为
smooth_L1
函数,
e
t
为控制误差,为类正态分布函数,
σ
为类正态分布函数标准差

[0011]优选的,所述性能指标
J
total
为结合动作值函数
Q
π
(s

a)

MAX
动作值函数构建的
MAX
融合性能指标式中,表示关于初始状态向量概率分布
s

ρ0和执行策略
π
时动作向量概率分布
a

π
的期望,为
MAX
值函数,式中,表示执行策略
π
时关于决策路径
λ
的期望,为
MAX
回报函数,
k
max
为调节增益系数,
s
为状态向量,
a
为动作向量,
γ
max

MAX
折扣因子,
r
t+k

t+k
时刻奖励函数

[0012]优选的,所述深度强化学习算法为
actor

critic
学习算法,训练步骤包括:
[0013]初始化
actor

critic
网络;
[0014]控制器优化问题模型与环境交互,执行控制任务,收集训练数据元组
(s

a

r

s

)
,并存储本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种指令跟踪控制器的稳态性能优化方法,其特征在于,包括如下步骤:构建控制器优化问题模型,设置目标函数和约束条件,将控制器优化问题转化为马尔可夫决策过程,确定状态向量
s
t
和动作向量
a
t
,并通过控制指令和约束条件来确定奖励函数
r
及性能指标
J
total
;所述控制器优化问题模型包括自适应误差积分补偿模块,控制向量公式为
u
t

(1

ε
)u
t
‑1+
ε
a
t
+u
i,t
,式中,
t
表示时刻,
u
t
为控制向量,
ε
为动量项因子,为误差积分控制量,式中,
e
k

k
时刻的控制误差,为积分分离因子,
g
t
为自适应积分增益系数,由控制器优化问题模型输出得到,
or1,else
为抗积分饱和因子,
b
l
为控制量下界,
b
u
为控制量上界;采用深度强化学习算法对马尔可夫决策过程的智能体进行训练,得到控制器稳态性能优化策略
。2.
根据权利要求1所述的一种指令跟踪控制器的稳态性能优化方法,其特征在于,进行奖励函数塑形,实现奖励函数在过渡态控制过程的梯度抑制与稳态控制过程的梯度增强,奖励函数为
r
t


k
s
f
smooth
(e
t
)+k
n
f
normal
(e
t
)
,式中
k
s

k
n
为增益系数,为
smooth_L1
函数,
e
t
为控制误差,为类正态分布函数,
σ
为类正态分布函数标准差
。3.
根据权利要求1所述的一种指令跟踪控制器的稳态性能优化方法,其特征在于,所述性能指标
J
total
为结合动作值函数
Q
π
(s,a)

MAX
动作值函数构建的
MAX
融合性能指标式中,表示关于初始状态向量概率分布
s
ρ0和执行策略
π
时动作向量概率分布
a
π
的期望,为
MAX
值函数,式中,表示执行策略
π
时关于决策路径
λ
的期望,为
MAX
回报函数,
k
max
为调节增益系数,
s
为状态向量,
a
为动作向量,
γ
max

MAX
折扣因子,
r
t+k

t+k
时刻奖励函数
。4.
根据权利要求3所述的一种指令跟踪控制器的稳态性能优化方法,其特征在于,所述深度强化学习算法为
actor

critic
学习算法,训练步骤包括:初始化
actor

critic
网络;控制器优化问题模型与环境交互,执行控制任务,收集训练数据元组
(s,a,r,s

)
,并存储于数据池式中,
s

为在状态
s
下执行动作
a
并发生状态转移后的下一时刻状态向量;在数据池中随机采样
n
组训练数据,计算
critic
网络损失函数:计算
actor
网络性能指标梯度下降法更新
critic
网络参数向量梯度上升法更新
actor
网络参数向量
重复上述过程直至最大训练次数,网络训练结束...

【专利技术属性】
技术研发人员:高文博黄金泉鲁峰陈前景吴斌
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1