一种工业过程无穷时域优化学习控制方法及装置制造方法及图纸

技术编号:39441805 阅读:19 留言:0更新日期:2023-11-19 16:24
本发明专利技术公开了一种工业过程无穷时域优化学习控制方法及装置。本发明专利技术利用强化学习里的非策略Q

【技术实现步骤摘要】
一种工业过程无穷时域优化学习控制方法及装置


[0001]本专利技术属于自动化过程控制领域,特别涉及到一种工业过程无穷时域优化学习控制方法及装置


技术介绍

[0002]伴随着科学技术水平的提升及工业生产环境的改变,工业生产过程中所需设备愈发复杂,随之而来的系统发生故障的可能性不断增大

在多数情况下,除了会出现故障,工业过程在生产过程中也免不了会受到外部干扰的影响,针对工业过程设计的控制器若是忽略了外部干扰,其控制性能必然会受到一定影响

[0003]针对既有外部扰动又有故障的工业过程控制问题,存在较多解决方案,但这些多是基于模型方法,只针对一定范围内的执行器故障能够达到理想的控制程度,保守性过强

而现阶段的工业过程能够在生产过程中产生大量反映系统真实动态的数据,这些真实数据具有潜在的价值,如何利用这些真实的系统生产信息数据去设计控制器,在既有执行器故障又有扰动的情况下依然能使得工业过程保持平稳运行和具有相应的优化性能是亟需解决的问题

[0004]因此,本专利技术针对具有执行器故障和外部扰动的工业过程,提出了一种融合最小

最大方法的基于非策略强化学习的工业过程
H

容错跟踪控制方法


技术实现思路

[0005]本专利技术要解决的技术问题是:克服现有技术的不足,提出了一种融合最小

最大方法的基于非策略强化学习的工业过程
H

容错跟踪控制方案

[0006]本专利技术利用强化学习里的非策略
Q

学习算法,保障系统模型参数未知且存在执行器故障和外部干扰的情况下,利用实时可测的当前时刻输出和输入数据,最终学习到最优控制策略与最坏的外部扰动策略,通过学习以获得控制性能的提升,同时不会受探测噪声的影响

[0007]本专利技术的一方面提供了一种工业过程无穷时域优化学习控制方法,包括如下步骤:
[0008]步骤一:在线性离散系统模型的基础上,设计迭代学习控制律,建立等价的增广模型,此增广模型的状态是由线性离散系统的状态增量和跟踪误差所组成

[0009]步骤二:在新模型的基础上提出性能指标函数,再通过构建值函数与
Q

函数并利用零和博弈的最小

最大方法将最优控制策略和最坏外部扰动的设计问题转化为求解博弈黎卡提方程解的问题

[0010]步骤三:通过非策略
Q
‑‑
学习这种数据驱动方式的非策略强化学习算法去学习求解最优控制策略和最坏外部扰动

[0011]本专利技术的另一方面提供了一种工业过程无穷时域优化学习控制装置,包括:
[0012]增广模型建立单元,用于在线性离散系统模型的基础上,设计迭代学习控制律,建
立等价的增广模型;
[0013]问题转化单元,用于在增广模型的基础上提出性能指标函数,通过构建值函数与
Q
函数,并利用零和博弈的最小

最大方法,将最优控制策略和最坏外部扰动的设计问题转化为求解博弈黎卡提方程解的问题;
[0014]求解单元,用于通过非策略强化学习算法去学习求解最优控制策略和最坏外部扰动,从而完成优化学习控制

[0015]本专利技术与现有技术相比有益效果为:
[0016](1)
本专利技术克服了过去基于模型的容错控制方法的缺点,使得可应对的故障范围扩大,抗外部干扰的能力得到了增强

[0017](2)
本专利技术不是采用传统的基于模型理念,因此降低了控制方法对模型的依赖性,这种控制方法将不再受系统参数处于未知或部分已知情况的限制,无论执行器处于正常还是故障情况,都能产生更好的控制效果

附图说明
[0018]图1为本申请方法实施例流程图;
[0019]图2为本申请装置结构图

具体实施方式
[0020]下面通过具体实施例对本专利技术做进一步的说明

[0021]注塑成型过程是将塑料颗粒转化为各种产品的过程,主要包括三个阶段:注塑,保压以及冷却成形

在生产过程中,由于注射速度对最终产品的质量有很大的影响,所以在注塑阶段需要高精度的控制注射速度,相应变量应该被控制到一个给定的设定值

本申请实施例提供的一种工业过程无穷时域优化学习控制方法,如图1所示,其具体实现包括以下步骤:
[0022]步骤一:利用线性离散系统描述系统:
[0023][0024]其中,
k
代表的是工业过程所在的运行时刻,是系统在
k
时刻的状态,是故障情况下的系统在
k
时刻的控制输入,是系统在
k
时刻的外部扰动,是系统在
k
时刻的输出,是系统在
k+1
时刻的状态,
{A,B,C,D}
为维度与状态

控制输入及外部扰动输入维度相匹配的系统矩阵

[0025]故障情况下的控制输入表示为
u
kF

α
u
k
,
α
>0

[0026]其中,
α

diag[
α
1 α2,

,
α
m
],
α

diag[
α
1 α2,

,
α
m
]。
[0027]设计迭代学习控制律
u
k

u
k
‑1+u
Δ
k
,引入第
k
时刻的跟踪误差
y
Δ
k

y
r

y
k

外部扰动的增量
w
Δ
k

w
k

w
k
‑1以及差分方程
x
Δ
k

x
k

x
k
‑1,得到执行器发生故障系统的等价模型:
[0028][0029]其中,其中,是与
Z
k
,u
Δ
k
,w
Δ
k
维数相匹配的系统矩阵,
Z
k
作为新模型在
k
时刻的状态,
u
Δ
k
是在
k
时刻的输入和在
k
‑1时本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种工业过程无穷时域优化学习控制方法,其特征在于该方法包括以下步骤:步骤一:在线性离散系统模型的基础上,设计迭代学习控制律,建立等价的增广模型;步骤二:在增广模型的基础上提出性能指标函数,通过构建值函数与
Q
函数,并利用零和博弈的最小

最大方法,将最优控制策略和最坏外部扰动的设计问题转化为求解博弈黎卡提方程解的问题;步骤三:通过非策略强化学习算法去学习求解最优控制策略和最坏外部扰动,从而完成优化学习控制
。2.
根据权利要求1所述的一种工业过程无穷时域优化学习控制方法,其特征在于:所述的增广模型的状态是由线性离散系统的状态增量和跟踪误差所组成
。3.
根据权利要求1所述的一种工业过程无穷时域优化学习控制方法,其特征在于:所述的性能指标函数
J
表示为:其中,
Q、R
是正定矩阵,
γ
≥0

γ
代表持续干扰衰减水平,
i

k,k+1,...,∞

k
是工业过程所在的运行时刻,
Z
i
为增广模型在时刻
i
的状态,
u
Δ
i
是在
i
时刻的输入和在
i
‑1时刻的输入之差;
w
Δ
i
是在
i
时刻的外部扰动输入和在
i
‑1时刻的外部扰动输入之差
。4.
根据权利要求3所述的一种工业过程无穷时域优化学习控制方法,其特征在于:所述的非策略强化学习算法具体是:3‑
1.
数据收集:选取
u
Δ
k
,w
Δ
k
作用于系统,收集数据
θ
j
(k)

ρ
j
(k)
;3‑
2.
初始化:选择初始稳定控制增益与外部扰动增益;3‑
3.
进行策略更新,用最小二乘法学习
L
1j+1

L
6j+1
,进而更新控制输入:3‑
4.
给出迭代终止条件,并进行判断
。5.
一种...

【专利技术属性】
技术研发人员:罗秋文张日东
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1