【技术实现步骤摘要】
一种工业过程无穷时域优化学习控制方法及装置
[0001]本专利技术属于自动化过程控制领域,特别涉及到一种工业过程无穷时域优化学习控制方法及装置
。
技术介绍
[0002]伴随着科学技术水平的提升及工业生产环境的改变,工业生产过程中所需设备愈发复杂,随之而来的系统发生故障的可能性不断增大
。
在多数情况下,除了会出现故障,工业过程在生产过程中也免不了会受到外部干扰的影响,针对工业过程设计的控制器若是忽略了外部干扰,其控制性能必然会受到一定影响
。
[0003]针对既有外部扰动又有故障的工业过程控制问题,存在较多解决方案,但这些多是基于模型方法,只针对一定范围内的执行器故障能够达到理想的控制程度,保守性过强
。
而现阶段的工业过程能够在生产过程中产生大量反映系统真实动态的数据,这些真实数据具有潜在的价值,如何利用这些真实的系统生产信息数据去设计控制器,在既有执行器故障又有扰动的情况下依然能使得工业过程保持平稳运行和具有相应的优化性能是亟需解决的问题
。
[0004]因此,本专利技术针对具有执行器故障和外部扰动的工业过程,提出了一种融合最小
‑
最大方法的基于非策略强化学习的工业过程
H
¥
容错跟踪控制方法
。
技术实现思路
[0005]本专利技术要解决的技术问题是:克服现有技术的不足,提出了一种融合最小
‑
最大方法的基于非策略强化学习的工业过程
H
¥ ...
【技术保护点】
【技术特征摘要】
1.
一种工业过程无穷时域优化学习控制方法,其特征在于该方法包括以下步骤:步骤一:在线性离散系统模型的基础上,设计迭代学习控制律,建立等价的增广模型;步骤二:在增广模型的基础上提出性能指标函数,通过构建值函数与
Q
函数,并利用零和博弈的最小
‑
最大方法,将最优控制策略和最坏外部扰动的设计问题转化为求解博弈黎卡提方程解的问题;步骤三:通过非策略强化学习算法去学习求解最优控制策略和最坏外部扰动,从而完成优化学习控制
。2.
根据权利要求1所述的一种工业过程无穷时域优化学习控制方法,其特征在于:所述的增广模型的状态是由线性离散系统的状态增量和跟踪误差所组成
。3.
根据权利要求1所述的一种工业过程无穷时域优化学习控制方法,其特征在于:所述的性能指标函数
J
表示为:其中,
Q、R
是正定矩阵,
γ
≥0
,
γ
代表持续干扰衰减水平,
i
=
k,k+1,...,∞
,
k
是工业过程所在的运行时刻,
Z
i
为增广模型在时刻
i
的状态,
u
Δ
i
是在
i
时刻的输入和在
i
‑1时刻的输入之差;
w
Δ
i
是在
i
时刻的外部扰动输入和在
i
‑1时刻的外部扰动输入之差
。4.
根据权利要求3所述的一种工业过程无穷时域优化学习控制方法,其特征在于:所述的非策略强化学习算法具体是:3‑
1.
数据收集:选取
u
Δ
k
,w
Δ
k
作用于系统,收集数据
θ
j
(k)
及
ρ
j
(k)
;3‑
2.
初始化:选择初始稳定控制增益与外部扰动增益;3‑
3.
进行策略更新,用最小二乘法学习
L
1j+1
到
L
6j+1
,进而更新控制输入:3‑
4.
给出迭代终止条件,并进行判断
。5.
一种...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。