一种基于数据驱动Q-学习的工业过程容错控制方法技术

技术编号:32280374 阅读:33 留言:0更新日期:2022-02-12 19:47
本发明专利技术公布了一种基于数据驱动Q

【技术实现步骤摘要】
一种基于数据驱动Q

学习的工业过程容错控制方法


[0001]本专利技术属于信息
,具体涉及一种基于数据驱动Q

学习的工业过程容错控制方法。

技术介绍

[0002]伴随着科学技术水平的提升及工业生产大环境的改变,工业过程的控制问题又对人们提出了新的挑战,这种挑战反映在诸如执行器等元件故障频发情况下的系统容错控制问题上。容错控制问题自发展以来已经取得诸多成果,回顾过去针对具有执行器故障系统的容错控制方案,可以发现过去多是基于模型的容错控制方法,这类控制方法有着很大的局限性:由于过于依赖模型,因此一旦故障规模超过一定范围就会出现所建立的模型与实际系统不匹配的现象,进而导致无法达成精准控制,这种局限促使人们将视线转移到寻求新的容错控制方法上。
[0003]对现阶段的众多复杂工业过程而言,它们本身可能具有较强的非线性和模型复杂性等特性,这使得这些过程难以被精确的模型所描述,并且由于故障和不确定性的出现导致系统难以控制,面对这些情况,传统的容错控制方法不再能再起到良好的控制效果。在这种情况下,如何针对“本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于数据驱动Q

学习的工业过程容错控制方法,其特征在于包括以下步骤:(1)在原系统的状态空间模型基础上建立包含跟踪误差和状态增量的具有执行器故障的等价状态空间模型,并根据新的模型提出性能指标函数;(2)提出值函数以及Q函数,并构建相应的最优控制输入及控制增益的表达式;(3)初始化稳定控制策略K0并收集数据θ
j
(k)及ρ
kj
,K0是最初的控制增益,θ
j
(k)及ρ
kj
是第j次迭代所产生的包含系统生产信息的数据;(4)通过非策略Q

学习算法更新控制器增益K;(5)如果达到迭代结束条件则迭代结束,否则转步骤(4)继续迭代。2.根据权利要求1所述的一种基于数据驱动Q

学习的工业过程容错控制方法,其特征在于步骤(1)所述包含跟踪误差和状态增量的具有执行器故障的等价状态空间模型为:Z
k+1
=A1Z
k
+B1αr
k
;其中,Δx
k+1
是原系统在k+1时刻和k时刻的状态之差,e
k+1
是原系统在k+1时刻的跟踪误差;Δx
k
是原系统在k时刻和k

1时刻的状态之差,e
k
是原系统在k时刻的跟踪误差;r
k
是原系统在k时刻的迭代更新率;{A1,B1}是与{Z
k
,r
k
}维数相匹配的系统矩阵,组成{A1,B1}的{A,B,C}是原系统的系统矩阵,I是单位矩阵;α是故障系数;Z
k
作为新模型在k时刻的状态,r
k
作为新模型在k时刻的输入。3.根据权利要求1所述的一种基于数据驱动Q

学习的工业过程容错控制方法,其特征在于步骤(1)中基于新的模型提出的性能指标函数为:其中,Z
i
是在第i时刻的状态、r
i
是在第i时刻的输入,i=k,k+1,...,∞;Q、R是与状态Z
i
、输入r
i
维数相匹配的正定矩阵。4.根据权利要求1所述的一种基于数据驱动Q

学习的工业过程容错控制方法,其特征在于:步骤(2)所述值函数为:Z
k
是在k时刻的状态,步骤(2)所述Q函数为:Q(Z
k
,r
k
)=Z
kT
QZ
k
+r
kT
Rr
k
+V
k+1
,Z
k
是在k时刻的状态,r
k
是在k时刻的输入,Q、R是与状态Z
k
、输入r
k
维数相匹配的正定矩阵,V
k+1
是在k+1时刻的值函数;步骤(2)所述最优控制输入及控制增益的表达式为:r
k


H
rr
‑1(H
Zr
)
T
Z
k
,K=H
rr
‑1(H
Zr
)
T
,矩阵H
rr
,H
...

【专利技术属性】
技术研发人员:王立敏李雪玉李春
申请(专利权)人:海南师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1