具有未知系统动态的批次过程二维离轨策略交错Q学习最优跟踪控制方法技术方案

技术编号:35170246 阅读:30 留言:0更新日期:2022-10-12 17:34
具有未知系统动态的批次过程二维离轨策略交错Q学习最优跟踪控制方法,属于工业过程控制技术领域,具体步骤如下:步骤一:建立具有未知动态的批次过程非线性状态空间方程;步骤二:将跟踪误差作为状态变量扩展到性能指标中,构建出二维非线性系统的性能指标;步骤三:根据性能指标与值函数的关系,定义二维最优值函数与Q函数的表达式;步骤四:引入交错Q迭代算法;步骤五:构建模型网络,获得神经网络的初始权重;步骤六:构建评判网络及行为网络,获得最终的控制策略。此方法解决了传统工业过程中对系统模型的过度依赖问题,与此同时在系统初始参数未知的情况下,也可以使得工业过程顺利进行,大大的提高了生产效率,降低了计算成本。降低了计算成本。

【技术实现步骤摘要】
具有未知系统动态的批次过程二维离轨策略交错Q学习最优跟踪控制方法


[0001]本专利技术属于工业过程控制
,具体涉及具有未知系统动态的批次过程二维离轨策略交错Q学习最优跟踪控制方法。

技术介绍

[0002]在产品升级和需求急剧增加的当下,工业过程繁多且极具复杂性,为满足更多使用者的不同需求,工业生产应逐渐倾向于高质量和小规模的生产趋势。为此,批次处理过程凭借其众多优势被用于解决工业生产中的各类问题,与此同时也成为当今控制领域的热门研究课题之一。相比于连续过程,批次处理过程具有快速性、低成本、重复运行、多样性和多阶段等特性。但大多数批次处理过程通常依赖于被控过程的模型来设计系统的控制器。
[0003]然而在实际应用中,批次处理过程并不仅仅是我们所想象中的简单的生产过程,其中涉及许多学科的知识,且包含了众多的内部因素与外部因素。由于批次处理过程的多样性,在操作过程中不可避免的会出现多种多样的难题。况且,在操作中过度依赖于过程的模型必然会出现过程模型的各种性能相继下降的情况,使得建立准确的批次处理过程的系统模型更为困难,且导致产品精度大幅度降低。为此,鉴于上述情形,设计出一种具有未知动态的批次过程二维离轨策略交错Q学习最优跟踪控方法,在不依赖过程模型和系统初始参数的同时研究批次处理过程的控制问题。

技术实现思路

[0004]本专利技术是针对具有未知系统动态的批次过程,提出的二维离轨策略交错Q学习最优跟踪控制方法,该方法可有效地解决系统无法精确建模的问题,降低系统的模型依赖性,仅仅依靠时间方向和批次方向上的数据不断学习,且在系统初始参数未知的情况下,仍可以得到最优的控制策略,提高系统的控制和跟踪性能,加快了收敛速度。
[0005]本专利技术是通过以下技术方案实现的:
[0006]本专利技术提出了具有未知系统动态的批次过程二维离轨策略交错Q学习最优跟踪控制方法,首先建立具有未知动态的批次过程非线性状态空间方程,其次,将跟踪误差作为状态变量扩展到性能指标中,构建出二维非线性系统的性能指标。根据性能指标与值函数的关系,定义二维最优值函数与Q函数的表达式,并引入交错Q迭代算法。然后,构建模型网络、评判网络及行为网络,在此过程中,各层神经网络中的权重通过批次方向的数据进行不断学习和更新,最终我们寻找到最优的控制策略。本专利技术可有效地解决系统无法精确建模的问题,极大地降低对系统模型的过度依赖性,与此同时采用Q迭代的学习方法,在系统初始参数未知的情况下,就可以快速、准确的得到最优控制策略,提高系统的最优性能,加快了收敛速度。
[0007]步骤一:建立具有未知动态的批次过程非线性状态空间方程;
[0008]通过非线性放射状态空间方程来表示具有未知系统动态的批次过程,其表现形式
如下:
[0009]y(t+1,k)=f((y(t,k))+g(y(t,k))u(t,k)
ꢀꢀꢀ
(1)
[0010]其中,t表示时间方向,k表示批次方向,y(t,k)∈R
n
表示系统状态,u(t,k)∈R
m
表示系统控制输入,f((y(t,k))∈R
n
表示为y(t,k)的f函数,g(y(t,k))∈R
n
×
m
表示为y(t,k)的g函数,R表示为实数矩阵,n和m表示为实数矩阵R的适当维数;
[0011]步骤二:将跟踪误差作为状态变量扩展到性能指标中,构建出二维非线性系统的性能指标;
[0012]定义二维非线性系统的性能指标为:
[0013][0014]其中,T为预测时域,y
r
(t,k)表示系统的期望状态,u(t,k

1)表示系统k

1批次t时刻的控制输入,R表示为控制输入相应维数的加权矩阵;
[0015]令扩展状态Q1=C
T
QC,Q1表示为扩展状态相应维数的加权矩阵,I代表适当维数的单位矩阵;则二维非线性系统的性能指标可以重新定义为:
[0016][0017]与此同时,系统k批次t+1时刻的扩展状态可以表示为:
[0018][0019]其中,其中,,代表系统期望设定值之间适当维数的矩阵,0代表适当维数的零矩阵;
[0020]步骤三:根据性能指标与值函数的关系,定义二维最优值函数与Q函数的表达式;根据公式(3),定义二维最优值函数和二维最优Q函数为如下形式:
[0021][0022][0023]其中,
[0024]通过将公式(5)的右测最小化,来求解最优控制策略产生最优值函数基于最优性的必要条件,最优控制策略u
*
(t,k)可以通过对u(t,k)求导来获得;因此,
[0025][0026]当控制策略u(t,k)达到最优值u
*
(t,k)时,最优值函数等价于最优Q函数,即:
[0027][0028]步骤四:引入交错Q迭代算法;
[0029]设计一个Q迭代推导算法,根据公式(8)最优Q函数也可以表示为如下形式:
[0030][0031]则最优控制策略可以被描述为:
[0032][0033]为了寻找到(9)和(10)式中的最优解,首先设定初始值Q0()=0,则控制策略u0(t,k)表示为:
[0034][0035]同时Q函数可以被更新为:
[0036][0037]当时i=1,2

,控制策略u0(t,k)和Q函数将完成迭代;
[0038][0039]和
[0040][0041]步骤五:构建模型网络,获得神经网络的初始权重;
[0042]在实际应用中,的结果是不确定的,且很难得到准确的值;因此,我们将采用神经网络来近似系统(4)的动态,并计算的结果;
[0043]对于模型网络,一个三层的神经网络被用来识别带有一个结构的非线性系统,其中分别表示在输入层、隐藏层和输出层的神经元节点的个数;令输入层与隐藏层之间的权重矩阵为W
m1
,隐藏层与输出层之间的权重矩阵为W
m2

[0044]假设非线性系统的扩展状态和系统的控制输入u(t,k)已知,则模型网络的输出可以表示为:
[0045][0046]其中,
[0047]定义训练模型网络的误差函数为:
[0048][0049]目标函数最小化:
[0050][0051]其中,E
m
(t,k)为模型网络的误差平方;
[0052]权值更新采用基于梯度的自适应方法,即:
[0053][0054]其中,W
m1
(j+1)代表迭代到j+1时刻的模型网络输入层与隐藏层之间的权重矩阵,W
m1
(j)代表迭代到j时刻的模型网络输入层与隐藏层之间的权重矩阵,W
m2
(j+1)代表迭代到j+1时刻的模型网络隐藏层与输出层之间的权重矩阵,W
m2
(j)本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.具有未知系统动态的批次过程二维离轨策略交错Q学习最优跟踪控制方法,其特征在于:具体步骤如下:步骤一:建立具有未知动态的批次过程非线性状态空间方程;通过非线性放射状态空间方程来表示具有未知系统动态的批次过程,其表现形式如下:y(t+1,k)=f((y(t,k))+g(y(t,k))u(t,k)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中,t表示时间方向,k表示批次方向,y(t,k)∈R
n
表示系统状态,u(t,k)∈R
m
表示系统控制输入,f((y(t,k))∈R
n
表示为y(t,k)的f函数,g(y(t,k))∈R
n
×
m
表示为y(t,k)的g函数,R表示为实数矩阵,n和m表示为实数矩阵R的适当维数;步骤二:将跟踪误差作为状态变量扩展到性能指标中,构建出二维非线性系统的性能指标;定义二维非线性系统的性能指标为:其中,T为预测时域,y
r
(t,k)表示系统的期望状态,u(t,k

1)表示系统k

1批次t时刻的控制输入,R表示为控制输入相应维数的加权矩阵;令扩展状态Q1=C
T
QC,Q1表示为扩展状态相应维数的加权矩阵,I代表适当维数的单位矩阵;则二维非线性系统的性能指标可以重新定义为:与此同时,系统k批次t+1时刻的扩展状态可以表示为:其中,y
r
(t+1,k)=θy
r
(t,k),θ代表系统期望设定值之间适当维数的矩阵,0代表适当维数的零矩阵;步骤三:根据性能指标与值函数的关系,定义二维最优值函数与Q函数的表达式;根据公式(3),定义二维最优值函数和二维最优Q函数为如下形式:
其中,通过将公式(5)的右测最小化,来求解最优控制策略产生最优值函数基于最优性的必要条件,最优控制策略u
*
(t,k)可以通过对u(t,k)求导来获得;因此,当控制策略u(t,k)达到最优值u
*
(t,k)时,最优值函数等价于最优Q函数,即:步骤四:引入交错Q迭代算法;设计一个Q迭代推导算法,根据公式(8)最优Q函数也可以表示为如下形式:则最优控制策略可以被描述为:为了寻找到(9)和(10)式中的最优解,首先设定初始值Q0(
·
)=0,则控制策略u0(t,k)表示为:同时Q函数可以被更新为:当时i=1,2

,控制策略u0(t,k)和Q函数将完成迭代;
和步骤五:构建模型网络,获得神经网络的初始权重;在实际应用中,的结果是不确定的,且很难得到准确的值;因此,我们将采用神经网络来近似系统(4)的动态,并计算的结果;对于模型网络,一个三层的神经网络被用来识别带有一个结构的非线性系统,其中分别表示在输入层、隐藏层和输出层的神经元节点的个数;令输入层与隐藏层之间的权重矩阵为W
m1
,隐藏层与输出层之间的权重矩阵为W
m2
;假设非线性系统的扩展状态和系统的控制输入u(t,...

【专利技术属性】
技术研发人员:施惠元高维解俊朋苏成利姜雪莹李平李娟郑尚磊
申请(专利权)人:辽宁石油化工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1