【技术实现步骤摘要】
具有未知系统动态的批次过程二维离轨策略交错Q学习最优跟踪控制方法
[0001]本专利技术属于工业过程控制
,具体涉及具有未知系统动态的批次过程二维离轨策略交错Q学习最优跟踪控制方法。
技术介绍
[0002]在产品升级和需求急剧增加的当下,工业过程繁多且极具复杂性,为满足更多使用者的不同需求,工业生产应逐渐倾向于高质量和小规模的生产趋势。为此,批次处理过程凭借其众多优势被用于解决工业生产中的各类问题,与此同时也成为当今控制领域的热门研究课题之一。相比于连续过程,批次处理过程具有快速性、低成本、重复运行、多样性和多阶段等特性。但大多数批次处理过程通常依赖于被控过程的模型来设计系统的控制器。
[0003]然而在实际应用中,批次处理过程并不仅仅是我们所想象中的简单的生产过程,其中涉及许多学科的知识,且包含了众多的内部因素与外部因素。由于批次处理过程的多样性,在操作过程中不可避免的会出现多种多样的难题。况且,在操作中过度依赖于过程的模型必然会出现过程模型的各种性能相继下降的情况,使得建立准确的批次处理过程的系统模型更为困难,且导致产品精度大幅度降低。为此,鉴于上述情形,设计出一种具有未知动态的批次过程二维离轨策略交错Q学习最优跟踪控方法,在不依赖过程模型和系统初始参数的同时研究批次处理过程的控制问题。
技术实现思路
[0004]本专利技术是针对具有未知系统动态的批次过程,提出的二维离轨策略交错Q学习最优跟踪控制方法,该方法可有效地解决系统无法精确建模的问题,降低系统的模型依赖性,仅仅依靠时间方向和 ...
【技术保护点】
【技术特征摘要】
1.具有未知系统动态的批次过程二维离轨策略交错Q学习最优跟踪控制方法,其特征在于:具体步骤如下:步骤一:建立具有未知动态的批次过程非线性状态空间方程;通过非线性放射状态空间方程来表示具有未知系统动态的批次过程,其表现形式如下:y(t+1,k)=f((y(t,k))+g(y(t,k))u(t,k)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中,t表示时间方向,k表示批次方向,y(t,k)∈R
n
表示系统状态,u(t,k)∈R
m
表示系统控制输入,f((y(t,k))∈R
n
表示为y(t,k)的f函数,g(y(t,k))∈R
n
×
m
表示为y(t,k)的g函数,R表示为实数矩阵,n和m表示为实数矩阵R的适当维数;步骤二:将跟踪误差作为状态变量扩展到性能指标中,构建出二维非线性系统的性能指标;定义二维非线性系统的性能指标为:其中,T为预测时域,y
r
(t,k)表示系统的期望状态,u(t,k
‑
1)表示系统k
‑
1批次t时刻的控制输入,R表示为控制输入相应维数的加权矩阵;令扩展状态Q1=C
T
QC,Q1表示为扩展状态相应维数的加权矩阵,I代表适当维数的单位矩阵;则二维非线性系统的性能指标可以重新定义为:与此同时,系统k批次t+1时刻的扩展状态可以表示为:其中,y
r
(t+1,k)=θy
r
(t,k),θ代表系统期望设定值之间适当维数的矩阵,0代表适当维数的零矩阵;步骤三:根据性能指标与值函数的关系,定义二维最优值函数与Q函数的表达式;根据公式(3),定义二维最优值函数和二维最优Q函数为如下形式:
其中,通过将公式(5)的右测最小化,来求解最优控制策略产生最优值函数基于最优性的必要条件,最优控制策略u
*
(t,k)可以通过对u(t,k)求导来获得;因此,当控制策略u(t,k)达到最优值u
*
(t,k)时,最优值函数等价于最优Q函数,即:步骤四:引入交错Q迭代算法;设计一个Q迭代推导算法,根据公式(8)最优Q函数也可以表示为如下形式:则最优控制策略可以被描述为:为了寻找到(9)和(10)式中的最优解,首先设定初始值Q0(
·
)=0,则控制策略u0(t,k)表示为:同时Q函数可以被更新为:当时i=1,2
…
,控制策略u0(t,k)和Q函数将完成迭代;
和步骤五:构建模型网络,获得神经网络的初始权重;在实际应用中,的结果是不确定的,且很难得到准确的值;因此,我们将采用神经网络来近似系统(4)的动态,并计算的结果;对于模型网络,一个三层的神经网络被用来识别带有一个结构的非线性系统,其中分别表示在输入层、隐藏层和输出层的神经元节点的个数;令输入层与隐藏层之间的权重矩阵为W
m1
,隐藏层与输出层之间的权重矩阵为W
m2
;假设非线性系统的扩展状态和系统的控制输入u(t,...
【专利技术属性】
技术研发人员:施惠元,高维,解俊朋,苏成利,姜雪莹,李平,李娟,郑尚磊,
申请(专利权)人:辽宁石油化工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。