基于深度强化学习的多变量系统控制方法技术方案

技术编号:38357410 阅读:12 留言:0更新日期:2023-08-05 17:28
本发明专利技术提供了一种基于深度强化学习的多变量系统控制方法,属于工业过程控制领域,其中,所述方法包括:以发动机冷却系统中的流量、温度和压力作为控制变量;根据发动机冷却系统的数据搭建多变量系统;搭建基于深度强化学习的控制系统,其中将多变量系统作为环境,将被控变量的当前时刻误差值、上一时刻误差值、当前时刻反馈值和当前时刻设定值作为状态,使用被控变量不同区间段的误差值以及安全边界条件设计奖励函数;使用双延迟深度确定性策略梯度算法训练智能体使其根据环境的状态选择动作,依据动作后获得的奖励大小改进优化动作,从而使智能体自主学习最优控制参数,进而满足多变量系统要求。多变量系统要求。多变量系统要求。

【技术实现步骤摘要】
基于深度强化学习的多变量系统控制方法


[0001]本专利技术属于工业过程控制领域,具体提供了一种基于深度强化学习的多变量系统控制方法。

技术介绍

[0002]多变量系统在工业过程控制领域是非常常见的系统,例如发动机冷却系统,而对其控制的方式普遍使用的是PID控制器。一方面,对于单回路系统,尚可依靠专家经验调节PID参数,而对于多变量系统,每个回路都有一个PID控制器,各回路之间还存在耦合关系,此时单纯的依靠专家人为的调节PID控制器参数就变得异常困难,并且耗费时间长,效率低,不能发挥出控制器的最优性能。另一方面,传统PID控制器的参数在整定后一般保持不变,因此主要适用于时不变系统的控制。由于发动机冷却系统会受到外界温度变化的影响,是一个时变系统,传统的PID控制器缺乏自适应能力,无法在这种情况下保持较高的控制性能。

技术实现思路

[0003]鉴于上述问题,本专利技术提供了一种基于深度强化学习的多变量系统控制方法,本专利技术的目的可以通过以下技术方案实现:
[0004]步骤1:建立多变量系统:根据采集的各回路的输入输出数据得到被控对象,并为被控对象设计解耦装置;
[0005]步骤2:结合马尔可夫决策过程针对多变量系统搭建基于深度强化学习的控制系统,并将多变量系统作为环境,将被控变量当前时刻误差值、上一时刻误差值以及当前时刻反馈值和设定值作为状态,使用被控变量不同区间段的误差值以及安全边界条件设计奖励函数;
[0006]步骤3:构建回放缓冲区、策略网络、目标策略网络、价值网络Ⅰ、价值网络Ⅱ、目标价值网络Ⅰ、目标价值网络Ⅱ,对策略网络和价值网络的参数进行初始化,并让目标价值网络的参数等于价值网络的参数,目标策略网络的参数等于策略网络的参数。使用双延迟深度确定性策略梯度(TD3)算法使智能体不断与环境交互,自主学习多变量系统中各回路的最优控制参数。使用TD3算法训练智能体使其根据环境的状态选择动作,依据动作后获得奖励大小改进优化动作,使智能体自主学习最优控制参数,直到参数的调整和优化收敛为止,最终满足多变量系统要求。
[0007]进一步的,步骤1中,多变量系统包括被控对象和解耦装置。以三输入三输出系统为例,由采集的现场运行数据,可以得到每个控制回路的传递函数,被控变量与控制量关系如下:
[0008][0009]其中,Y1、Y2、Y3表示被控变量,U1、U2、U3表示控制量、G
11
表示以U1为输入,Y1为输出得到的传递函数,G
12
表示以U2为输入,Y1为输出得到的传递函数,以此类推。
[0010]为该系统设计解耦装置,以保证在一定程度上减弱各变量之间的耦合性。如果被控对象的传递函数阵G矩阵的逆存在,则设计解耦装置D,其等于G的逆乘以一个对角阵(可以是单位矩阵),这样可以使得一个被控变量仅与解耦装置的其中一个输出量之间有关系,而与其余变量相独立,从而达到解耦目的。
[0011][0012]其中,D
11
是针对G
11
设计的解耦传递函数,以此类推。设计解耦装置的目的是让系统仅包含G
11
、G
22
、G
33
这三个独立回路的传递函数。
[0013]设计解耦装置之后,系统的输入变为解耦装置的输出,解耦装置的输入成为系统新的控制量,其关系如下:
[0014][0015]其中,D为解耦装置,U1、U2、U3是系统的输入即解耦装置的输出,U
c1
、U
c2
、U
c3
为解耦装置的输入即系统新的控制量。在基于深度强化学习的多变量系统控制方法中,该控制量即为强化学习智能体输出的动作值。
[0016]进一步的,步骤2中,将马尔可夫决策过程与多变量系统结合,使用被控变量不同区间段的误差值和安全边界条件η(即当训练过程中温度、压力、流量的当前时刻反馈值超出所设定的范围时,立即停止该回合训练并在奖励函数中加入负奖励)设计奖励函数,所采用的奖励函数为:
[0017][0018]其中,error为被控变量的误差值,σ1、σ2、η3分别为被控变量不同区间段误差的阈值,a、b、c和d是不同阈值段内的奖励值,r表示被控变量的奖励值;
[0019]r
η
=C
[0020]r
η
表示当前时刻反馈值超出安全边界条件η时,向奖励函数中添加的一个很大的负数C,以表示对智能体进行惩罚;
[0021]R=r+r
η
[0022]R为总的奖励函数。公式中的实数值可根据应用环境的不同需求进行更改,深度强化学习的目标是最大化奖励函数R。
[0023]进一步的,所述的安全边界条件为当被控变量当前时刻反馈值超出所设定的范围时,立即停止该回合训练并在奖励函数中加入负奖励,进而提高系统安全性能。
[0024]进一步的,步骤3中,在强化学习算法训练过程中,记录被控变量的前一时刻的误
差值e
(t

1)
、当前时刻误差值e
t
、当前时刻真实反馈值Y以及当前时刻设定值setpoint作为价值网络和策略网络的状态输入,当前时刻的控制量作为价值网络的动作输入;通过策略网络的动作输出得到系统的控制量,进而通过环境的输出得到部分状态;通过奖励函数得到此时动作所产生的价值,进而影响价值网络对策略网络的参数做出调整;
[0025]进一步的,构建回放缓冲区M、策略网络π
φ
、目标策略网络、价值网络价值网络目标价值网络目标价值网络然后初始化策略网络参数φ和价值网络的参数θ1,θ2,并初始化目标网络参数:
[0026]θ1‑

θ1,θ2‑

θ2,φ


φ
[0027]确定被控变量允许的输入范围,然后随机初始化被控变量的设定值来训练强化学习算法,以获得多变量系统对于大范围内的输入阶跃信号的鲁棒性。
[0028]进一步的,在智能体采取动作后,会为此次动作添加噪声ε:A
t
=π
φ
(S
t
)+ε,ε~N(0,σ),可以模拟系统的干扰,从而使结果更加准确。其中,A
t
表示策略网络π
φ
在状态S
t
下采取的动作值,ε表示向动作中添加的噪声,该噪声服从均值为0,方差为σ的正态分布N(0,σ);
[0029]进一步的,使用TD3算法训练智能体根据环境的状态选择动作,依据动作后获得奖励大小改进优化动作,使智能体自主学习最优控制参数,进而满足多变量系统要求。
[0030]本专利技术的优势在于通过强化学习算法自适应调节控制参数,节省人为调节参数的时间,并能够提高系统响应速度,从而以更好的控制性能达到系统要求。
附图说明
[0031]图1是本专利技术实施例的系统结构图;
[0032]图2是本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于深度强化学习的多变量系统控制方法,其特征在于:包括,步骤1:根据采集的系统运行中每个回路的输入输出数据得到被控对象,并为被控对象设计解耦装置,建立多变量系统,所述多变量系统具有多个回路;步骤2:结合马尔可夫决策过程针对多变量系统搭建基于深度强化学习的控制系统,并将多变量系统作为环境,将被控变量当前时刻误差值、上一时刻误差值以及当前时刻真实反馈值和设定值作为状态,使用被控变量不同区间段的误差值以及安全边界条件设计奖励函数;步骤3:构建回放缓冲区、策略网络、目标策略网络、价值网络Ⅰ、价值网络Ⅱ、目标价值网络Ⅰ、目标价值网络Ⅱ,确定被控变量允许的输入范围,然后随机初始化被控变量的设定值来训练强化学习算法,使用双延迟深度确定性策略梯度(TD3)算法使智能体不断与环境交互,自主学习多变量系统中各回路的最优控制参数,进而满足多变量系统要求。2.如权利要求1所述的基于深度强化学习的多变量系统控制方法,其特征在于:步骤1中,多变量系统包括被控对象和解耦装置。3.如权利要求1所述的基于深度强化学习的多变量系统控制方法,其特征在于:步骤2中,将马尔可夫决策过程与多变量系统结合,使用被控变量不同区间段的误差值以及安全边界条件η设计奖励函数,所采用的奖励函数为:其中,error为被控变量的误差值,σ1、σ2、η3分别为被控变量不同区...

【专利技术属性】
技术研发人员:许谨李寒张庆新王然吴星刚于洋刘艳梅李化鹏
申请(专利权)人:沈阳航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1