【技术实现步骤摘要】
一种固液传热系统的建模和温度控制方法
[0001]本专利技术总体涉及固液传热系统,更具体地涉及固液传热系统的变状态时滞
ODE
‑
Heat
耦合数学模型建立方法以及带有执行器饱和的强化学习温度控制方法
。
技术介绍
[0002]在固液传热系统中,固体与充满液体的储罐接触,热量通过固体和液体储罐之间的接触进行传递
。
这种传热过程的原理被广泛应用于各类工程系统,例如水力供暖设备
、
冷却系统
、
连续搅拌槽反应器等
。
[0003]传统的固液传热系统的温度控制方法大多需要完整的模型知识来设计控制器
。
但在工程中,由于许多实际问题具有复杂的环境和动态特性,很难通过精确建模来描述,所以完整的模型知识往往难以获取
。
此外,实际中可能存在的不确定性或难以量化的因素,使得一些问题的模型构建变得更加困难
。
而强化学习算法可以通过与环境的交互,从实际经验中学习,并通过探索和利用的方式,逐步改进自己的策略而无需事先了解环境的具体模型
。
因此,强化学习作为一种无需依靠模型知识的方法,在实际问题中具有很大的优势
。
[0004]在具有热传导特性的系统中,某些材料的高密度会在传热过程中引起时滞效应,即当热量从一个位置传导到另一个位置时,会存在一定的时间延迟,且时间延迟的长度不固定
。
这种变状态时滞的存在会影响系统的稳定性
、 ...
【技术保护点】
【技术特征摘要】
1.
一种固液传热系统的建模和温度控制方法,包括:引入随时间变化的状态时滞项,建立固液传热系统的变状态时滞
ODE
‑
Heat
耦合数学模型;构建系统环境模拟器,将系统的边界控制问题转化为马尔可夫过程;基于强化学习算法,结合执行器饱和条件,通过与环境模拟器的交互训练
Actor
‑
Critic
网络,通过
Actor
网络输出的最优控制器实现固液传热系统的温度控制
。2.
如权利要求1所述的固液传热系统的建模方法,其特征在于,所述建模方法可用于固液传热系统,包括装有液体的储罐与可导热固体的连接系统,二者的热量通过接触面进行传递;所述建模方法引入随时间变化的状态时滞项,更精确地描述高密度材料中存在的时滞效应
。3.
如权利要求1所述的固液传热系统的建模方法,其特征在于,所述变状态时滞
ODE
‑
Heat
耦合数学模型用于描述固液传热系统的内部传热过程,模型包括:描述固体内部的
PDE
传热方程
z
t
(x
,
t)
=
z
xx
(x
,
t)+a2z(x
,
t
‑
τ
(t))+az(x
,
t)
,描述液体内部的
ODE
传热方程
Neumann
边界条件
z
x
(0
,
t)
=0,控制器
z(1,t)
=
U(t)
以及初始条件
X(0)
=
X0(0)
,
z(x
,
0)
=
z0(x)
;模型变量包括:固体温度
z(x
,
t)
,液体温度
X(t)
,位置变量
x∈[0
,
1]
,时间变量
t>0
,随时间变化的状态时滞项
τ
(t)
;模型参数包括:常数系数
a2,
a
,常系数
4.
如权利要求1所述的固液传热系统的温度控制方法,其特征在于,使用一种执行器饱和的强化学习温度控制方法,镇定权利要求4所述的变状态时滞
ODE
‑
Heat
耦合系统,包括以下步骤:步骤
1.
将系统边界控制问题转化为马尔可夫决策过程;步骤
2.
建立变状态时滞
ODE
‑
Heat
耦合模型的仿真环境模拟器,利用当前策略,使得控制器与系统环境模拟器进行交互,以收集训练数据,包括通过执行器
(
执行器带有饱和特征,对控制信号进行饱和约束
)
对系统施加动作,并观察系统的状态和奖励信号;步骤
3.
训练
Actor
‑
Critic
网络,使用
Critic
网络近似值函数,对当前策略进行评估,以衡量策略的好坏,并对
Critic
网络的参数进行更新,提高对值函数的近似效果;根据值函数,进行
Actor
网络的参数更新,对策略进行更新和优化;控制器在更新后的策略下再次与系统环境进行交互,重新收集数据;重复更新网络参数,直到达到预定的参数更新次数;此时,经过训练的
Actor
网络学习出的策略即为控制器的最优控制策略
。5.
如权利要求7所述的固液传热系统的温度控制方法,其特征在于,所述强化学习算法包括
PPO
算法,算法中使用的神经网络包括
Actor
网络和
Critic
网络,算法中使用的即时奖励函数定义为
r
t
(s
t
,
u
t
)
=
‑
||s
t
‑
s
*
||2。6.
如权利要求7所述的固液传热系统的温度控制方法的步骤1,其特征在于,对用离散化步长
dx
=
1/(M
‑
1)
和
dt
=
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。