一种固液传热系统的建模和温度控制方法技术方案

技术编号:39569402 阅读:22 留言:0更新日期:2023-12-03 19:20
本发明专利技术提供了一种固液传热系统的建模和温度控制方法,包括:引入随时间变化的状态时滞项,建立固液传热系统的变状态时滞

【技术实现步骤摘要】
一种固液传热系统的建模和温度控制方法


[0001]本专利技术总体涉及固液传热系统,更具体地涉及固液传热系统的变状态时滞
ODE

Heat
耦合数学模型建立方法以及带有执行器饱和的强化学习温度控制方法


技术介绍

[0002]在固液传热系统中,固体与充满液体的储罐接触,热量通过固体和液体储罐之间的接触进行传递

这种传热过程的原理被广泛应用于各类工程系统,例如水力供暖设备

冷却系统

连续搅拌槽反应器等

[0003]传统的固液传热系统的温度控制方法大多需要完整的模型知识来设计控制器

但在工程中,由于许多实际问题具有复杂的环境和动态特性,很难通过精确建模来描述,所以完整的模型知识往往难以获取

此外,实际中可能存在的不确定性或难以量化的因素,使得一些问题的模型构建变得更加困难

而强化学习算法可以通过与环境的交互,从实际经验中学习,并通过探索和利用的方式,逐步改进自己的策略而无需事先了解环境的具体模型

因此,强化学习作为一种无需依靠模型知识的方法,在实际问题中具有很大的优势

[0004]在具有热传导特性的系统中,某些材料的高密度会在传热过程中引起时滞效应,即当热量从一个位置传导到另一个位置时,会存在一定的时间延迟,且时间延迟的长度不固定

这种变状态时滞的存在会影响系统的稳定性

动态响应以及控制算法的设计

通过在系统模型中引入变状态时滞项,可以更准确地捕捉到热传导过程中的延迟效应,这在建立控制系统

预测系统响应和优化系统性能时非常重要

[0005]另外,在控制系统温度的过程中,控制器的输出范围往往会受到实际限制

如果控制器要求的输出超出了执行器的可用范围,执行器将无法提供所需的输出,这将对控制系统的性能产生不利影响

[0006]因此,建立具有变状态时滞的机理模型,并通过强化学习算法设计带有执行器饱和的控制器来控制固液传热系统的温度是十分有必要的


技术实现思路

[0007]本专利技术旨在提供一种变状态时滞
ODE

Heat
耦合建模方法以及带有执行器饱和的强化学习温度控制方法,以解决实际工程问题中存在的固液传热系统模型部分未知

热传导存在时滞

执行器饱和的系统建模和镇定问题

[0008]本专利技术的技术方案为:
[0009](1)
建立带有变状态时滞的
ODE

Heat
耦合模型:
[0010]本专利技术提出了一个新的数学模型来描述固液传热系统的热传导过程,其中包括一个描述固体传热过程的偏微分方程
(PDE)
,与一个描述罐内液体传热过程的常微分方程
(ODE)
的耦合

为了更准确地模拟实际物理过程中的热传导行为,该模型考虑了随时间变化的状态时滞项,以捕捉热传导的时滞效应

[0011](2)
设计带有执行器饱和的强化学习温度控制器:
[0012]为了克服现有技术存在的上述缺陷,进一步解决变状态时滞的
ODE

Heat
耦合系统的边界控制问题,本专利技术提供了一种带有执行器饱和的强化学习温度控制方法

具体包括:
[0013]步骤
1.
将变状态时滞
ODE

Heat
耦合系统的边界控制问题转化为马尔可夫决策过程

这使得强化学习算法的合理性得到保证;
[0014]步骤
2.
建立变状态时滞
ODE

Heat
耦合模型的仿真环境模拟器,收集训练数据

利用当前策略,使得控制器与系统环境模拟器进行交互,以收集数据

这包括通过执行器
(
利用饱和函数对控制信号进行约束
)
对系统施加动作,并观察系统的状态和奖励信号

[0015]步骤
3.
训练
Actor

Critic
网络

使用
Critic
网络近似值函数,对当前策略进行评估,以衡量策略的好坏,并对
Critic
网络的参数进行更新,提高对值函数的近似效果;根据值函数,进行
Actor
网络的参数更新,对策略进行更新和优化

控制器在更新后的策略下再次与系统环境进行交互,重新收集数据;重复上述步骤更新网络参数,直到达到预定的更新次数,参数更新完毕

此时,经过训练的
Actor
网络学习出的策略即为控制器的最优控制策略

[0016]与现有技术相比,本专利技术的有益效果:
[0017]1)
通过引入随时间改变的传热时滞项,建立了变状态时滞
ODE

Heat
耦合数学模型,能够更准确地模拟固液传热系统

传热时滞效应的考虑使得模型更贴近实际情况,提高了传热过程的建模精度

[0018]2)
采用强化学习算法设计控制器,相比传统方法,不需要完整的模型知识,从而减少了对系统的先验了解要求

这使得控制器的设计更加灵活和适应不确定性

[0019]3)
使用饱和函数对控制输入进行约束,这种约束方式符合实际中执行器饱和的情况

通过饱和函数的应用,可以确保控制输入在可用范围内,避免超出执行器能力造成控制器的性能下降,导致系统不稳定

附图说明
[0020]图
1.
固液传热物理系统图像;
[0021]图
2.
带有执行器饱和的强化学习温度控制方法镇定变状态时滞
ODE

Heat
耦合系统框图;
[0022]图
3.
使用强化学习算法设计边界控制器的框架;
[0023]图
4.
带有执行器饱和的强化学习温度控制算法;
[0024]a

0.2,a2=
0.1,A

3,A1=

10,B
=1条件下:
[0025]图
5A.
系统中液体温度状态随时间变化的图像;
[0026]图
5B.
系统中固体温度状态随时间变化的图像;
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种固液传热系统的建模和温度控制方法,包括:引入随时间变化的状态时滞项,建立固液传热系统的变状态时滞
ODE

Heat
耦合数学模型;构建系统环境模拟器,将系统的边界控制问题转化为马尔可夫过程;基于强化学习算法,结合执行器饱和条件,通过与环境模拟器的交互训练
Actor

Critic
网络,通过
Actor
网络输出的最优控制器实现固液传热系统的温度控制
。2.
如权利要求1所述的固液传热系统的建模方法,其特征在于,所述建模方法可用于固液传热系统,包括装有液体的储罐与可导热固体的连接系统,二者的热量通过接触面进行传递;所述建模方法引入随时间变化的状态时滞项,更精确地描述高密度材料中存在的时滞效应
。3.
如权利要求1所述的固液传热系统的建模方法,其特征在于,所述变状态时滞
ODE

Heat
耦合数学模型用于描述固液传热系统的内部传热过程,模型包括:描述固体内部的
PDE
传热方程
z
t
(x

t)

z
xx
(x

t)+a2z(x

t

τ
(t))+az(x

t)
,描述液体内部的
ODE
传热方程
Neumann
边界条件
z
x
(0

t)
=0,控制器
z(1,t)

U(t)
以及初始条件
X(0)

X0(0)

z(x

0)

z0(x)
;模型变量包括:固体温度
z(x

t)
,液体温度
X(t)
,位置变量
x∈[0

1]
,时间变量
t>0
,随时间变化的状态时滞项
τ
(t)
;模型参数包括:常数系数
a2,
a
,常系数
4.
如权利要求1所述的固液传热系统的温度控制方法,其特征在于,使用一种执行器饱和的强化学习温度控制方法,镇定权利要求4所述的变状态时滞
ODE

Heat
耦合系统,包括以下步骤:步骤
1.
将系统边界控制问题转化为马尔可夫决策过程;步骤
2.
建立变状态时滞
ODE

Heat
耦合模型的仿真环境模拟器,利用当前策略,使得控制器与系统环境模拟器进行交互,以收集训练数据,包括通过执行器
(
执行器带有饱和特征,对控制信号进行饱和约束
)
对系统施加动作,并观察系统的状态和奖励信号;步骤
3.
训练
Actor

Critic
网络,使用
Critic
网络近似值函数,对当前策略进行评估,以衡量策略的好坏,并对
Critic
网络的参数进行更新,提高对值函数的近似效果;根据值函数,进行
Actor
网络的参数更新,对策略进行更新和优化;控制器在更新后的策略下再次与系统环境进行交互,重新收集数据;重复更新网络参数,直到达到预定的参数更新次数;此时,经过训练的
Actor
网络学习出的策略即为控制器的最优控制策略
。5.
如权利要求7所述的固液传热系统的温度控制方法,其特征在于,所述强化学习算法包括
PPO
算法,算法中使用的神经网络包括
Actor
网络和
Critic
网络,算法中使用的即时奖励函数定义为
r
t
(s
t

u
t
)


||s
t

s
*
||2。6.
如权利要求7所述的固液传热系统的温度控制方法的步骤1,其特征在于,对用离散化步长
dx

1/(M

1)

dt

【专利技术属性】
技术研发人员:王懿驳康文
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1