用于温湿度控制的内置深度强化学习模型的智能控制单元制造技术

技术编号:37615218 阅读:12 留言:0更新日期:2023-05-18 12:06
提供了一种用于温湿度控制的内置深度强化学习模型的智能控制单元,根据接收到的细胞培养腔室的实时温湿度、目标温度、目标湿度以及预定阈值范围,控制执行机构开启或断开细胞培养腔室中的加湿器、干燥器、制冷器以及加热器中的至少一个,以及控制加湿器、干燥器、制冷器以及加热器中的所述至少一个的工作时间。本发明专利技术可有效解决温湿度控制强耦合问题且调控精度高,响应快,可在电能消耗最小化的同时快速达到目标温湿度,还可以在达到目标温湿度后使温湿度的波动范围减小。使温湿度的波动范围减小。使温湿度的波动范围减小。

【技术实现步骤摘要】
用于温湿度控制的内置深度强化学习模型的智能控制单元
[0001]本专利申请是专利技术名称为“细胞培养腔室的温湿度控制方法和系统”的中国专利202110145889.2的分案申请,这里将其全文引用结合于此。


[0002]本专利技术涉及细胞培养装置,尤其涉及一种用于温湿度控制的内置深度强化学习模型的智能控制单元。

技术介绍

[0003]细胞培养是指在体外模拟体内环境(无菌、适宜温度、酸碱度和一定营养条件等),使之生存、生长、繁殖并维持主要结构和功能的一种方法。细胞培养技术可以由一个细胞经过大量培养成为简单的单细胞或极少分化的多细胞,这是克隆技术必不可少的环节,而且细胞培养本身就是细胞的克隆。细胞培养技术是细胞生物学研究方法中重要和常用技术,通过细胞培养既可以获得大量细胞,又可以借此研究细胞的信号转导、细胞的合成代谢、细胞的生长增殖等。
[0004]以胚胎细胞培养为例,胚胎的培养对环境温湿度要求十分严格。温度过低时,胚胎的代谢活力下降,生长分类缓慢甚至死亡使细胞凝固,温度过高时,引起酶的灭活,破坏类脂质与核分裂,产生凝固酶以及会使蛋白质变性。湿度过高时,容易冷凝成小水滴落入培养皿内,污染培养液,湿度过低时,培养液容易挥发,破坏细胞培养的内环境。因此适宜的温湿度环境对于细胞培养质量至关重要。
[0005]现有细胞培养环境温湿度联合控制采用常规的控制器,而常规控制器存在的时滞、强耦合等问题,具体表现在:加热管的加热会引起培养箱某指定区域温度的变化,同时经过加热后空气中的水蒸气含量也会发生相应改变。同理,加湿管虽只起到加湿作用,但同样会对箱内温度产生影响。现有技术具有以下缺陷:1)现有PID控制技术实际上是将温湿度看成两个独立无关联的不变系统,并没有考虑温湿度间的耦合性,因此很难达到较为理想的控制目的;2)此外PID控制超调量大,精度和波动都难以达到更高要求;3)环境建模十分困难,基于先验假定系统传递函数、状态函数都难以拟合复杂的环境。
[0006]因此,有必要研究一种用于温湿度控制的内置深度强化学习模型的智能控制单元来解决上述的一个或多个技术问题。

技术实现思路

[0007]为解决上述至少一个技术问题,根据本专利技术一方面,提供了一种用于温湿度控制的内置深度强化学习模型的智能控制单元,其特征在于所述智能控制单元根据接收到的细胞培养腔室的实时温湿度、目标温度、目标湿度以及预定阈值范围,控制执行机构开启或断开细胞培养腔室中的加湿器、干燥器、制冷器以及加热器中的至少一个,以及控制加湿器、干燥器、制冷器以及加热器中的所述至少一个的工作时间;
[0008]其中,所述深度强化学习模型通过以下方法获得:
[0009]a.设置深度强化学习模型的待优化目标函数和约束条件,该待优化目标函数如公式(1)所示,含义为最小化达到目标稳定状态消耗的电能以及使用的时间t0,式中p
i
表示实际参与工作的组件消耗的电能,λ是调和系数;所述约束条件如公式(2)所示,含义为达到目标稳定状态后温湿度的波动范围在预定阈值范围内,T
best
、RH
best
分别表示设置的目标温度和目标湿度;Δt、ΔRH分别表示温度和湿度波动范围,temp(t>t0)表示达到目标稳定状态后的温度,RHumity(t>t0)表示达到目标稳定状态后的湿度,t为当前时间;
[0010][0011][0012]b.训练深度强化学习模型
[0013]b1设置深度强化学习模型总的迭代次数N
e
、每次迭代点的探索次数T、动作网络参数学习率η
a
,策略网络参数学习率η
c

[0014]b2采用服从0

1的高斯分布随机初始化Actor网络A(s;θ
a
)和Critic网络C(s,a;θ
c
)的参数,分别记为θ
a
,θ
c
,其中θ
a
为Actor网络的参数,θ
c
为Critic网络的参数,s为当前环境温湿度输入状态,a为执行动作且为一个行向量;
[0015]b3开启第一次迭代,并且计数K=1;
[0016]b3.1开启第一次探索,并且计数n=1;
[0017]b3.2根据当前环境温湿度状态s
t
,Actor网络将s
t
作为输入,经过网络函数A(s;θ
a
)|s=s
t
下产生一组执行动作a
t

[0018]b3.3执行完a
t
后,细胞培养腔室的环境状态发生了改变,温湿度检测点发现新状态为s
t+1
,根据公式(3)得到一个及时奖励r
t
,r
t
为Reward(t);
[0019][0020]式中M1,M2,M3,M4分别为各项的惩罚因子;
[0021]b3.4 a
t
和当前环境温湿度状态s
t
联合作为输入到Critic网络,经过C(s,a;θ
c
)|s=s
t
,a=a
t
作用后产生一个评估C
t

[0022]b3.5根据公式(4)计算Actor网络A(s;θ
a
)中参数θ
a
的梯度并且更新参数θ
a

[0023][0024]b3.6根据公式(5)计算Critic网络C(s,a;θ
c
)中参数θ
c
的梯度,并且更新参数θ
c

[0025][0026]其中,为Reward(t),通过公式(3)计算得到;
[0027]b3.7环境状态完成更新s
t

s
t+1

[0028]b3.8探索次数计数更新n

n+1;
[0029]b3.9重新执行过程b3.2

b3.8,直到n>T,完成这次探索过程;
[0030]b4更新迭代计数,K

K+1;
[0031]b5重新执行b3.1

b3.9和b4,直到K>N
e
,完成深度强化学习模型
[0032]DRL的训练;
[0033]c.将训练好的深度强化学习模型置入所述智能控制单元。
[0034]根据本专利技术又一方面,所述细胞培养腔室为多个,各细胞培养腔室相互独立且由单独的智能控制单元控制。
[0035]根据本专利技术又一方面,所述细胞培养腔室为多个,各细胞培养腔室相互独立,所述智能控制单元根据各细胞培养腔室的优先级来进行控制。
[0036]根据本专利技术又一方面,来自加湿器、干燥器、制冷器和/或加热器的气体经由混合腔室混本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于温湿度控制的内置深度强化学习模型的智能控制单元,其特征在于所述智能控制单元根据接收到的细胞培养腔室的实时温湿度、目标温度、目标湿度以及预定阈值范围,控制执行机构开启或断开细胞培养腔室中的加湿器、干燥器、制冷器以及加热器中的至少一个,以及控制加湿器、干燥器、制冷器以及加热器中的所述至少一个的工作时间;其中,所述深度强化学习模型通过以下方法获得:a.设置深度强化学习模型的待优化目标函数和约束条件,该待优化目标函数如公式(1)所示,含义为最小化达到目标稳定状态消耗的电能以及使用的时间t0,式中p
i
表示实际参与工作的组件消耗的电能,λ是调和系数;所述约束条件如公式(2)所示,含义为达到目标稳定状态后温湿度的波动范围在预定阈值范围内,T
best
、RH
best
分别表示设置的目标温度和目标湿度;Δt、ΔRH分别表示温度和湿度波动范围,temp(t>t0)表示达到目标稳定状态后的温度,RHumity(t>t0)表示达到目标稳定状态后的湿度,t为当前时间;)表示达到目标稳定状态后的湿度,t为当前时间;b.训练深度强化学习模型b1设置深度强化学习模型总的迭代次数N
e
、每次迭代点的探索次数T、动作网络参数学习率η,策略网络参数学习率η
c
;b2采用服从0

1的高斯分布随机初始化Actor网络A(s;θ
a
)和Critic网络C(s,a;θ
c
)的参数,分别记为θ
a
,θ
c
,其中θ
a
为Actor网络的参数,θ
c
为Critic网络的参数,s为当前环境温湿度输入状态,a为执行动作且为一个行向量;b3开启第一次迭代,并且计数K=1;b3.1开启第一次探索,并且计数n=1;b3.2根据当前环境温湿度状态s
t
,Actor网络将s
t
作为输入,经过网络函数A(s;θ
a
)|s=s
t
下产生一组执行动作a
t
;b3.3执行完a
t
后,细胞培养腔室的环境状态发生了改变,温湿度检测点发现新状态为s
t+1
,根据公式(3)得到一个及时奖励r
t
,r
t
为ReWard(t);式中M1,M2,M3,M4分别为各项的惩罚因子;b3.4 a
t
和当前环境温湿度状态s
t
联合作为输入到Critic网络,经过C(s,a;θ
c
)|s=s
t
,a=a
t
作用后产生一个评估C
t
。b3.5根据公式(4)计算Actor网络A(s;θ
a
)中参数θ
a
的梯度并且更新参数θ
a
,,b3.6根据公式(5)计算Critic网络C(s,a;θ
c
)中参数θ
c
的梯度,并且更新参数θ
c

其中,为ReWard(t),通过公式(3)计算得到;b3.7环境状态完成更新s
t

s
t+1
;b3.8探索次数计数更新n

n+1;b3.9重新执行过程b3.2

b3.8,直到n>T,完成这次探索过程;b4更新迭代计数,K

K+1;b5重新执行b3.1

b3.9和b4,直到K>N
e
,完成深度强化学习模型DRL的训练;c.将训练好的深度强化学习模型置入所述智能控制单元。2.根据权利要求1所述的智能控制单元,其特征在于加湿器、干燥器、制冷器、加热器从开启到稳定状态所产生的电能消耗p
i
计算公式:式中I
i
(t)、u
i
(t)分别表示各组件瞬时电流和瞬时电压。3.根据权利要求1或2所述的智能控制单元,其特征在于Actor网络具有2个输入神经元、中间层和输出层,2个输入神经元用行向量s=[s
t
,s
h
]表示,行向量中各个分量分别代表当前的环境状态的温度s
t
和相对湿度s
h
;中间层有若干个隐藏层,采用全连接方式,各隐藏层含m
i
个隐藏层神经元,其中i表示隐藏层序号,隐藏层神经元的激活函数形式为f(x)=max(wx+b,0),w表示神经网络层与层之间连接权重,x表示前一层输出,b表示当前层的神经元偏置;输出层有8个神经元,总共分为两组,其中,第一组4个表示电磁阀开启标志神经元,激活函数为softmax,记为行向量[flag1,flag2]和[flag3,flag4],分别表示加湿器、干燥器的电磁阀是否开启,以及制冷器、加热器的电磁阀是否开启;第二组4个神经元的激活函数是线性的y=x,4个神经状态通过行向量time=[time1,time2,time3,time4]表示,分别表示控制加湿器的电磁阀开启运行时间time1、干燥器的电磁阀开启运行时间time2、制冷器的电磁阀开启运行时间time3、加热器的电磁阀开启运行时间time4。4.根据权利要求3所述的智能控制单元,其特征在于critic网络具有10个输入神经元、中间层和输出层,10个输入神经元分别为温度和相对湿度以及Actor网络的输出量,用行向量表示记为input=[s
t
,s
h
,flag1,flag2,flag3,flag4,time1,time2,time3,time4];中间层有若干个隐藏层,采用全连接方式,各隐藏层含L
i
个隐藏层神经元,其中i表示隐藏层序号,隐藏层神经元的激活函数形式为f(x)=max(wx+b,0),w表示神经网络层与层之间连接权重,x表示前一层输出,b表示当前层的神经元偏置;输出层含有一个线性神经元,其激活函数为y=x,评估Actor网络动作的价值。5.一种细胞培养腔室的温湿度控制系统,其特征在于所述细胞培养腔室通过气体通道与加湿器、干燥器、制冷器以及加热...

【专利技术属性】
技术研发人员:张冀聪
申请(专利权)人:北京航空航天大学合肥创新研究院北京航空航天大学合肥研究生院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1