基于强化学习的中央空调控制方法和控制系统技术方案

技术编号:32824688 阅读:93 留言:0更新日期:2022-03-26 20:25
一种基于强化学习的中央空调系统控制方法,包括如下步骤:S1、设计中央空调系统所处空间及自身的状态空间S、控制所述中央空调系统的控制动作A和奖励函数r

【技术实现步骤摘要】
基于强化学习的中央空调控制方法和控制系统


[0001]本专利技术涉及中央空调系统控制
,具体为一种基于强化学习的中央空调控制方法和控制系统。

技术介绍

[0002]中央空调系统(heating,ventilation,and air

conditioning,HVAC)作为建筑能耗的主要设备,具有运行时间长、功率大、温度调控范围灵活等特点,是一种极具潜力的需求侧资源。由于所属建筑环境具备热存储能力,调负荷比传统负荷更具有一定的储能特性,通过实施需求响应,削减负荷实现电力峰值需求,成为了中央空调系统节能最大的潜在领域。为了适应室外不断变化的天气情况和室内负荷变化情况,如何在保证用户舒适度需求的前提下,选择合适的控制器对中央空调系统进行合理调控,达到高峰时段降低楼宇负荷的目的一直是建筑运行优化的研究重点。
[0003]目前,中央空调系统的控制方法有:
[0004]1)传统的控制方式,包括基于规则的控制(如启停控制)、PID控制等。传统的控制方式使用基于规则的控制方法,确定中央空调系统的监督级设定点,例如各种温度/流速设定点,“规则”通常是静态的,并根据工程师和设施管理人员的经验确定,此方法需要大量的先验知识以及精确的系统模型参数。由于其具有设计简单和成本低廉等特点而被广泛运用于实际工程项目中,然而,中央空调系统作为典型的高度非线性、耦合性、时变性、不确定性的复杂多变量系统,传统控制方式往往很难取得理想的运行效果。
[0005]2)模型预测控制方法(MPC),MPC的基本思想是在每个时间步长,通过对未来一段时间窗内进行滚动优化得到最优的控制策略。通过对未来的室内扰动和室外天气状况进行预测,可以显著提高建筑能效。然而MPC的实际运行效果严重依赖模型的准确度,尤其是对于建筑热湿环境控制问题,难以建立精确且能应用在实时优化控制中的建筑动态模型,一旦数学模型与实际情况存在较大偏差,MPC计算得到的控制策略的效果将难以保证。并且,使用MPC方法需要低阶系统动力学和目标函数,开发MPC的“模型”复杂,线性模型通常用于模拟建筑物温度响应,因此需要仔细选择控制变量以确保中央空调能耗与状态和控制变量之间的低阶关系。
[0006]3)启发式算法(如遗传算法,粒子群算法等),该方法使用遗传算法实现中央空调系统节能优化运行,优化方法需要建立黑箱模型,其机理建模和参数辨识工作较为复杂。
[0007]4)强化学习方法,该方法主要利用传统的Tabular Q

learning算法实现空调系统的运行优化,但在实际控制问题中,系统状态空间和动作空间维数大,算法将会面临维数灾难。基于神经网络较强的泛化能力,参数化逼近值函数可以解决上述的维数灾难问题,但是在算法学习过程中单神经网络结构容易出现值函数过估计的情况。在强化学习方法的基础上,利用LSTM神经网络可以解决梯度消失的问题,提高了强化学习算法的稳定性,但是仍未改善值函数过估计的情况。
[0008]中央空调系统的控制方法目前存在的问题,可以归结为建模难或者建模不精确的
问题。因此,有必要提供一种中央空调系统的控制方法,解决难以精确建模的问题。

技术实现思路

[0009]本专利技术提供了一种基于强化学习的中央空调控制方法,该方法选用深度确定性策略梯度方法(Deep Deterministic Policy Gradient,DDPG)求解控制动作,不受模型参数影响,在保证用户舒适的前提下增大空调负荷调控能力。
[0010]为实现上述目的和其他相关目的,本专利技术提供了一种基于强化学习的中央空调系统控制方法,包括如下步骤:
[0011]S1、设计中央空调系统的状态空间S、控制所述中央空调系统的控制动作A和奖励函数r
t

[0012]所述状态空间S至少包括空调负荷、被控区域温度受天气干扰因素、室外天气情况、冷冻水供水温度、提前制冷时长、需求响应时长、制冷机运行状态和时间序列;
[0013]所述控制动作A为关停所述中央空调系统或者在供水温度集合中选取一供水温度作为所述中央空调系统的供水温度,基于所述状态空间S选择所述控制动作A;
[0014]所述奖励函数r
t
用于评判所述控制动作A产生的控制结果,得到奖励值;
[0015]S2、基于所述状态空间S、所述控制动作A和所述奖励函数r
t
设计DDPG网络;
[0016]S3、执行所述DDPG网络对所述中央空调系统进行控制。
[0017]优选地,所述奖励函数r
t
的公式为:
[0018]r
t



×
(T
setlow

T
ave
)
×
λ+β
×
P
hvac
][0019]其中,η,λ,β表示可调超参数,η和β控制建筑空调能耗与室内热舒适度之间的相对重要性以进行优化,λ表示空闲时间内室温违反被控区域温度的惩罚水平,T
setlow
表示室内气温惩罚阈值,T
ave
表示室内平均温度,所有参数均进行归一化处理。
[0020]优选地,所述DDPG网络的执行方法包括如下步骤:
[0021]S3.1、随机初始化当前critic网络Q、当前actor网络μ和两者的目标网络Q'和μ',并随机初始化回放缓冲区R,随机初始化N;
[0022]S3.2、基于所述状态空间S给定起始状态s
t
,将所述起始状态s
t
输入所述当前actor网络μ得到起始动作a
t

[0023]S3.3、执行起始动作a
t
,根据所述奖励函数r
t
得到起始奖励R
t
,并进入下一状态s
t+1
,将[s
t
,a
t
,R
t
,s
t+1
]组成集合储存到所述回放缓冲区R;
[0024]S3.3、对所述回放缓冲区R的[s
t
,a
t
,R
t
,s
t+1
]进行m次随机采样,其中,t=1,2,...,m,m≥2,再基于m次随机采样的样本设置所述当前critic网络Q的目标网络Q',得到目标网络y
t

[0025]S3.4、将所述目标网络y
t
代入所述当前critic网络Q的损失函数更新所述当前critic网络Q,再采用梯度反向传播更新所述当前actor网络μ;
[0026]S3.5、按比例更新目标网络Q'和μ'。
[0027]优选地,所述当前critic网络Q的损失函数为:
[0028][0029]其中,Q(s
t
,a
t
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的中央空调系统控制方法,其特征在于,包括如下步骤:S1、设计中央空调系统的状态空间S、控制所述中央空调系统的控制动作A和奖励函数r
t
;所述状态空间S至少包括空调负荷、被控区域温度受天气干扰因素、室外天气情况、冷冻水供水温度、提前制冷时长、需求响应时长、制冷机运行状态和时间序列;所述控制动作A为关停所述中央空调系统或者在供水温度集合中选取一供水温度作为所述中央空调系统的供水温度,基于所述状态空间S选择所述控制动作A;所述奖励函数r
t
用于评判所述控制动作A产生的控制结果,得到奖励值;S2、基于所述状态空间S、所述控制动作A和所述奖励函数r
t
设计DDPG网络;S3、执行所述DDPG网络对所述中央空调系统进行控制。2.如权利要求1所述的基于强化学习的中央空调系统控制方法,其特征在于,所述奖励函数r
t
的公式为:r
t



×
(T
setlow

T
ave
)
×
λ+β
×
P
hvac
]其中,η,λ,β表示可调超参数,η和β控制建筑空调能耗与室内热舒适度之间的相对重要性以进行优化,λ表示空闲时间内室温违反被控区域温度的惩罚水平,T
setlow
表示室内气温惩罚阈值,T
ave
表示室内平均温度,所有参数均进行归一化处理。3.如权利要求1所述的基于强化学习的中央空调系统控制方法,其特征在于,所述DDPG网络的执行方法包括如下步骤:S3.1、随机初始化当前critic网络Q、当前actor网络μ和两者的目标网络Q'和μ',并随机初始化回放缓冲区R,随机初始化N;S3.2、基于所述状态空间S给定起始状态s
t
,将所述起始状态s
t
输入所述当前actor网络μ得到起始动作a
t
;S3.3、执行起始动作a
t
,根据所述奖励函数r
t
得到起始奖励R
t
,并进入下一状态s
t+1
,将[s
t
,a
t
,R
t
,s
t+1
]...

【专利技术属性】
技术研发人员:郭睿陈东叶傲霜李逸超徐刚胥栋李赟石珺林巧月周思瑜钱韦辰
申请(专利权)人:国网上海市电力公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1