【技术实现步骤摘要】
基于强化学习的中央空调控制方法和控制系统
[0001]本专利技术涉及中央空调系统控制
,具体为一种基于强化学习的中央空调控制方法和控制系统。
技术介绍
[0002]中央空调系统(heating,ventilation,and air
‑
conditioning,HVAC)作为建筑能耗的主要设备,具有运行时间长、功率大、温度调控范围灵活等特点,是一种极具潜力的需求侧资源。由于所属建筑环境具备热存储能力,调负荷比传统负荷更具有一定的储能特性,通过实施需求响应,削减负荷实现电力峰值需求,成为了中央空调系统节能最大的潜在领域。为了适应室外不断变化的天气情况和室内负荷变化情况,如何在保证用户舒适度需求的前提下,选择合适的控制器对中央空调系统进行合理调控,达到高峰时段降低楼宇负荷的目的一直是建筑运行优化的研究重点。
[0003]目前,中央空调系统的控制方法有:
[0004]1)传统的控制方式,包括基于规则的控制(如启停控制)、PID控制等。传统的控制方式使用基于规则的控制方法,确定中央空调系统的监督级设定点,例如各种温度/流速设定点,“规则”通常是静态的,并根据工程师和设施管理人员的经验确定,此方法需要大量的先验知识以及精确的系统模型参数。由于其具有设计简单和成本低廉等特点而被广泛运用于实际工程项目中,然而,中央空调系统作为典型的高度非线性、耦合性、时变性、不确定性的复杂多变量系统,传统控制方式往往很难取得理想的运行效果。
[0005]2)模型预测控制方法(MPC),MPC的基本思
【技术保护点】
【技术特征摘要】
1.一种基于强化学习的中央空调系统控制方法,其特征在于,包括如下步骤:S1、设计中央空调系统的状态空间S、控制所述中央空调系统的控制动作A和奖励函数r
t
;所述状态空间S至少包括空调负荷、被控区域温度受天气干扰因素、室外天气情况、冷冻水供水温度、提前制冷时长、需求响应时长、制冷机运行状态和时间序列;所述控制动作A为关停所述中央空调系统或者在供水温度集合中选取一供水温度作为所述中央空调系统的供水温度,基于所述状态空间S选择所述控制动作A;所述奖励函数r
t
用于评判所述控制动作A产生的控制结果,得到奖励值;S2、基于所述状态空间S、所述控制动作A和所述奖励函数r
t
设计DDPG网络;S3、执行所述DDPG网络对所述中央空调系统进行控制。2.如权利要求1所述的基于强化学习的中央空调系统控制方法,其特征在于,所述奖励函数r
t
的公式为:r
t
=
‑
[η
×
(T
setlow
‑
T
ave
)
×
λ+β
×
P
hvac
]其中,η,λ,β表示可调超参数,η和β控制建筑空调能耗与室内热舒适度之间的相对重要性以进行优化,λ表示空闲时间内室温违反被控区域温度的惩罚水平,T
setlow
表示室内气温惩罚阈值,T
ave
表示室内平均温度,所有参数均进行归一化处理。3.如权利要求1所述的基于强化学习的中央空调系统控制方法,其特征在于,所述DDPG网络的执行方法包括如下步骤:S3.1、随机初始化当前critic网络Q、当前actor网络μ和两者的目标网络Q'和μ',并随机初始化回放缓冲区R,随机初始化N;S3.2、基于所述状态空间S给定起始状态s
t
,将所述起始状态s
t
输入所述当前actor网络μ得到起始动作a
t
;S3.3、执行起始动作a
t
,根据所述奖励函数r
t
得到起始奖励R
t
,并进入下一状态s
t+1
,将[s
t
,a
t
,R
t
,s
t+1
]...
【专利技术属性】
技术研发人员:郭睿,陈东,叶傲霜,李逸超,徐刚,胥栋,李赟,石珺,林巧月,周思瑜,钱韦辰,
申请(专利权)人:国网上海市电力公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。