一种基于多智能体深度强化学习的中央空调控制方法技术

技术编号:32921609 阅读:17 留言:0更新日期:2022-04-07 12:12
本发明专利技术公开了一种基于多智能体深度强化学习的中央空调控制方法,根据当前室内需求冷负荷和室外湿球温度对中央空调系统中冷机、冷却水泵和冷却水塔风扇的启停状态和工作参数进行无模型优化控制,包括冷机运行顺序控制,以及冷却水泵和冷却水塔风扇工作频率的智能体优化控制,本控制方法无需在实际部署过程中建立准确的中央空调系统模型,只需使用单个代理即可分别控制冷却水泵和冷却水塔风扇工作频率,能够依靠少量的历史数据,在短时间内训练出一个高效准确的控制策略,降低不必要的制冷量,减少冷机、冷却水泵和冷却水塔风扇的工作负荷,提高使用寿命并降低故障率,使整个中央空调系统能耗甚至建筑总能耗大大降低。央空调系统能耗甚至建筑总能耗大大降低。央空调系统能耗甚至建筑总能耗大大降低。

【技术实现步骤摘要】
一种基于多智能体深度强化学习的中央空调控制方法


[0001]本专利技术涉及中央空调控制
,特别涉及一种基于多智能体深度强化学习的中央空调控制方法。

技术介绍

[0002]据统计,在建筑物总能耗中,中央空调系统能耗占比甚至超过50%,其中冷机和冷却水系统的能耗又是中央空调能耗的重要组成部分,因此,冷机和冷却水系统的优化控制对降低整个中央空调系统能耗甚至是建筑总能耗尤为重要。
[0003]目前,在当前中央空调系统的控制方法中,最优的控制方法主要包含基于规则的控制、基于模型的控制以及无模型的控制等。基于规则的控制往往是静态的,控制规则根据工程师以及设备管理员的经验确定,适用范围和优化程度十分有限。基于模型的方法需要大量的历史数据和传感器信息,以建立精确的中央空调模型,但是该方法通常缺乏较好的鲁棒性,同时并不适用于缺乏历史数据和传感器的旧建筑群。为避免建立准确数学模型,无模型的控制方法已经被采用,传统的无模型控制方法需要对状态和动作进行离散化,导致动作空间较大以及训练时间较长,算法泛化能力下降,无法针对复杂问题进行求解。
[0004]因此该问题亟待解决。

技术实现思路

[0005]为了克服上述现有技术的不足,本专利技术提供了一种基于多智能体深度强化学习的中央空调控制方法。
[0006]为达到上述目的,本专利技术解决其技术问题所采用的技术方案是:一种基于多智能体深度强化学习的中央空调控制方法,根据当前室内需求冷负荷和室外湿球温度对中央空调系统中冷机、冷却水泵和冷却水塔风扇的启停状态和工作参数进行无模型优化控制,包括冷机运行顺序控制,以及冷却水泵和冷却水塔风扇工作频率的智能体优化控制。
[0007]作为优选,所述中央空调系统中冷机、冷却水泵和冷却水塔依次相连、成组设置,所述冷机顺序控制通过顺序控制器实现,所述冷却水泵和冷却水塔风扇工作频率的智能体优化控制分别通过一个强化学习控制器实现。
[0008]作为优选,包括步骤如下:
[0009]A1.由电子温度计记录室外湿球温度;
[0010]A2.通过能耗软件EnergyPlus模拟仿真求得当前室内需求冷负荷;
[0011]A3.顺序控制器根据当前室内需求冷负荷确定冷机开启的台数;
[0012]A4.强化学习控制器接收当前状态信息后,对所接收的数据信息建立环境模型,并根据环境模型提供最优策略。
[0013]作为优选,所述步骤A2中,用EnergyPlus对当前房间整体建模,输入当前室内干球温度、室外干球温度、室内湿球温度和室外湿球温度,其中CL
s
代表当前室内需求冷负荷,T代表当前室内干球温度、室外干球温度、室内湿球温度和室外湿球温度的集合,model
room

表当前房间模型,输出CL
s
={T,model
room
}。
[0014]作为优选,所述步骤A3中,顺序控制器进行阈值计算和动作执行,其中threshold
n
代表阈值,n(0,1,2,3,

)代表冷机开启数量,refrigerating capacit代表单个冷机额定制冷量,threshold
n
=n
×
refrigerating capacity,顺序控制器实时计算CL
s
落入的threshold
n
到threshold
n+1
的范围,始终维持n台冷机处于开启状态,当n=0时,顺序控制器关闭所有冷机,仅靠冷水水泵和冷却水塔风扇工作来带走室内热量。
[0015]作为优选,所述步骤A4中,两个强化学习控制器分别作为控制冷却水泵和冷却水塔风扇工作频率的智能体,进行多智能体深度强化学习(MADRL)并构建神经网络,神经网络包括两个全连接层和回放记忆单元,输入层为当前室内需求冷负荷和室外湿球温度,将中间层与所有可能的动作进行全连接,输出层为当前室内需求冷负荷和室外湿球温度下所有动作的值估计,控制冷却水泵工作频率的智能体输出的动作是冷却水泵所有能达到的频率,控制冷却水塔风扇工作频率的智能体输出的动作是冷却水塔风扇所有能达到的频率,回放记忆单元用于记录所有样本(s
t
,a
t
,r
t
,s
t+1
),其中s
t
表示当前室内需求冷负荷和室外湿球温度,a
t
表示当前室内需求冷负荷和室外湿球温度状态下冷却水泵和冷却水塔风扇的工作频率,s

表示在s
t

状态下执行动作a
t
后迁移到的下一个状态,r
t
表示在当前状态s
t

下执行动作a
t
得到的立即回报。
[0016]作为优选,所述步骤A4中,两个强化学习控制器将冷却水泵和冷却水塔风扇工作频率的控制问题建模为两个马尔科夫决策过程(MDP)模型,并定义其中的状态、动作以及奖赏函数如下:
[0017]B1.状态,用S表示,其中C
L
s代表当前室内需求冷负荷,T
wet
代表当前室外湿球温度,两个智能体的当前状态一致,用S来表示,S={CL
s
,T
wet
};
[0018]B2.动作,用a表示,其中f
pump
代表冷却水泵的频率,f
tower
代表冷却水塔风扇的频率,a
pump
=f
pummp
;a
tower
=f
tower

[0019]B3.奖赏函数,用r表示,其中P
chiller
代表冷机功耗,P
tower
代表冷却水塔风扇功耗,P
pump
代表冷却水泵功耗,
[0020]作为优选,所述步骤A4中,强化学习控制器建立值函数回报模型,设R(s,a)表示在状态s下采用动作a的回报值,值函数Q(s,a)是关于R(s,a)的期望,则Q(s,a)=E[R(s,a)]。
[0021]作为优选,所述步骤A4中,强化学习控制器通过深度Q学习(Deep Q Network或DQN)算法求解最优策略,算法训练流程如下:
[0022]C1.初始化记忆回放单元,容量是N,用于储存训练的样本;
[0023]C2.初始化当前值网络,随机初始化权重参数ω,初始化目标值网络,结构以及初始化权重与当前值网络相同;
[0024]C3.将室内需求冷负荷和室外湿球温度通过当前值网络,得到任意状态s下的Q(s,a),通过当前值网络计算出值函数后,使用∈greedy策略来选择动作a,每一次状态转移即做出动作记为一个时间步t,将每个时间步得到的数据(s,a,r,s

)存入回放记忆单元;
[0025]C4本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多智能体深度强化学习的中央空调控制方法,其特征在于:根据当前室内需求冷负荷和室外湿球温度对中央空调系统中冷机、冷却水泵和冷却水塔风扇的启停状态和工作参数进行无模型优化控制,包括冷机运行顺序控制,以及冷却水泵和冷却水塔风扇工作频率的智能体优化控制。2.根据权利要求1所述的一种基于多智能体深度强化学习的中央空调控制方法,其特征在于:所述中央空调系统中冷机、冷却水泵和冷却水塔依次相连、成组设置,所述冷机顺序控制通过顺序控制器实现,所述冷却水泵和冷却水塔风扇工作频率的智能体优化控制分别通过一个强化学习控制器实现。3.根据权利要求2所述的一种基于多智能体深度强化学习的中央空调控制方法,其特征在于,包括步骤如下:A1.由电子温度计记录室外湿球温度;A2.通过能耗软件EnergyPlus模拟仿真求得当前室内需求冷负荷;A3.顺序控制器根据当前室内需求冷负荷确定冷机开启的台数;A4.强化学习控制器接收当前状态信息后,对所接收的数据信息建立环境模型,并根据环境模型提供最优策略。4.根据权利要求3所述的一种基于多智能体深度强化学习的中央空调控制方法,其特征在于:所述步骤A2中,用EnergyPlus对当前房间整体建模,输入当前室内干球温度、室外干球温度、室内湿球温度和室外湿球温度,其中CL
s
代表当前室内需求冷负荷,T代表当前室内干球温度、室外干球温度、室内湿球温度和室外湿球温度的集合,model
room
代表当前房间模型,输出CL
s
={T,model
room
}。5.根据权利要求4所述的一种基于多智能体深度强化学习的中央空调控制方法,其特征在于:所述步骤A3中,顺序控制器进行阈值计算和动作执行,其中threshold
n
代表阈值,n(0,1,2,3,

)代表冷机开启数量,refrigerating capacit代表单个冷机额定制冷量,threshold
n
=n
×
refrigerating capacity,顺序控制器实时计算CL
s
落入的threshold
n
到threshold
n+1
的范围,始终维持n台冷机处于开启状态,当n=0时,顺序控制器关闭所有冷机,仅靠冷水水泵和冷却水塔风扇工作来带走室内热量。6.根据权利要求5所述的一种基于多智能体深度强化学习的中央空调控制方法,其特征在于:所述步骤A4中,两个强化学习控制器分别作为控制冷却水泵和冷却水塔风扇工作频率的智能体,进行多智能体深度强化学习(MADRL)并构建神经网络,神经网络包括两个全连接层和回放记忆单元,输入层为当前室内需求冷负荷和室外湿球温度,将中间层与所有可能的动作进行全连接,输出层为当前室内需求冷负荷和室外湿球温度下所有动作的值估计,控制冷却水泵工作频率的智能体输出的动作是冷却水泵所有能达到的频率,控制冷却水塔风扇工作频率的智能体输出的动作是冷却水塔风扇所有能达到的频率,回放记忆单元用于记录所有样本(s
t
,a
t
,r
t
,s
t+1
),其中s
t
表示当前室内需求冷负荷和室外湿球温度,a
t
表示当前室内需求冷负荷和室外湿球温度状态下冷却水泵和冷却水塔风扇的工作频率,s,表示在s
t

状态下执行动作a
t
后迁移到的下一个状态,r
t
表示在当前状态s
t

下执行动作a
t
得到的立即回报。7.根据权利要求6所述的一种基于多智...

【专利技术属性】
技术研发人员:陈建平傅启明陈曦尧
申请(专利权)人:重庆工业大数据创新中心有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1