用于提升冷水机组节能优化的聚类强化学习方法技术

技术编号：40628911 阅读：5 留言：0更新日期：2024-03-13 21:15

本发明专利技术公开了用于提升冷水机组节能优化的聚类强化学习方法，步骤为：一：获取建筑历史冷负荷数据和户外湿球数据；二：对步骤一种获取的数据进行预处理，并将上述预处理后的数据划分为训练集和测试集；三：使用训练集中的数据训练一个LSTM预测模型，并利用K‑means聚类算法将训练集划分为具有相似状态的训练子集；四：采用DQN算法建立控制模型，并使用训练子集进行训练；五：在每个控制前，通过LSTM预测模型预测下一时刻系统状态，将其聚类到对应的状态子集，并调用由该子集训练的模型进行控制，本方法能从相似状态中学到更精确的策略，并且学习过程更高效，所需训练时长缩短，同时，该方法能更好的平衡冷水机组节能与室内舒适度需求，提高系统节能潜力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及暖通空调控制领域，特别涉及用于提升冷水机组节能优化的聚类强化学习方法。

技术介绍

1、据统计，建筑能耗约占社会总能耗的20-40％。维持室内供暖、通风和空调(hvac)舒适度所需的能耗占建筑能耗的一半。冷水机作为暖通空调系统的主要耗能设备,占暖通空调系统总能耗的50％以上。因此，优化冷水机组的运行可以降低hvac系统能耗，也是实现建筑碳中值的有效途径之一。强化学习在此方面显示出巨大的潜力，它能够根据不同的环境和条件调整控制行为，从而实现更加智能和灵活的hvac优化冷水机的运行优化。

2、在实际应用中,冷水机组的控制涉及的状态空间往往很大，这样大规模的状态空间会导致强化学习智能体在训练时难以对每个状态都做到精细的优化，导致控制效果不佳，此外，训练复杂度会随状态量增加而上升，使得训练时长增加，难以收敛到稳定点。为了提高强化学习的控制性能，降低状态量对控制效果的影响，需要采取一定手段，将状态空间同质化并减少状态量的范围，使智能体能够从相似的特征状态中学习经验，训练过程更加高效。

技术实现思路

1、本专利技术解决的技术问题是提供一种用于提升冷水机组节能优化的聚类强化学习方法，训练过程更加面向具体情境，并提高智能体的控制效果。

2、本专利技术解决其技术问题所采用的技术方案是：用于提升冷水机组节能优化的聚类强化学习方法，步骤为：

3、步骤一：获取建筑历史冷负荷数据和户外湿球数据；

4、步骤二：对步骤一种获取的数据进行预处理，并将上述

5、步骤三：使用训练集中的数据训练一个lstm预测模型，并利用k-means聚类算法将训练集划分为具有相似状态的训练子集；

6、步骤四：采用dqn算法建立控制模型，并使用训练子集进行训练；

7、步骤五：在每个控制前，通过lstm预测模型预测下一时刻系统状态，将其聚类到对应的状态子集，并调用由该子集训练的模型进行控制。

8、进一步的是：所述步骤二中，对步骤一种获取的数据进行预处理，具体为利用数据列中的最大值和最小值进行标准化处理，使标准化后的数值x处于[0,1]之间，其算法为：

9、

10、其中x'表示单个数据的取值，min是数据所在列的最小值，max是数据所在列的最大值。

11、进一步的是：所述步骤四中采用dqn算法建立控制模型，具体为：将训练子集内的状态信息传递到深度强化学习模块，作为q神经网络的输入，从而计算所有动作的q值，计算出目标q*网络下所有动作的目标q值，并利用两者的td误差更新q网络参数，实现对模型的训练,而后利用两者的td误差更新神经网络参数θ，具体为：

12、

13、其中，(s,a,r,s')是从经验池获取的四元组，a'是t+1时刻agent所执行的动作，和θi分别表示目标q网络和q*网络的参数。r则是在t时刻状态st下执行动作at所获取的奖赏。

14、进一步的是：所述步骤一至步骤五，具体为：

15、a、收集系统冷负荷数据和户外湿球温度数据，并对数据进行预处理，去除异常值与缺失值。

16、b、使用k-means算法对冷负荷数据进行聚类，将数据划分成k个类别，每个类别代表一个冷负荷子集，其中，k为自然数；

17、c、重复步骤b，将户外湿球温度数据划分成k个类别，其中，k为自然数；

18、d、通过日期数据进行索引，将冷负荷数据类别和户外湿球数据类别连接在一起；

19、e、以冷负荷数据为中心，对于每个冷负荷子集，找到对应不用的户外湿球温度子集取并集,并形成k个数据子集，每个子集包含具有相似冷负荷和户外湿球温度特征的数据；

20、f、将冷水机组控制问题建模为mdp模型，并构建状态，动作及奖赏函数，具体为：

21、其中，状态用s表示，

22、s＝{cls,twet)；

23、其中，cls代表当前系统冷负荷，twet代表当前室外湿球温度；

24、其中，动作用a表示，将冷冻水供水温度和冷却塔风扇频率设置为动作；

25、其中，奖赏函数，用r表示，

26、

27、其中，popt是冷水机组优化后功率；pref是冷水机组额定功率；tchwr是冷冻水回水温度；tchwr，ref是冷冻水回水参考温度，k1,k2是能耗与室内舒适度之间的权重，k1+k2＝1；

28、g、利用dqn深度强化学习算法求解最优控制策略，具体步骤为：

29、g01、初始化记忆回放单元d，用于存储训练样本；

30、g02、初始化当前q网络及目标q*网络的网络参数；

31、g03、将当前系统冷负荷和户外湿球温度数据组成一个输入状态st；

32、g04、q网络根据组合状态st计算所有动作的q值，并使用ε-greedy策略选择动作at；

33、g05、执行动作at，得到奖励rt，并转移到下一个状态st+1；

34、g06、将(st,at,rt,st+1)存入记忆回放单元d中；

35、g07、从经验池中随机选择一个样本；

36、g08、使用td误差作为更新函数，更新q网络参数；

37、

38、g09、每过j步，将当前q网络参数复制目标q*网络参数中；

39、h、对冷水机组进行控制，具体方法为：

40、h01、将当前的系统状态作为lstm预测模型的输入，预测下一时刻系统冷负荷；

41、h02、将预测的下一时刻系统冷负荷通过k-means算法聚类至对应的状态子集；

42、h03、调用由该训练子集训练的强化学习智能体进行下一阶段的控制。

43、本专利技术还公开了一种计算机装置，包括：处理器、存储器、通信接口和通信总线，所述处理器、存储器和通信接口通过所述通信总线完成相互间的通信，所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行上述所述的用于提升冷水机组节能优化的聚类强化学习方法对应的操作。

44、本专利技术还公开了一种计算机存储介质，所述计算机存储介质中存储有至少一个可执行指令，所述可执行指令使处理器执行上述所述的用于提升冷水机组节能优化的聚类强化学习方法对应的操作。

45、本专利技术的有益效果是：本专利技术通过k-means算法将较大的状态空间划分为具有相似状态的子集。然后，基于每个子集来分别训练强化学习智能体，这使得训练过程能够更加针对具体案例，智能体可以从相似的状态数据中获得经验。为了使控制过程更高效，本专利技术采用了一个简单的lstm预测模型，在每次控制间隔之前，根据过去的数据(如上一个小时)，预测下一时刻系统状态，并聚类至对应的子集，确保系统的每个状态都能由对应子集训练的智能体控制。本专利技术与现有的冷水机组控制方法相比，其显著优点是：1)智能体能够从相似状态中学到更精确本文档来自技高网...

【技术保护点】

1.一种用于提升冷水机组节能优化的聚类强化学习方法，其特征在于，步骤为：

2.如权利要求1所述的用于提升冷水机组节能优化的聚类强化学习方法，其特征在于：所述步骤二中，对步骤一种获取的数据进行预处理，具体为利用数据列中的最大值和最小值进行标准化处理，使标准化后的数值x处于[0,1]之间，其算法为：

3.如权利要求1所述的用于提升冷水机组节能优化的聚类强化学习方法，其特征在于：所述步骤四中采用DQN算法建立控制模型，具体为：将训练子集内的状态信息传递到深度强化学习模块，作为Q神经网络的输入，从而计算所有动作的Q值，计算出目标Q*网络下所有动作的目标Q值，并利用两者的TD误差更新Q网络参数，实现对模型的训练,而后利用两者的TD误差更新神经网络参数θ，具体为：

4.如权利要求3所述的用于提升冷水机组节能优化的聚类强化学习方法，其特征在于：

5.一种计算机装置，其特征在于：包括：处理器、存储器、通信接口和通信总线，所述处理器、存储器和通信接口通过所述通信总线完成相互间的通信，所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如

6.一种计算机存储介质，其特征在于：所述计算机存储介质中存储有至少一个可执行指令，所述可执行指令使处理器执行如权利要求1至4中任意一项所述的用于提升冷水机组节能优化的聚类强化学习方法对应的操作。

...

【技术特征摘要】

1.一种用于提升冷水机组节能优化的聚类强化学习方法，其特征在于，步骤为：

3.如权利要求1所述的用于提升冷水机组节能优化的聚类强化学习方法，其特征在于：所述步骤四中采用dqn算法建立控制模型，具体为：将训练子集内的状态信息传递到深度强化学习模块，作为q神经网络的输入，从而计算所有动作的q值，计算出目标q*网络下所有动作的目标q值，并利用两者的td误差更新q网络参数，实现对模型的训练,而后利用两...

【专利技术属性】
技术研发人员：傅启明，陈建平，裴莹玲，袁琦，陆悠，王蕴哲，
申请(专利权)人：苏州科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人