基于仿真强化学习的基站制冷控制优化方法与系统技术方案

技术编号：40662886 阅读：4 留言：0更新日期：2024-03-18 18:56

本发明专利技术公开了基于仿真强化学习的基站制冷控制优化方法与系统，该系统的仿真部分通过仿真学习到基站暖通空调系统的初步温控策略；实际部署部分包括中央处理器、智能控制器、基站暖通空调系统、环境状态感知模块、规则越界判定器等，该部分实现仿真温控策略的实际部署。本发明专利技术通过引入EnergyPlus仿真解决传统数据驱动模型高度依赖数据质量，无法实现迁移泛化、以及动作越位的问题，实现在无数据积累和输入少量基础参数的情况下能够安全有效地从仿真模型中学习得到较优的初始温控策略。将学习到的控制策略部署到实际基站环境中进行本地模型推理，的进一步优化温控策略，提高基站能效并达到最小的运行成本。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于移动通信系统节能优化，具体为一种基于仿真强化学习的基站制冷控制优化方法与系统。

技术介绍

1、5g通信网络是推动我国工业化、城市化进程的重要组成部分，近些年来迅速发展。5g通信网络整体架构是为了满足现阶段流量大以及多连接的社会应用需求，近年来，5g通信基站的数量呈增加趋势，5g通信基站数量增加的同时也带来了能耗的大幅增加。目前运营商的5g基站主设备空载功耗约为4g基站的3～4倍。为了实现节能环保的目标，对于提高5g通信基站的能效的研究可能是当下的有效途径。

2、5g通信基站在运行过程中设备大量放热会对基站热环境造成影响，进而影响通信设备的整体工作性能，因此需要额外的制冷单元来维持基站基本运行环境。通信基站内的制冷单元主要由hvac(heating ventilation and air conditioning,暖通空调)提供，制冷单元工作大约消耗了基站系统总能量的40％。虽然近年来基站主要通信设备节能降耗技术研究日渐成熟，但业界主要的节能手段聚焦于通信硬件器件的改进和控制以及类似于符号关断、通道关断、载波关断和深度休眠等的软件节能算法，但上述方法存在维护难度高、更新周期短等问题，并且虽然改进硬件器件能够提高基站的能源效率，但是仍然存在一些设备能耗较高的问题。因此，仍然需要寻找更加高效和可持续的节能方法。

3、近年来深度学习和强化学习技术受到广泛关注，深度强化学习作为二者结合的产物，集成了深度学习的理解能力以及强化学习的决策能力，有望在基站节能场景下发挥作用。基于ai和数据驱动的深度强化学习

4、现阶段对于建筑环境中的系统控制优化问题越来越复杂，影响系统环境变化的状态动作对也逐渐趋于连续，在这种情况下，传统的强化学习方法如q-learning可能无法学习获得较优的策略，因此基于深度强化学习的优化方法有望在解决该问题中发挥作用。由于强化学习在与环境交互学习的初始阶段对于动作的选取具有较强的随机性(探索性)，因此暖通空调系统在与实际环境的交互学习过程中容易采取不合理的动作从而导基站运行环境的安全隐患。而且与真实环境的交互过程会造成时间、经济、人力资源的实验成本增加，也是现阶段基站节能优化过程中亟待解决的问题。

技术实现思路

1、为了解决上述问题，本专利技术提供了基于基站热环境仿真模型的深度强化学习暖通空调系统优化控制方法，(经过仿真学习控制策略)，能够满足基站内设备安全性，提高基站能效并达到最小的运行成本。

2、为了实现上述目的，本专利技术采用如下技术方案：

3、一种基于仿真强化学习的基站制冷控制优化方法，其特征在于，包括以下步骤：

4、s1、获取基站参数，所述基站参数包括基站基础信息、基站室外天气信息和分时电价信息；

5、s2、分析基站热环境的热平衡过程，根据s1获取的基站参数，建立基站energyplus热环境仿真模型；

6、s3、确定维护基站安全运行环境的约束条件及目标函数，基于约束条件及目标函数建立优化问题；

7、s4、判断当前状态是否为dqn训练过程中的初始状态：

8、若是初始状态则执行s5；否则，执行s6；

9、s5、设置dqn训练初始状态信息及时间信息，构建并初始化q网络，根据贪婪策略选取初始控制动作，所述时间信息用于判断dqn训练的训练轮次；

10、s6、将当前状态更新为上一时刻状态转移后的状态，并更新时间，根据dqn的输出选择空调当前控制动作；

11、s7、将当前状态及时间输入所述基站energyplus热环境仿真模型中，进行状态转移得到下一时刻的状态，并根据奖励函数获取当前时刻的环境奖励；所述奖励函数为所述目标函数的负数，所述约束条件为奖励函数惩罚项；

12、s8、将s6获取的当前状态st、当前空调控制动作at、当前环境奖励rt以及下一时刻的状态st+1组成四元组(st,at,rt,st+1)存入经验回放池；

13、s9、判断经验回放池是否达到预设数量；若是，则执行s10；否则执行s4；

14、s10、从满足数量要求的经验回放池中采样四元组对dqn的q网络进行参数更新；

15、s11、确定整个训练的回合，回合内的累积奖励值称为该回合的回合奖励值；根据dqn训练的回合奖励值是否收敛，以及该回合内的电费成本节省的百分比是否符合预期判断是否达到预期仿真优化效果；若回合奖励收敛且符合预期优化效果，得到训好的q网络，则执行s12；否则执行s13；

16、s12、将dqn训练得到的满足预期仿真优化效果的q网络部署到实际基站环境中；

17、s13、获取实时基站参数，根据当前状态以及实时基站参数对应的q网络输出选择空调控制动作。

18、进一步的，步骤s1中，获取基站参数后，对基站参数进行数据预处理，所述数据预处理包括缺失数据填充和异常值处理。

19、进一步的，步骤s2中，根据步骤s1中获取的基站基础信息，在energyplus仿真软件中对基站热环境进行建模，得到基站energyplus热环境仿真模型，energyplus对于环境建模的热力学原理及平衡方程如下所示：

20、

21、式中：表示对流内部负载之和，为对流内部负载；i为每个负载的标号，nsl为本房间内负载数量，表示本房间表面的对流传热，nsurfaces为本房间墙壁表面数量，hi为换热系数，ai为墙壁表面面积，tsi为墙壁温度，tz为本房间温度，表示本房间与相邻房间由空气混合导致的热传递，nzones为本房间的相邻房间数量，为换风流速，cp为空气比热容，tzi为相邻房间温度，tz为本房间温度，表示外部空气渗入造成的热传递，为与外部进行热传递的换风风速，t∞为室外环境温度，表示空调系统输出，表示储存在区域空气中的能量变化；cz为房间的热容；cz＝ρaircpct，ρair表示区域空气密度，cp表示区域空气比热，ct表示显热能力乘数。

22、进一步的，步骤s3中，约束条件包括：

23、1)蓄电池的温度约束：

24、

25、式中：为设备入口处温度上限，表示蓄电池温度；

26、2)设备入口处温度的约束：

27、

28、式中：为设备入口处温度上限，表示设备当前温度。

29、进一步的，步骤s3中，目标函数为：

30、

31、式中：wbs为站点的空调系统电力运行成本，为时段k内的分时电价，为k时段空调系统用电量。

32、进一步的，步骤s5中，所述贪婪策略中用到的贪心系数ε满足下列关系式：

33、本文档来自技高网...

【技术保护点】

1.基于仿真强化学习的基站制冷控制优化方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于仿真强化学习的基站制冷控制优化方法，其特征在于，所述步骤S1中，获取基站参数后，对基站参数进行数据预处理，所述数据预处理包括缺失数据填充和异常值处理。

3.根据权利要求1所述的基于仿真强化学习的基站制冷控制优化方法，其特征在于，所述步骤S2中，根据步骤S1中获取的基站基础信息，在EnergyPlus仿真软件中对基站热环境进行建模，得到基站EnergyPlus热环境仿真模型，EnergyPlus对于环境建模的热力学原理及平衡方程如下所示：

4.根据权利要求1或3所述的基于仿真强化学习的基站制冷控制优化方法，其特征在于，所述步骤S3中，约束条件包括：

5.根据权利要求1所述的基于仿真强化学习的基站制冷控制优化方法，其特征在于，所述步骤S3中，目标函数为：

6.根据权利要求1所述的基于仿真强化学习的基站制冷控制优化方法，其特征在于，所述步骤S5中，所述贪婪策略中用到的贪心系数ε满足下列关系式：

7.根据权利要求1所述

8.根据权利要求1所述的基于仿真强化学习的基站制冷控制优化方法，其特征在于，所述步骤S7中，以当前时刻t的状态st以及当前空调控制动作为输入，在基站热环境仿真模型中进行状态转移，通过EnergyPlus环境模型计算得到基站下一时刻的状态，并通过约束条及奖励函数获取得到当前时刻的环境奖励。

9.根据权利要求1所述的基于仿真强化学习的基站制冷控制优化方法，其特征在于，所述步骤S10包括：当经验回放池中的四元组数量到达预定值后，通过从经验回放池R中批量采样设定数量的四元组，对每个四元组，用目标网络计算Q的实际观测值yi，然后根据损失函数(yi-Q(si,ai；θ))2更新Q网络的网络参数。

10.一种基于仿真强化学习的基站制冷控制优化系统，其特征在于，包括信息感知系统、中央处理器和实际部署部分；

...

【技术特征摘要】

1.基于仿真强化学习的基站制冷控制优化方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于仿真强化学习的基站制冷控制优化方法，其特征在于，所述步骤s1中，获取基站参数后，对基站参数进行数据预处理，所述数据预处理包括缺失数据填充和异常值处理。

3.根据权利要求1所述的基于仿真强化学习的基站制冷控制优化方法，其特征在于，所述步骤s2中，根据步骤s1中获取的基站基础信息，在energyplus仿真软件中对基站热环境进行建模，得到基站energyplus热环境仿真模型，energyplus对于环境建模的热力学原理及平衡方程如下所示：

4.根据权利要求1或3所述的基于仿真强化学习的基站制冷控制优化方法，其特征在于，所述步骤s3中，约束条件包括：

5.根据权利要求1所述的基于仿真强化学习的基站制冷控制优化方法，其特征在于，所述步骤s3中，目标函数为：

6.根据权利要求1所述的基于仿真强化学习的基站制冷控制优化方法，其特征在于，所述步骤s...

【专利技术属性】
技术研发人员：徐占伯，王迪，刘亚萍，吴江，刘坤，
申请(专利权)人：西安交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人