System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于深度强化学习的综合能源暖通空调控制方法技术_技高网

基于深度强化学习的综合能源暖通空调控制方法技术

技术编号:40188289 阅读:10 留言:0更新日期:2024-01-26 23:51
本发明专利技术公开了基于深度强化学习的综合能源暖通空调控制方法,其特征在于,包括以下步骤:首先确定HVAC系统能够采取的控制动作空间;然后采集建筑HVAC系统的状态数据;接着构建控制序列,DRL算法更新HVAC控制动作;计算HVAC系统采取动作后的即时回报和最大累积回报;最后使用人工神经网络逼近Q值,选择最优控制动作。本发明专利技术通过将HVAC运行过程表达为马尔可夫决策过程,开发基于DRL的HVAC控制方法,同时最小化建筑能源成本和维持住户的舒适温度;为了获得更高的扩展性,进一步提出了启发式方法,用于复杂多区域系统的有效控制;有效降低了建筑能源成本。

【技术实现步骤摘要】

本专利技术涉及机械学习的数据驱动的,尤其涉及基于深度强化学习的综合能源暖通空调控制方法


技术介绍

1、智能地、灵活地调度暖通空调系统为降低能源建筑成本和提高电网能源效率和稳定性提供了巨大潜力。为了控制建筑暖通空调系统的能源效率,许多方法采用简化的建筑热能力学模型来预测建筑的温度变化。然而,这些方法的性能和可靠性在很大程度上取决于建筑热动力学模型的准确性;此外,建筑温度受许多因素的影响,包括建筑结构和材料、周围环境(如环境温度、湿度、太阳辐射强度)以及来自居住者、照明系统和其他设备的内部热增量。因此,在不完全建模的情况下,建筑温度通常表现出随机行为。


技术实现思路

1、本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊,而这种简化或省略不能用于限制本专利技术的范围。

2、鉴于上述现有基于深度强化学习的综合能源暖通空调控制方法存在的问题,提出了本专利技术。

3、本专利技术的目的是使用深度强化学习(deep reinforcement learning,drl)技术,通过建立深度神经网络来处理大型状态空间,以解决复杂的暖通空调系统控制问题,能够有效降低能源成本。

4、为解决上述技术问题,本专利技术提供如下技术方案:

5、基于深度强化学习的综合能源暖通空调控制方法,包括以下步骤:

6、步骤一:确定hvac系统能够采取的控制动作空间;

7、步骤二:采集建筑hvac系统的状态数据;

8、步骤三:构建控制序列,drl算法更新hvac控制动作;

9、步骤四:计算hvac系统采取动作后的即时回报和最大累积回报;

10、步骤五:使用人工神经网络逼近q值,选择最优控制动作。

11、作为本专利技术所述基于深度强化学习的综合能源暖通空调控制方法的一种优选方案,其中:所述步骤一中,假设一个建筑具有z个温度区域、配备有可变空气流量(variableair flow volume,vav)hvac系统,每个区域的vav终端盒提供调节空气(通常在恒温下),其具有不同离散水平的空气流速,表示为f={f1,f2,…,fm},因此hvac控制的整个动作空间包括每个区域的空气流速的所有可能组合,即n=mz。

12、作为本专利技术所述基于深度强化学习的综合能源暖通空调控制方法的一种优选方案,其中:所述步骤二中,将当前时间、区域温度、环境干扰作为当前的系统状态,采集状态数据,以确定最优控制动作;并结合当前的时间信息能够使drl算法适应与时间相关的活动,如随时间变化的温度要求、电价、住户活动和设备运行;

13、其中,对于环境干扰,还考虑多步天气预报数据,而不仅是当前环境温度和太阳辐射;考虑一个较短的天气预报数据序列使drl算法捕获环境的趋势,执行主动性控制和适应随时间变化的系统。

14、作为本专利技术所述基于深度强化学习的综合能源暖通空调控制方法的一种优选方案,其中:所述步骤三中,drl算法在运行过程中与建筑环境交互,根据建筑的系统状态更新hvac系统采取的控制动作;使用一个单独的控制步长δtc=kδts代表drl算法的控制频率;每一δtc时间,drl算法将观察建筑状态并更新控制动作at,at的表达式为:

15、

16、其中,在两个控制时间步长之间,操作hvac系统的控制动作与上次更新的动作保持一致。δts代表建筑仿真或传感器采样频率,每一δts时间,建筑接收到控制信号并进入下一状态st,st的表达式为:

17、

18、在t-δts,drl观察建筑状态为后,将在下一步长要采取的控制动作更新为at;同时采取控制动作使建筑发展到新状态st。在时间t,采取控制动作at后,建筑发展到新状态

19、作为本专利技术所述基于深度强化学习的综合能源暖通空调控制方法的一种优选方案,其中:所述步骤四中,drl算法的目标是通过采取一序列的动作a1,a2,…,at}(at∈a),最小化总能源成本,同时将每个区域的温度维持在一个满意的范围;在状态st-1采取动作at-1后,建筑会发展成新的状态st,drl算法则会收到一个即时回报rt,表达式为:

20、

21、rt包括前一控制动作at-1的能源成本和违反期望温度的总惩罚,可以发现最小化能源成本和维持期望温度之间存在权衡关系,当总能源成本和总惩罚之和最小时,回报最大化;

22、使用最优值q*(st,at)来代表在状态st采取动作at所能获得的最大累积回报,通过bellman方程以递归的形式计算得到,其中γ∈[0,1]是在最大化回报时控制窗口长度的衰减因子,表达式为:

23、

24、由于区域温度受到各种干扰的影响,建筑的状态迁移是随机的,无法准确测量。因此,本专利技术遵循q-learning的方法,更新估计值:

25、

26、其中η∈[0,1]代表在训练过程中估计值的学习率;在mdp环境下,估计值随着时间的推移应逐渐收敛到最优值q*(st,at)。

27、作为本专利技术所述基于深度强化学习的综合能源暖通空调控制方法的一种优选方案,其中:所述步骤五中,使用人工神经网络逼近q值;在drl框架中的神经网络结构下,所有控制动作的q值估计可以通过在神经网络中执行一次向前传递计算,极大地提高在使用∈-贪婪策略选择动作时的效率;特征的输入值是环境状态,使用线性整流函数作为隐藏层的激活函数,线性层推断输出的动作值,确定最优控制动作;

28、使用目标q值和神经网络推断输出之间的均方误差作为损失函数:

29、

30、其中,n代表可能的控制动作的数量;神经网络中的参数采用mini-batch梯度下降方法ω∶=ω-αδω进行更新,α是学习率,则:

31、

32、与q-learning更新过程一致,当使用梯度下降时,目标值q*(st,at)能够通过如下等式估计,q值由神经网络近似:

33、

34、状态向量st中每个特征的可能值的组合形成了一个非常大的状态空间,每个值的范围可能变化很大;为了方便学习过程,在将状态输入在神经网络之前,将状态向量缩放到[0,1]之间,x代表输入状态的一个特征,每个特征的最小、最大值可以从历史观测估计:

35、

36、对于输出值,线性层从隐藏单元中推断q值估计;如果直接使用即时回报函数来计算目标q值,可能导致目标值有很大的方差;在反向传播过程中,最后一层线性层的相应偏差因子可能主导损失函数的导数,这将阻止前几层的权重学习最优值;为了解决该限制,首先用因子ρ收缩初始即时回报,然后在目标小于-1时对其进行裁剪:

37、

38、通过该方法,将具有较大方差的初始目标值压缩到[-1,0]的范围内,关注更好的控制动作;

本文档来自技高网...

【技术保护点】

1.基于深度强化学习的综合能源暖通空调控制方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于深度强化学习的综合能源暖通空调控制方法,其特征在于:所述步骤一中,假设一个建筑具有z个温度区域、配备有可变空气流量HVAC系统,每个区域的VAV终端盒提供调节空气(通常在恒温下),其具有不同离散水平的空气流速,表示为F={f1,f2,…,fm},因此HVAC控制的整个动作空间包括每个区域的空气流速的所有可能组合,即n=mz。

3.根据权利要求2所述的基于深度强化学习的综合能源暖通空调控制方法,其特征在于:所述步骤二中,将当前时间、区域温度、环境干扰作为当前的系统状态,采集状态数据,以确定最优控制动作;并结合当前的时间信息能够使DRL算法适应与时间相关的活动,如随时间变化的温度要求、电价、住户活动和设备运行;

4.根据权利要求3所述的基于深度强化学习的综合能源暖通空调控制方法,其特征在于:所述步骤三中,DRL算法在运行过程中与建筑环境交互,根据建筑的系统状态更新HVAC系统采取的控制动作;使用一个单独的控制步长Δtc=kΔts代表DRL算法的控制频率;每一Δtc时间,DRL算法将观察建筑状态并更新控制动作at,at的表达式为:

5.根据权利要求4所述的基于深度强化学习的综合能源暖通空调控制方法,其特征在于:所述步骤四中,DRL算法的目标是通过采取一序列的动作{a1,a2,…,at}(at∈A),最小化总能源成本,同时将每个区域的温度维持在一个满意的范围;在状态st-1采取动作at-1后,建筑会发展成新的状态st,DRL算法则会收到一个即时回报rt,表达式为:

6.根据权利要求5所述的基于深度强化学习的综合能源暖通空调控制方法,其特征在于:所述步骤五中,使用人工神经网络逼近Q值;在DRL框架中的神经网络结构下,所有控制动作的Q值估计可以通过在神经网络中执行一次向前传递计算,极大地提高在使用∈-贪婪策略选择动作时的效率;特征的输入值是环境状态,使用线性整流函数作为隐藏层的激活函数,线性层推断输出的动作值,确定最优控制动作;

7.一种应用于权利要求6所述的基于深度强化学习的综合能源暖通空调控制方法的多区域启发式适应的HVAC控制方法,其特征在于:分别训练各个区域的神经网络,各神经网络负责逼近对应区域的Q值,在每个时间步长,所有网络将接收到建筑的状态,然后分别确定各区域的控制动作;在执行控制动作后,各区域违反期望温度的惩罚的计算方式与即时回报函数类似,电力成本costi:

...

【技术特征摘要】

1.基于深度强化学习的综合能源暖通空调控制方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于深度强化学习的综合能源暖通空调控制方法,其特征在于:所述步骤一中,假设一个建筑具有z个温度区域、配备有可变空气流量hvac系统,每个区域的vav终端盒提供调节空气(通常在恒温下),其具有不同离散水平的空气流速,表示为f={f1,f2,…,fm},因此hvac控制的整个动作空间包括每个区域的空气流速的所有可能组合,即n=mz。

3.根据权利要求2所述的基于深度强化学习的综合能源暖通空调控制方法,其特征在于:所述步骤二中,将当前时间、区域温度、环境干扰作为当前的系统状态,采集状态数据,以确定最优控制动作;并结合当前的时间信息能够使drl算法适应与时间相关的活动,如随时间变化的温度要求、电价、住户活动和设备运行;

4.根据权利要求3所述的基于深度强化学习的综合能源暖通空调控制方法,其特征在于:所述步骤三中,drl算法在运行过程中与建筑环境交互,根据建筑的系统状态更新hvac系统采取的控制动作;使用一个单独的控制步长δtc=kδts代表drl算法的控制频率;每一δtc时间,drl算法将观察建筑状态并更新控制动作at,at的表达式为:

...

【专利技术属性】
技术研发人员:马斌高海洋郑馨怡王昱婷朱海超王艳巧蔡可庆陈雪薇徐琼璟张瑶张汀荟端凌立张若微范庆华陈庭记杨莲刘永生
申请(专利权)人:南京电力设计研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1