基于分层深度强化学习的建筑综合能源管理方法和系统技术方案

技术编号:38990983 阅读:12 留言:0更新日期:2023-10-07 10:21
本发明专利技术公开了基于分层深度强化学习的建筑综合能源管理方法,包括以下步骤:输入智能用电设备的状态空间数据;分析智能用电设备的动作空间;计算调度智能用电设备的运行成本和偏离消费者偏好的成本;计算回报,确定智能用电设备的最优能耗调度;输入智能用电设备的最优调度及分布式能源的状态空间数据;分析分布式能源的动作空间;计算分布式能源的运行成本和偏离消费者偏好的成本;计算回报,确定分布式能源的最优能耗调度。本发明专利技术通过确定了在消费者偏好的舒适度和电器运行特性内最小化电费的最优策略,从代理获得电器的状态信息,增加了批评Q值的效率和收敛性的补充方法,神经网络输出均值、方差和Q值以找到最优行为。方差和Q值以找到最优行为。方差和Q值以找到最优行为。

【技术实现步骤摘要】
基于分层深度强化学习的建筑综合能源管理方法和系统


[0001]本专利技术涉及无模型强化学习的
,尤其涉及基于分层深度强化学习的建筑综合能源管理方法和系统。

技术介绍

[0002]能源管理系统是一种高效、经济的建筑能源管理方法,目的是降低消费者电费的同时满足他们的舒适度和偏好。为了实现这一目的,BEMS执行两项功能:(1)使用智能电表实时监控能源使用情况;(2)调度用电设备最优能耗。为了实现第二项功能,BEMS算法通常被公式化为基于模型的优化问题;
[0003]然而,基于模型的BEMS优化方法存在一些缺点:首先,电器或分布式能源的运行特性和消费者偏好通过具有固定参数的近似不现实的方程来表达,导致不准确的能源消耗计划;第二,包括大量决策变量的优化方法会显著增加计算复杂性,并且不能很好地适应更多数量的房屋;此外,基于模型的优化产生的解可能不总是有保证的,并且由于BEMS优化问题具有大量操作约束的较小可行区域而经常发散;
[0004]为克服这些问题,越来越多研究试图利用基于强化学习的数据驱动方法实现建筑的高效能源管理。虽然这些方法很有帮助,但在最优现实能耗调度上仍存在不足,例如,Q

learning算法只能基于非现实的离散动作空间对能耗进行最优调度;深度Q网络、策略梯度算法则忽略了用电设备的运行特性。

技术实现思路

[0005]本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊,而这种简化或省略不能用于限制本专利技术的范围。
[0006]鉴于上述现有基于分层深度强化学习的建筑综合能源管理方法和系统存在的问题,提出了本专利技术。
[0007]为解决上述技术问题,本专利技术提供如下技术方案:
[0008]基于分层深度强化学习的建筑综合能源管理方法,包括以下步骤:
[0009]步骤一:输入智能用电设备的状态空间数据;
[0010]步骤二:分析智能用电设备的动作空间;
[0011]步骤三:计算调度智能用电设备的运行成本和偏离消费者偏好的成本;
[0012]步骤四:计算回报,确定智能用电设备的最优能耗调度;
[0013]步骤五:输入智能用电设备的最优调度及分布式能源的状态空间数据;
[0014]步骤六:分析分布式能源的动作空间;
[0015]步骤七:计算分布式能源的运行成本和偏离消费者偏好的成本;
[0016]步骤八:计算回报,确定分布式能源的最优能耗调度。
[0017]作为本专利技术所述基于分层深度强化学习的建筑综合能源管理方法的一种优选方
案,其中:所述步骤一中,收集到的第一级智能用电设备的状态空间记为S
(1)
,以1小时为调度分解单位,以电灯和空调为例,考虑基于深度强化学习的BEMS算法对用电设备进行最优日前调度的情况,对于第一级电灯和空调的代理的状态空间被定义为:
[0018][0019]其中,上式中,t、π
t
、分别表示电灯和空调的调度时间、分时价格、室外温度、室内温度。
[0020]作为本专利技术所述基于分层深度强化学习的建筑综合能源管理方法的一种优选方案,其中:所述步骤二中,将状态空间地数据输入到算法中,分析、确定电灯、空调等智能用电设备的动作空间;第一级的最佳动作取决于代理所处的环境,包括当前状态,动作空间被定义为:
[0021][0022]其中,上式中,分别代表在时间t电灯和空调的能耗;是连续值;是离散值,当电灯开启时,否则,
[0023]作为本专利技术所述基于分层深度强化学习的建筑综合能源管理方法的一种优选方案,其中:所述步骤三中,根据智能用电设备在不同时间的能耗数据,确定其对应的运行成本和偏离消费者偏好的成本;
[0024]将和分别代表电灯和空调的成本函数,包括电器的电费,以及消费者对室内亮度和室内温度的不满的代价;
[0025]电灯的成本函数表示为:
[0026][0027]其中,分别代表消费者偏好的电灯开启和结束时间;δ分别代表与消费者偏好的运作间隔相比,提前或超时运作的损失;如果电灯早于或晚于开启,产生能耗,消费者不满意的代价则被添加到成本函数中;否则,成本函数只包括电灯的电费;
[0028]空调的成本函数表示为:
[0029][0030]其中,κ分别代表消费者温度不适性的损失,不满意的代价被定义为消费者偏好的室内温度与T
min
、T
max
的偏差。
[0031]作为本专利技术所述基于分层深度强化学习的建筑综合能源管理方法的一种优选方
案,其中:所述步骤四中,将包括运行的电力成本、偏离消费者对电器运行特性偏好的不满意成本的总回报函数记为
[0032][0033]在节约电力成本和减少消费者表示的不满意成本之间具有权衡关系,调整的值,以满足消费者希望节省更多的电费或保持期望的舒适性和偏好的需求,输出回报最大化的智能用电设备的最优能耗调度及其运行动作。
[0034]作为本专利技术所述基于分层深度强化学习的建筑综合能源管理方法的一种优选方案,其中:所述步骤五中,将第一级的智能用电设备的最优能耗调度以及不可控电器的固定负载输入到第二级的基于Actor

Critic的深度强化学习模块中,假设光伏系统产生的能量首先被充到储能系统,然后储能系统将选择适当的行为;以储能系统和电动汽车为例,第二级分布式能源的状态空间S
(2)

[0035][0036]其中,上式中,t、π
t
、分别代表储能系统和电动汽车的调度时间、分时价格、储能系统的能量状态、电动汽车的能量状态、预测的光伏发电输出、第一级计算得到的总能耗调度。
[0037]作为本专利技术所述基于分层深度强化学习的建筑综合能源管理方法的一种优选方案,其中:所述步骤六过程中,将状态空间地数据输入到算法中,分析、确定电动汽车、储能系统等分布式能源的动作空间A
(2)

[0038][0039]其中,上式中,其中,分别代表储能系统和电动汽车在时间t的连续能量充电和放电。
[0040]作为本专利技术所述基于分层深度强化学习的建筑综合能源管理方法的一种优选方案,其中:所述步骤七中,根据分布式能源的动作空间,确定其对应的运行成本和偏离消费者偏好的成本;
[0041]和分别代表储能系统和电动汽车的成本函数,包括电力成本,以及消费者对储能系统和电动汽车的放电不足、充电过度的不满的成本;
[0042]储能系统的成本函数表示为:
[0043][0044]其中,τ分别代表储能系统充电过度、充电不足的损失,如果SOE低于SOE
min
或高于SOE
max
,则会发生储能系统的能源利用不足或耗散;
[0045]电动汽车的成本函数表示为:
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于分层深度强化学习的建筑综合能源管理方法,其特征在于,包括以下步骤:步骤一:输入智能用电设备的状态空间数据;步骤二:分析智能用电设备的动作空间;步骤三:计算调度智能用电设备的运行成本和偏离消费者偏好的成本;步骤四:计算回报,确定智能用电设备的最优能耗调度;步骤五:输入智能用电设备的最优调度及分布式能源的状态空间数据;步骤六:分析分布式能源的动作空间;步骤七:计算分布式能源的运行成本和偏离消费者偏好的成本;步骤八:计算回报,确定分布式能源的最优能耗调度。2.根据权利要求1所述的基于分层深度强化学习的建筑综合能源管理方法,其特征在于:所述步骤一中,收集到的第一级智能用电设备的状态空间记为S
(1)
,以1小时为调度分解单位,以电灯和空调为例,考虑基于深度强化学习的BEMS算法对用电设备进行最优日前调度的情况,对于第一级电灯和空调的代理的状态空间被定义为:其中,上式中,t、π
t
、分别表示电灯和空调的调度时间、分时价格、室外温度、室内温度。3.根据权利要求2所述的基于分层深度强化学习的建筑综合能源管理方法,其特征在于:所述步骤二中,将状态空间地数据输入到算法中,分析、确定电灯、空调等智能用电设备的动作空间;第一级的最佳动作取决于代理所处的环境,包括当前状态,动作空间被定义为:其中,上式中,分别代表在时间t电灯和空调的能耗;是连续值;是离散值,当电灯开启时,否则,4.根据权利要求3所述的基于分层深度强化学习的建筑综合能源管理方法,其特征在于:所述步骤三中,根据智能用电设备在不同时间的能耗数据,确定其对应的运行成本和偏离消费者偏好的成本;将和分别代表电灯和空调的成本函数,包括电器的电费,以及消费者对室内亮度和室内温度的不满的代价;电灯的成本函数表示为:其中,分别代表消费者偏好的电灯开启和结束时间;δ分别代表与消费者偏好的运作间隔相比,提前或超时运作的损失;如果电灯早于或晚于开启,
产生能耗,消费者不满意的代价则被添加到成本函数中;否则,成本函数只包括电灯的电费;空调的成本函数表示为:其中,κ分别代表消费者温度不适性的损失,不满意的代价被定义为消费者偏好的室内温度与T
min
、T
max
的偏差。5.根据权利要求4所述的基于分层深度强化学习的建筑综合能源管理方法,其特征在于:所述步骤四中,将包括运行的电力成本、偏离消费者对电器运行特性偏好的不满意成本的总回报函数记为的总回报函数记为在节约电力成本和减少消费者以表示的不满意成本之间具有权衡关系,调整的值,以满足消费者希望节省更多的电费或保持期望的舒适性和偏好的需求,输出回报最大化的智能用电设备的最优能耗调度及其运行动作。6.根据权利要求5所述的基于分层深度强化学习的建筑综合能源管理方法,其特征在于:所述步骤五中,将第一级的智能用电设备的最优能耗调度以及不可控电器的固定负载输入...

【专利技术属性】
技术研发人员:高海洋桂帆马斌徐琼璟郑馨怡端凌立王昱婷张若微张瑶张汀荟范庆华陈庭记杨莲刘永生朱海超蔡可庆王艳巧陈雪薇
申请(专利权)人:南京电力设计研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1