一种基于深度强化学习的智慧家庭能量管理方法及系统技术方案

技术编号:22565942 阅读:52 留言:0更新日期:2019-11-16 12:23
本发明专利技术公开了一种基于深度强化学习的智慧家庭能量管理方法及系统,方法的设计步骤如下:将在无建筑热动力学模型和维持室内温度在舒适范围的情况下最小化智慧家庭能量成本这一能量管理问题建模为马尔可夫决策过程并设计相应的环境状态、行为、奖励函数;利用深度确定性策略梯度算法训练出不同环境状态下能量存储系统或/和可控负载的最优行为,进而最大化奖励函数;将训练好的深度神经网络参数定期拷贝至智慧家庭能量管理系统本地的深度神经网络,用于实际性能测试。本发明专利技术提出的方法无需知晓任何不确定性系统参数的先验信息和建筑热动力学模型,且采用本地测试与云端训练相结合的在线学习模式来应对环境变化可能带来的性能降级问题。

A method and system of smart home energy management based on deep reinforcement learning

The invention discloses an energy management method and system of smart home based on deep reinforcement learning. The design steps of the method are as follows: the energy management problem of minimizing the energy cost of smart home without building thermal dynamics model and maintaining indoor temperature in comfortable range is modeled as Markov decision-making process and corresponding environment state, behavior and reward function are designed The optimal behavior of energy storage system or / and controllable load under different environmental conditions is trained by using the depth deterministic strategy gradient algorithm, and then the reward function is maximized; the parameters of the trained depth neural network are copied to the local depth neural network of smart home energy management system on a regular basis for the actual performance test. The method of the invention does not need to know the prior information of any uncertain system parameters and the building thermal dynamic mechanical model, and adopts the online learning mode of combining local test and cloud training to cope with the performance degradation problem caused by the environmental change.

【技术实现步骤摘要】
一种基于深度强化学习的智慧家庭能量管理方法及系统
本专利技术涉及一种基于深度强化学习的智慧家庭能量管理方法及系统,属于智慧家庭能量管理

技术介绍
作为下一代电力系统,智能电网的典型特征是在电能产生、传输、分配和消耗过程中使用大量信息和通信技术(例如物联网技术)。在智能电网环境中,智慧家庭面临许多节省能量成本的机遇,例如通过智能调度能量存储系统和可控负载,从而利用电价时间分集特性降低能量成本。作为一种可控负载,暖通空调系统能量消耗约占家庭总能耗的40%,因而在节约能量成本方面具有极大潜力。由于暖通空调系统的主要目的是保证用户的热舒适,所以需要在不牺牲用户热舒适的情况下,最小化智慧家庭能量成本。目前已有大量联合考虑智慧家庭能量优化和用户热舒适的研究工作,包括李雅普诺夫最优化方法、模型预测控制方法等。尽管在上述工作中已经取得了一些进展,但是这些方法需要用到简化的数学模型(例如,等效热参数模型)来模拟建筑热动力学模型。由于建筑热动力学模型受众多因素影响(如外部环境、太阳辐射强度、建筑材质、暖通空调系统的输入功率等),建立既准确又易于高效控制的建筑热动力学模型非常有挑战。为了克服该挑战,最近研究工作通过利用实时数据进行暖通空调系统的控制,其采用方法包括:多智能体强化学习、批量强化学习等。虽然基于强化学习的方法不需要建立建筑热动力学模型,但为处理高维状态空间而使用非线性函数估计器(例如:神经网络)来表征行为值函数时,这些方法表现出不稳定甚至不收敛。为了有效地处理高维连续状态空间,深度强化学习被提出且在Atari和Go游戏中得到了成功验证。此外,深度强化学习2017年被首次成功应用到建筑暖通空调系统控制中。然而,该工作采用的深度Q网络并不适合高维连续的行为空间,原因是行为空间离散化时会导致行为数量呈爆炸式增长,进而导致低的计算效率、性能降级和需要更多的训练数据。在2019年,一些研究工作考虑了基于深度强化学习的室内热舒适控制。此外,部分工作考虑了基于深度强化学习的能量存储系统控制。然而,现有研究均未考虑智慧家庭环境下能量存储系统与暖通空调系统的联合协调调度,进而不能在动态环境下充分降低能量成本。
技术实现思路
针对现有技术的不足,本专利技术的目的在于提供一种基于深度强化学习的智慧家庭能量管理方法及系统,以解决现有技术中存在的上述技术问题。为解决上述技术问题,本专利技术提出了一种基于深度强化学习的智慧家庭能量管理方法,包括如下步骤:获取智慧家庭的当前环境状态;本地深度神经网络根据所述当前环境状态,输出能量存储系统或/和可控负载的当前行为;根据所述当前行为,对能量存储系统或/和可控负载实施控制;获取智慧家庭的下一时间步环境状态和下一时间步奖励;将所述当前环境状态、所述当前行为、所述下一时间步环境状态、所述下一时间步奖励发送至云端经验池;从云端经验池中提取训练样本集,以所述奖励最大化为目标,利用深度确定性策略梯度算法对云端深度神经网络进行训练;将训练好的云端深度神经网络参数更新至本地深度神经网络。进一步地,所述可控负载为暖通空调系统。进一步地,所述环境状态的表达式如下:st=(pt,bt,Bt,Ttout,Tt,vt,t′),式中,st为智慧家庭在t时刻的环境状态,pt为t时刻的分布式发电机输出功率,bt为t时刻的刚性负载需求功率,Bt为t时刻的能量存储系统储能水平,Ttout为t时刻的室外温度,Tt为t时刻的室内温度,vt为t时刻的买电电价,t′为t时刻的当前绝对时间在一天内的相对时间。进一步地,所述行为的表达式如下:at=(ft,et),式中,at为能量存储系统或/和暖通空调系统在t时刻的行为,ft为能量存储系统在t时刻的充放电功率,ft≥0表示充电,ft<0表示放电,et为暖通空调系统在t时刻的输入功率。进一步地,所述奖励函数表达式如下:Rt=-β(C1,t(st-1,at-1)+C2,t(st-1,at-1))-C3,t(st),式中,Rt为t时刻的奖励,β为能量系统的成本相对于温度违背导致的惩罚成本的重要性系数,C1,t(st-1,at-1)为t时刻因能量买卖导致的惩罚,st-1为智慧家庭在t时刻的上一时间步的环境状态,at-1为能量存储系统或/和暖通空调系统在t时刻的上一时间步的行为,C2,t(st-1,at-1)为t时刻因能量存储系统折损产生的惩罚,C3,t(st)为t时刻因违背室内舒适温度范围导致的惩罚。进一步地,能量存储系统存储水平的动态变化模型如下:Bt+1=Bt+ηcct+dt/ηd,其中,ηc∈(0,1],ηd∈(0,1],Bmin≤Bt≤Bmax,0≤ct≤cmax,-dmax≤dt≤0,ct·dt=0;式中,Bt+1为能量存储系统在t时刻的下一时间步的存储水平,Bmin为能量存储系统的最小存储水平,Bmax为能量存储系统的最高存储水平,ηc为能量存储系统的充电效率,ηd为能量存储系统的放电效率,ct为能量存储系统在t时刻的充电功率,dt为能量存储系统在t时刻的放电功率,cmax为能量存储系统充电功率最大值,dmax为能量存储系统放电功率最大值。进一步地,暖通空调系统输入功率的动态变化模型如下:0≤et≤emax;式中,et为暖通空调系统在t时刻的输入功率,emax为暖通空调系统额定功率,所述暖通空调系统的输入功率能够连续调节。进一步地,所述云端深度神经网络包括行动者网络、目标行动者网络、评论家网络、目标评论家网络,所述本地深度神经网络与行动者网络和目标行动者网络的结构相同;本地深度神经网络输入层的神经元个数与环境状态的分量数相对应,本地深度神经网络隐藏层所采用的激活函数包括线性整流函数,本地深度神经网络输出层的神经元个数与行为的分量数相对应,本地深度神经网络输出层所采用的激活函数包括双曲正切函数或/和sigmoid函数;评论家网络和目标评论家网络的结构相同,其输入层包括两个分别与环境状态和行为相关的独立子层,环境状态相关子层的神经元个数与环境状态的分量数相对应,行为相关子层的神经元个数与行为的分量数相对应,两子层分别连接有若干隐藏层,与两子层分别连接的若干隐藏层的最后一个隐藏层的神经元个数相同,所述最后一个隐藏层的输出求和后输入至新的隐藏层,所述新的隐藏层所采用的激活函数包括线性整流函数,与所述新的隐藏层连接的输出层所采用的激活函数包括线性激活函数。为解决上述技术问题,本专利技术还提出了一种基于深度强化学习的智慧家庭能量管理系统,包括:信息采集模块,用于获取智慧家庭的当前环境状态、下一时间步环境状态和下一时间步奖励,以及将所述当前环境状态、所述当前行为、所述下一时间步环境状态、所述下一时间步奖励发送至云端经验池;本地深度神经网络,用于根据所述当前环境状态,输出能量存储系统或/和可控负载的当前行为;行为控制模块,用于根据所述当前行为,对能量存储系统或/和可控负载本文档来自技高网
...

【技术保护点】
1.一种基于深度强化学习的智慧家庭能量管理方法,其特征是,包括如下步骤:/n获取智慧家庭的当前环境状态;/n本地深度神经网络根据所述当前环境状态,输出能量存储系统或/和可控负载的当前行为;/n根据所述当前行为,对能量存储系统或/和可控负载实施控制;/n获取智慧家庭的下一时间步环境状态和下一时间步奖励;/n将所述当前环境状态、所述当前行为、所述下一时间步环境状态、所述下一时间步奖励发送至云端经验池;/n从云端经验池中提取训练样本集,以所述奖励最大化为目标,利用深度确定性策略梯度算法对云端深度神经网络进行训练;/n将训练好的云端深度神经网络参数更新至本地深度神经网络。/n

【技术特征摘要】
1.一种基于深度强化学习的智慧家庭能量管理方法,其特征是,包括如下步骤:
获取智慧家庭的当前环境状态;
本地深度神经网络根据所述当前环境状态,输出能量存储系统或/和可控负载的当前行为;
根据所述当前行为,对能量存储系统或/和可控负载实施控制;
获取智慧家庭的下一时间步环境状态和下一时间步奖励;
将所述当前环境状态、所述当前行为、所述下一时间步环境状态、所述下一时间步奖励发送至云端经验池;
从云端经验池中提取训练样本集,以所述奖励最大化为目标,利用深度确定性策略梯度算法对云端深度神经网络进行训练;
将训练好的云端深度神经网络参数更新至本地深度神经网络。


2.根据权利要求1所述的基于深度强化学习的智慧家庭能量管理方法,其特征是,所述可控负载为暖通空调系统。


3.根据权利要求2所述的基于深度强化学习的智慧家庭能量管理方法,其特征是,所述环境状态的表达式如下:
st=(pt,bt,Bt,Ttout,Tt,vt,t′),
式中,st为智慧家庭在t时刻的环境状态,pt为t时刻的分布式发电机输出功率,bt为t时刻的刚性负载需求功率,Bt为t时刻的能量存储系统储能水平,Ttout为t时刻的室外温度,Tt为t时刻的室内温度,vt为t时刻的买电电价,t′为t时刻的当前绝对时间在一天内的相对时间。


4.根据权利要求2所述的基于深度强化学习的智慧家庭能量管理方法,其特征是,所述行为的表达式如下:
at=(ft,et),
式中,at为能量存储系统或/和暖通空调系统在t时刻的行为,ft为能量存储系统在t时刻的充放电功率,ft≥0表示充电,ft<0表示放电,et为暖通空调系统在t时刻的输入功率。


5.根据权利要求2所述的基于深度强化学习的智慧家庭能量管理方法,其特征是,所述奖励函数表达式如下:
Rt=-β(C1,t(st-1,at-1)+C2,t(st-1,at-1))-C3,t(st),
式中,Rt为t时刻的奖励,β为能量系统的成本相对于温度违背导致的惩罚成本的重要性系数,C1,t(st-1,at-1)为t时刻因能量买卖导致的惩罚,st-1为智慧家庭在t时刻的上一时间步的环境状态,at-1为能量存储系统或/和暖通空调系统在t时刻的上一时间步的行为,C2,t(st-1,at-1)为t时刻因能量存储系统折损产生的惩罚,C3,t(st)为t时刻因违背室内舒适温度范围导致的惩罚。


6.根据权利要求3所述的基于深度强化学习的智慧家庭能量管理方法,其特征是,能量存储系统存储水平的动态变化模型如下:
Bt+1=Bt+ηcct+dt/ηd,其中,
ηc∈(0,1...

【专利技术属性】
技术研发人员:余亮谢蒂谢玮玮邹玉龙
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1