The invention discloses an energy management method and system of smart home based on deep reinforcement learning. The design steps of the method are as follows: the energy management problem of minimizing the energy cost of smart home without building thermal dynamics model and maintaining indoor temperature in comfortable range is modeled as Markov decision-making process and corresponding environment state, behavior and reward function are designed The optimal behavior of energy storage system or / and controllable load under different environmental conditions is trained by using the depth deterministic strategy gradient algorithm, and then the reward function is maximized; the parameters of the trained depth neural network are copied to the local depth neural network of smart home energy management system on a regular basis for the actual performance test. The method of the invention does not need to know the prior information of any uncertain system parameters and the building thermal dynamic mechanical model, and adopts the online learning mode of combining local test and cloud training to cope with the performance degradation problem caused by the environmental change.
【技术实现步骤摘要】
一种基于深度强化学习的智慧家庭能量管理方法及系统
本专利技术涉及一种基于深度强化学习的智慧家庭能量管理方法及系统,属于智慧家庭能量管理
技术介绍
作为下一代电力系统,智能电网的典型特征是在电能产生、传输、分配和消耗过程中使用大量信息和通信技术(例如物联网技术)。在智能电网环境中,智慧家庭面临许多节省能量成本的机遇,例如通过智能调度能量存储系统和可控负载,从而利用电价时间分集特性降低能量成本。作为一种可控负载,暖通空调系统能量消耗约占家庭总能耗的40%,因而在节约能量成本方面具有极大潜力。由于暖通空调系统的主要目的是保证用户的热舒适,所以需要在不牺牲用户热舒适的情况下,最小化智慧家庭能量成本。目前已有大量联合考虑智慧家庭能量优化和用户热舒适的研究工作,包括李雅普诺夫最优化方法、模型预测控制方法等。尽管在上述工作中已经取得了一些进展,但是这些方法需要用到简化的数学模型(例如,等效热参数模型)来模拟建筑热动力学模型。由于建筑热动力学模型受众多因素影响(如外部环境、太阳辐射强度、建筑材质、暖通空调系统的输入功率等),建立既准确又易于高效控制的建筑热动力学模型非常有挑战。为了克服该挑战,最近研究工作通过利用实时数据进行暖通空调系统的控制,其采用方法包括:多智能体强化学习、批量强化学习等。虽然基于强化学习的方法不需要建立建筑热动力学模型,但为处理高维状态空间而使用非线性函数估计器(例如:神经网络)来表征行为值函数时,这些方法表现出不稳定甚至不收敛。为了有效地处理高维连续状态空间,深度强化学习被提出且在Atari ...
【技术保护点】
1.一种基于深度强化学习的智慧家庭能量管理方法,其特征是,包括如下步骤:/n获取智慧家庭的当前环境状态;/n本地深度神经网络根据所述当前环境状态,输出能量存储系统或/和可控负载的当前行为;/n根据所述当前行为,对能量存储系统或/和可控负载实施控制;/n获取智慧家庭的下一时间步环境状态和下一时间步奖励;/n将所述当前环境状态、所述当前行为、所述下一时间步环境状态、所述下一时间步奖励发送至云端经验池;/n从云端经验池中提取训练样本集,以所述奖励最大化为目标,利用深度确定性策略梯度算法对云端深度神经网络进行训练;/n将训练好的云端深度神经网络参数更新至本地深度神经网络。/n
【技术特征摘要】
1.一种基于深度强化学习的智慧家庭能量管理方法,其特征是,包括如下步骤:
获取智慧家庭的当前环境状态;
本地深度神经网络根据所述当前环境状态,输出能量存储系统或/和可控负载的当前行为;
根据所述当前行为,对能量存储系统或/和可控负载实施控制;
获取智慧家庭的下一时间步环境状态和下一时间步奖励;
将所述当前环境状态、所述当前行为、所述下一时间步环境状态、所述下一时间步奖励发送至云端经验池;
从云端经验池中提取训练样本集,以所述奖励最大化为目标,利用深度确定性策略梯度算法对云端深度神经网络进行训练;
将训练好的云端深度神经网络参数更新至本地深度神经网络。
2.根据权利要求1所述的基于深度强化学习的智慧家庭能量管理方法,其特征是,所述可控负载为暖通空调系统。
3.根据权利要求2所述的基于深度强化学习的智慧家庭能量管理方法,其特征是,所述环境状态的表达式如下:
st=(pt,bt,Bt,Ttout,Tt,vt,t′),
式中,st为智慧家庭在t时刻的环境状态,pt为t时刻的分布式发电机输出功率,bt为t时刻的刚性负载需求功率,Bt为t时刻的能量存储系统储能水平,Ttout为t时刻的室外温度,Tt为t时刻的室内温度,vt为t时刻的买电电价,t′为t时刻的当前绝对时间在一天内的相对时间。
4.根据权利要求2所述的基于深度强化学习的智慧家庭能量管理方法,其特征是,所述行为的表达式如下:
at=(ft,et),
式中,at为能量存储系统或/和暖通空调系统在t时刻的行为,ft为能量存储系统在t时刻的充放电功率,ft≥0表示充电,ft<0表示放电,et为暖通空调系统在t时刻的输入功率。
5.根据权利要求2所述的基于深度强化学习的智慧家庭能量管理方法,其特征是,所述奖励函数表达式如下:
Rt=-β(C1,t(st-1,at-1)+C2,t(st-1,at-1))-C3,t(st),
式中,Rt为t时刻的奖励,β为能量系统的成本相对于温度违背导致的惩罚成本的重要性系数,C1,t(st-1,at-1)为t时刻因能量买卖导致的惩罚,st-1为智慧家庭在t时刻的上一时间步的环境状态,at-1为能量存储系统或/和暖通空调系统在t时刻的上一时间步的行为,C2,t(st-1,at-1)为t时刻因能量存储系统折损产生的惩罚,C3,t(st)为t时刻因违背室内舒适温度范围导致的惩罚。
6.根据权利要求3所述的基于深度强化学习的智慧家庭能量管理方法,其特征是,能量存储系统存储水平的动态变化模型如下:
Bt+1=Bt+ηcct+dt/ηd,其中,
ηc∈(0,1...
【专利技术属性】
技术研发人员:余亮,谢蒂,谢玮玮,邹玉龙,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。