一种基于强化学习的智慧社区能量优化调度方法技术

技术编号:39669938 阅读:27 留言:0更新日期:2023-12-11 18:34
本发明专利技术涉及一种基于强化学习的智慧社区能量优化调度方法

【技术实现步骤摘要】
一种基于强化学习的智慧社区能量优化调度方法、系统及存储介质


[0001]本专利技术属于优化控制
,尤其涉及一种基于强化学习的智慧社区能量优化调度方法

系统及存储介质


技术介绍

[0002]随着城市化进程的不断推进,智慧社区的建设已成为城市可持续发展的重要组成部分

智慧社区旨在协调社区内各个负荷节点之间的互动和协作,通过采用分布式光伏

储能等技术手段实现能源的高效利用和减排,为居民提供更为舒适

安全

便捷

环保的居住环境

为了实现智慧用能和低碳用能的目标,智慧社区不仅要配备分布式光伏和储能系统,还需要提供能源服务和协调用能策略

因此,研究智慧社区广义负荷协同互动调度策略具有重要意义

[0003]在智慧社区中,居民的生活和能源需求是社区能源管理的重要组成部分,而针对家庭用户的碳排放问题需要建立可靠的碳排放评估模型和科学的能源调度控制策略,以实现低碳生活和可持续发展

目前,已经有一些研究关注智慧社区的能量管理和能源的高效利用

但是传统基于模型的方法往往依赖于对于随机环境的精确建模,然而实际应用中存在的光伏出力

用电负荷等随机因素增加交互环境中的不确定性,而静态模型难以适应环境的变化

近年来,以无模型强化学习为代表的智能决策方法应运而生
r/>该类方法将决策问题建模为马尔可夫决策过程
(Markov decision process,MDP)
,通过利用历史数据来捕捉能源系统的不确定性,实时提供高质量的解决方案,并避免运行过程中的计算负担


Q
学习为代表的无模型强化学习框架和方法逐渐受到人们重视,并应用于居民需求响应和能量管理研究

然而,在智慧社区低碳目标的背景下,为应对复杂的环境动态和不确定性,如光伏出力

用户负荷以及电价等因素的变化,需要进一步探索和优化基于无模型强化学习的智慧社区广义负荷协同互动调度策略


技术实现思路

[0004]本专利技术的主要目的在于克服现有技术的缺点与不足,提供一种基于强化学习的智慧社区能量优化调度方法

系统及存储介质
,
能够实现智慧社区内广义负荷的协同互动调度,并可根据实时数据进行动态调整,适应不同环境和需求,实现灵活的能源调度,提高了能源利用效率

[0005]根据本专利技术的一个方面,本专利技术提供了一种基于强化学习的智慧社区能量优化调度方法,所述方法包括以下步骤:
[0006]S1
:采集智慧社区的历史数据,建立能源数据集,并对所述能源数据集进行预处理;
[0007]S2
:建立智慧社区能量优化调度问题的马尔科夫决策过程模型;
[0008]S3
:基于所述预处理的能源数据集,对所述马尔科夫决策过程模型进行离线训练,
得到最优神经网络模型;
[0009]S4
:获取所述智慧社区的实时数据,基于所述最优神经网络模型得到智慧社区能量优化调度策略

[0010]优选地,所述采集智慧社区的历史数据,建立能源数据集,并对所述能源数据集进行预处理包括:
[0011]采集智慧社区的历史数据,得到采样数据,所述采样数据至少包括用户用电数据和用户舒适度偏好数据;
[0012]将所述采样数据分为训练集和测试集

[0013]优选地,所述建立智慧社区能量优化调度问题的马尔科夫决策过程模型包括:
[0014]采用一个五元组模型
(S,A,P,R,
γ
)
描述智慧社区能量管理调度优化的动态过程,其中
S
为状态集合
、A
为动作集合
、R
为奖励函数,
P
为环境状态转移概率函数,
γ
为折扣因子;
[0015]优化目标为最大值函数所对应的策略,其中用于评估调度策略的值函数为:
[0016]其中,
r(s
t
,a
t
)
为当前时刻智能体在环境状态
s
t
作出决策动作
a
t
所得奖励,表示求取智能体在整个决策周期上的累计平均奖励;
[0017]在时刻
t
的奖励函数定义为:
[0018][0019][0020][0021]其中,
γ
∈[0,1];
ρ
t
表示电价,和
ω
n
表示因违反室内温度上下限而引起不舒适度的惩罚因子,和
υ
n
表示与
EWH
温控相关的惩罚因子,和
ο
用于表示对电池过度充电或充电不足的惩罚因子;
E
n,tHVAC
表示楼宇
n
暖通空调
t
时刻工作功率,
Tem
nmin
表示室内温度舒适度设置下限,
Tem
nmax
表示室内温度舒适度设置上限,
Tem
n

tin
表示
t
时刻室内温度,
E
n,tEWH
表示楼宇
n
热水器
t
时刻工作功率,
T
nmax
表示热水器水温设置舒适度上限,
T
nmin
表示热水器水温设
置舒适度下限,
T
n,tin
表示
t
时刻热水器水温
,E
tESS
表示
t
时刻储能放电功率
,SOC
min
表示储能容量限制的下限,
SOC
max
表示储能容量限制的上限,
SOC
t
表示
t
时刻储能充放电状态

[0022]优选地,所述对所述马尔科夫决策过程模型进行离线训练,得到最优神经网络模型包括:
[0023]搭建智慧社区协同互动调度策略优化强化学习环境,采用双延迟深度确定性策略梯度
TD3
优化算法对所述马尔科夫决策过程模型进行离线训练,记录累计奖励值,当奖励值收敛到有限值时,得到最优神经网络模型

[0024]优选地,所述采用
TD3
优化算法对所述马尔科夫决策过程模型进行离线训练包括:
[0025]对执行者网络的策略函数以及评论家网络的值函数进行拟合,获得整个时间序列中的平均累积奖励最大本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种基于强化学习的智慧社区能量优化调度方法,其特征在于,所述方法包括以下步骤:
S1
:采集智慧社区的历史数据,建立能源数据集,并对所述能源数据集进行预处理;
S2
:建立智慧社区能量优化调度问题的马尔科夫决策过程模型;
S3
:基于所述预处理的能源数据集,对所述马尔科夫决策过程模型进行离线训练,得到最优神经网络模型;
S4
:获取所述智慧社区的实时数据,基于所述最优神经网络模型得到智慧社区能量优化调度策略
。2.
根据权利要求1所述的方法,其特征在于,所述采集智慧社区的历史数据,建立能源数据集,并对所述能源数据集进行预处理包括:采集智慧社区的历史数据,得到采样数据,所述采样数据至少包括用户用电数据和用户舒适度偏好数据;将所述采样数据分为训练集和测试集
。3.
根据权利要求2所述的方法,其特征在于,所述建立智慧社区能量优化调度问题的马尔科夫决策过程模型包括:采用一个五元组模型
(S,A,P,R,
γ
)
描述智慧社区能量管理调度优化的动态过程,其中
S
为状态集合
、A
为动作集合
、R
为奖励函数,
P
为环境状态转移概率函数,
γ
为折扣因子;优化目标为最大值函数所对应的策略,其中用于评估调度策略的值函数为:其中,
r(s
t
,a
t
)
为当前时刻智能体在环境状态
s
t
作出决策动作
a
t
所得奖励,表示求取智能体在整个决策周期上的累计平均奖励;在时刻
t
的奖励函数定义为:的奖励函数定义为:的奖励函数定义为:的奖励函数定义为:
其中,
γ
∈[0,1]

ρ
t
表示电价,和
ω
n
表示因违反室内温度上下限而引起不舒适度的惩罚因子,和
υ
n
表示与
EWH
温控相关的惩罚因子,和
ο
用于表示对电池过度充电或充电不足的惩罚因子;
E
n,tHVAC
表示楼宇
n
暖通空调
t
时刻工作功率,
Tem
nmin
表示室内温度舒适度设置下限,
Tem
nmax
表示室内温度舒适度设置上限,
Tem
n

tin
表示
t
时刻室内温度,
E
n,tEWH
表示楼宇
n
热水器
t
时刻工作功率,
T
nmax
表示热水器水温设置舒适度上限,
T
nmin
表示热水器水温设置舒适度下限,
T
n,tin
表示
t
时刻热水器水温
,E
tESS
表示
t
时刻储能放电功率
,SOC
min
表示储能容量限制的下限,
SOC
max
表示储能容量限制的上限,
SOC
t
表示
t
时刻储能充放电状态
。4.
根据权利要求3所述的方法,其特征在于,所述对所述马尔科夫决策过程模型进行离线训练,得到最优神经网络模型包括:搭建智慧社区协同互动调度策略优化强化学习环境,采用双延迟深度确定性策略梯度
TD3
优化算法对所述马尔科夫决策过程模型进行离线训练,记录累计奖励值,当奖励值收敛到有限值时,得到最优神经网络模型
。5.
根据权利要求4所述的方法,其特征在于,所述采用
TD3
优化算法对所述马尔科夫决策过程模型进行离线训练包括:对执行者网络的策略函数以及评论家网络的值函数进行拟合,获得整个时间序列中的平均累积奖励最大化的最优策略分布;基于双
Q
学习方法完成对
Q
值的估计和更新,并利用两个
Q
函数中的最小值进行计算
。6.
根据权利要求1所述的方法,其特征在于,所述方法还包括:对智慧社区模型进行优化调度,所述智慧社区模型包括暖通空调模型,模型公式为:化调度,所述智慧社区模型包括暖通空调模型,模型公式为:式中:表示与环境条件相关的室外温度,是
t
时刻的室内温度,
[Tem
min
,Tem
max
]
为用户期望的温度舒适度区间,
η
HVAC
表示空调系统的能量转换效率,
C
HVAC

R
HVAC
分别表示空调系统的热阻和热容量;控制方式如下式所示:控制方式如下式所示:式中:表示空调系统
i
实际工作功率,
P
i,rate
表示空调系统
i
的额定工作功率,为连续控制方式下的空调系统决策动作
。7.
根据权利要求6所述的方法,其特征在于,所述智慧社区模型包括电热水器模型,模型公式为:型公式为:型公式为:
式中:
T
tEWH
表示在
t
时刻热水器水箱温度,和
T
out
分别表示进水的冷水温度以及环境温度,
ε
为模型热变化系数,
...

【专利技术属性】
技术研发人员:郑杨任禹丞王雨薇顾新徐丁吉于帅
申请(专利权)人:国网江苏省电力有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1