基于两阶段强化学习的园区微网负荷优化调度方法及系统技术方案

技术编号:31480475 阅读:32 留言:0更新日期:2021-12-18 12:14
本发明专利技术提供一种基于两阶段强化学习的园区微网负荷优化调度方法及系统,涉及微网负荷优化调度技术领域。本发明专利技术获取园区各微网的相关参数,然后负荷代理基于所述相关参数利用基于随机策略梯度的强化学习算法获取各微网的最优价格;最后基于最优价格,利用深度强化学习Actor

【技术实现步骤摘要】
基于两阶段强化学习的园区微网负荷优化调度方法及系统


[0001]本专利技术涉及微网负荷优化调度
,具体涉及一种基于两阶段强化学习的园区微网负荷优化调度方法及系统。

技术介绍

[0002]为了适应能源体系转型的发展战略,园区能源微网已成为区域用能的重要角色,随着园区微网系统的发展,在同一配电园区内往往存在多个园区微网能源系统。电力市场改革的不断深化为园区微网的并网运行又提供了新的机遇。随着电力市场的开放,园区微网将可以以独立的身份参与到区域电力调度中,通过与配电公司的双向互动,提高电力负荷的分配效率。如果能进一步对这些园区微网负荷进行优化调度,可以大大节约能源消耗和生产成本,意义重大。
[0003]现有技术虽然提出了一些针对园区微网进行负荷优化调度的技术,但是存在以下问题:一方面,传统园区微网负荷优化调度模型均高度依赖于对微网内部组件运行的模型构建、数据获取、用户行为特征等较为私密的信息,且由于隐私保护、传感器安装不到位等原因,导致无法完全获取各微网的组件构成以及运行模型、参数等信息,使得利用传统优化算法建模和优化均存在极大困难;另本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于两阶段强化学习的园区微网负荷优化调度方法,其特征在于,所述方法包括:获取园区各微网的相关参数;所述相关参数包括环境参数、负荷需求数据,以及电力批发市场中的电价数据;负荷代理基于所述相关参数利用基于随机策略梯度的强化学习算法获取各微网的最优价格;基于最优价格利用深度强化学习Actor

Critic算法对园区各微网进行优化调度。2.如权利要求1所述的方法,其特征在于,所述方法还包括:在获取园区各微网的相关参数后,对所述相关参数进行预处理;所述预处理包括数据清理、数据集成、数据变换、数据规约以及数据标准化。3.如权利要求1所述的方法,其特征在于,所述负荷代理基于所述相关参数利用基于随机策略梯度的强化学习算法获取各微网的最优价格包括:S21、将负荷代理基于所述相关参数获取最优价格的优化决策过程建模成第一阶段马尔可夫决策模型;所述第一阶段马尔可夫决策模型用四元组表示;其中:C表示第一阶段的状态空间;c
t
∈C表示负荷代理在t时段与环境交互后所处的状态;C
t
=[I
t

t
,L
t,n
,T
t
,H
t
],其中,I
t
表示园区t时刻的光照强度;ρ
t
表示电力批发市场t时刻的电价;L
t,n
表示第n个微网在t时刻的负荷需求;T
t
表示t时刻的环境温度;H
t
表示t时刻的环境湿度;M表示第一阶段强化学习过程中动作空间;m
t
∈M表示负荷代理在t时刻向微网传递出的价格信号;m
t
=[λ
t,1

t,2
,...,λ
t,n
,...,λ
t,N
];其中,λ
t,n
表示t时刻负荷代理向第n个微网传递的最优价格信号;V表示第一阶段的奖励函数;其中,v
t
∈V(c
t
,m
t
););其中,v
t
表示负荷代理在状态c
t
时执行动作m
t
所获得的即时回报;V(c
t
,m
t
)表示累计折扣回报函数;ρ
m,t
表示负荷代理从电力批发市场购电的价格;P
m,t
表示负荷代理与电力批发市场的电量交互;表示负荷代理与各微网之间的负荷交互;γ1表示折扣因子;表示第一阶段的策略集合,即状态空间C到动作空间M的映射;S22、利用基于随机策略梯度的强化学习算法对第一阶段马尔可夫决策过程进行求解以获取各微网的最优价格。4.如权利要求1所述的方法,其特征在于,所述基于最优价格,利用深度强化学习Actor

Critic算法对园区各微网进行优化调度包括:S31、将基于最优价格对各微网进行优化调度的过程构建成第二阶段的马尔可夫决策模型;所述第二阶段的马尔可夫决策模型用四元组(S,A,R,π)表示,其中:S表示第二阶段的状态空间,s
t
∈S表示微网在t时段与环境交互后所处的状态;S
t
=[RE
t

t
,D
t
,SOC
t
];其中,RE
t
表示t时刻微网中可再生能源发电量;λ
t
表示上层负荷代理决策
层传递过来的最优价格;D
t
表示t时刻微网的负荷需求;SOC
t
表示t时刻锂电池的SOC,即荷电状态;A表示第二阶段的动作空间,a
t
∈A表示微网在t时刻可执行的动作;a
t
=[P
tess
,P
tagent
],其中,P
tess
表示电池在t时刻的充放电功率,正值表示放电、负值表示充电;P
tagent
表示微网与上层负荷代理的功率交换,正值表示微网从负荷代理处购电、负值表示微网向负荷代理售电;R表示第二阶段的奖励函数,其中,r
t
∈R(s
t
,a
t
),r
t
表示微网在状态s
t
时执行动作a
t
所获得的即时回报;微网的累计奖励函数为:R(s
t
,a
t
)=E
1,t
+E
2,t
+E
3,t
E
2,t
=c
penalty
·
|P
s,t

D
t
|E
3,t
=c
b
|SOC
t

ε|2P
s,t
=RE
t
+P
tess
+P
tagent
其中,E
1,t
表示微网的运行成本;E
2,t
表示微网系统运行过程中能量供需不匹配时的系统惩罚;E
3,t
表示电池过充/放电是的惩罚;表示微网与负荷代理进行功率交换的成本;表示电池充放电折损成本,E
cs
表示电池单位功率充放电成本;c
penalty
表示微网功率不平衡时的单位惩罚;P
s,t
表示微网t时刻的电力总供给;π表示第二阶段的策略集合,即状态空间S到动作空间A的映射;S32、利用深度强化学习Actor

Critic算法对第二阶段马尔可夫决策模型进行求解,并对园区各微网进行优化调度。5.一种基于两阶段强化学习的园区微网负荷优化调度系统,其特征在于,所述系统包...

【专利技术属性】
技术研发人员:周开乐周昆树张增辉陆信辉殷辉
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1