一种考虑源荷不确定性下微电网能量调度的深度强化学习方法技术

技术编号:37852466 阅读:13 留言:0更新日期:2023-06-14 22:43
一种考虑源荷不确定性下微电网能量调度的深度强化学习方法,在微电网优化运行问题的基础上建立相应的马尔可夫决策模型;针对模型环境中光伏和负荷的随机特性,利用长短期记忆(LSTM)神经网络对其状态转移的不确定性进行建模、学习历史光伏和负荷时序数据特征,得到有效的预测模型;基于LSTM神经网络和深度确定性策略梯度算法(DDPG)构建微电网能量优化求解框架,并经过模型训练得到最优能量调度策略网络。本发明专利技术有效避免了连续调度动作离散化对调度策略的影响,可以对微电网做出实时的调度策略,能够有效应对随机变量的影响,提升了微电网运行的经济性。电网运行的经济性。电网运行的经济性。

【技术实现步骤摘要】
一种考虑源荷不确定性下微电网能量调度的深度强化学习方法


[0001]本专利技术涉及一种考虑源荷不确定性下微电网能量调度的深度强化学习方法。

技术介绍

[0002]微电网作为电网中重要组成部分,可极大提高分布式可再生能源渗透率。然而,由于可再生能源以及负荷需求的随机性使得微电网能量调度问题变得愈加复杂。
[0003]目前,针对微电网的能量调度方法的研究方法有线性优化算法、启发式算法、鲁棒优化算法等,然而当实际场景存在高不确定性时,上述优化算法难以适用,会带来算法收敛慢、计算精度低、规划结果过于保守等问题。随着深度强化学习技术的快速发展,因其适用于解决序贯决策问题而成为研究者的关注热点,微电网能量调度问题作为一种时序控制问题,较为契合强化学习框架,因而深度强化学习在电力能量管理领域得到广泛应用。但是现有研究通常将连续型决策变量离散化,从而会带来调度结果不精确、经济性差等问题。虽然深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法较深度Q学习(deep Q network,DQN)算法和双深度Q学习(double deep Q network,DDQN)算法对环境有更强的探索能力,学习得到的能量调度策略更优。但所涉及的研究并未对模型环境中不确定性因素进行建模,会导致模型收敛效果差,所得策略相对保守。

技术实现思路

[0004]为了克服现有以上不足,本专利技术提出一种考虑源荷不确定性下基于长短期记忆(long short

term memory,LSTM)神经网络和DDPG算法的微电网能量调度方法,微电网以并网模式运行的基本结构如图1所示。首先,针对微电网优化运行问题建立相应的马尔可夫决策模型,该模型以调度周期内微电网运行的经济性为目标来寻求最优能量调度策略。针对模型环境中光伏和负荷的随机特性,利用LSTM神经网络对其状态转移的不确定性进行建模。基于LSTM神经网络对历史光伏和负荷时序数据特征学习,进而得到有效的预测模型。然后,基于LSTM

DDPG方法构建微电网能量优化求解框架,并经过模型训练得到最优能量调度策略网络。最后,通过算例仿真验证了本专利技术所提方法的有效性。
[0005]为了实现上述目的,本专利技术的技术方案为:
[0006]一种考虑源荷不确定性下微电网能量调度的深度强化学习方法,包括以下步骤:
[0007]S1:建立微电网优化调度模型,在满足负荷需求以及微电网安全运行的前提下,通过对微电网能量优化管理,实现微电网运行成本最小化的目标;
[0008]S2:提出基于深度强化学习的能量管理办法,针对微电网优化运行问题建立相应的马尔可夫决策模型;
[0009]S3:利用LSTM神经网络得到光伏、负荷数据的有效预测模型,并且基于LSTM

DDPG方法构建微电网能量优化求解框架,得到最优能量调度策略;
[0010]S4:通过算例仿真验证方法的有效性,能有效应对随机变量的影响,提升微电网运
行的经济性。
[0011]进一步,所述步骤S1中,微电网优化调度模型包括以下构成:
[0012]S1

1:构建最小化成本的目标函数模型,考虑三个成本因素,分别是微电网的购电成本C
g
、储能设备的折旧成本C
pv
和光伏发电设备的运维成本C
b
,模型可表示如下:
[0013]min
ꢀꢀꢀ
C = C
g
+C
pv
+C
b
ꢀꢀꢀꢀꢀꢀꢀ
(1)
[0014]S1
‑1‑
1:建立微电网购电成本模型,表示如下:
[0015][0016]式中,λ
b,t
和λ
s,t
分别为t时段微电网向主电网购电和售电的价格;和分别为t时段微电网向主电网的购售电量。
[0017]S1
‑1‑
2:建立光伏设备运维成本模型,表示如下:
[0018][0019]式中,k
pv
为光伏的单位运维成本,P
tpv
为t时段光伏出力。
[0020]S1
‑1‑
3:建立储能设备折旧成本模型,表示如下:
[0021][0022]式中,k
b
为储能设备的单位折旧成本;P
tb
为t时段储能设备的工作功率,P
tb
<0表示储能设备充电,反之,则表示储能设备放电。
[0023]S1

2:构建微电网优化调度问题中的约束条件模型,包括储能设备约束、功率平衡约束和与主电网功率交互约束,可表示如下:
[0024]S1
‑2‑
1:建立储能设备约束模型,表示如下:
[0025]由于储能设备深度充电和放电会对自身造成损害,所以需要在每个时段将储能设备功率和荷电状态约束在一定范围内。因此,储能设备所需满足的约束如下所示:
[0026][0027][0028][0029]式中,为储能设备充放电功率的上限值;η
ch
和η
dis
分别为储能设备的充电效率和放电效率;和分别为t时段储能设备充电和放电的状态变量,值为1时表示储能设备处于工作状态,值为0时,则不工作;Δt为时间间隔;和分别为调度周期内储能设备荷电状态的最小值和最大值;为t时段储能设备的荷电状态。
[0030]由于储能设备的工作状态是单一进行的,即在一个工作时段内,储能设备的充放电状态无法同时存在,故采用下式对其约束:
[0031][0032]此外,为满足下一个调度周期起始时段对储能设备的蓄能和放能要求,需保证储能设备在调度周期初和调度周期末的荷电状态相等,故采用下式对其约束:
[0033][0034]式中,为调度周期末储能设备的荷电状态,为储能设备在下一个调度周期的初始荷电状态。
[0035]S1
‑2‑
2:建立功率平衡约束模型,表示如下:
[0036][0037]式中,P
tl
为t时段的负荷需求。由于同一时段内不能同时存在购电和售电行为,故采用下式对其约束。
[0038][0039]S1
‑2‑
3:建立与主电网功率交互约束模型,表示如下:
[0040]为保证在调度周期内变压器的安全运行,与主电网功率交互还需满足如下约束:
[0041][0042][0043]式中,和分别为微电网向主电网购电和售电的最大功率。
[0044]再进一步,在所述步骤S2中,针对微电网优化问题建立相应的马尔可夫决策过程包括以下构成:
[0045]S2

1:对状态空间进行建模,表示如下:
[0046]将马尔可夫决策过程的状态空间用负荷、光伏出力、储能的荷电状态、购本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种考虑源荷不确定性下微电网能量调度的深度强化学习方法,其特征在于,包括以下步骤:S1:建立微电网优化调度模型,在满足负荷需求以及微电网安全运行的前提下,通过对微电网能量优化管理,实现微电网运行成本最小化的目标;S2:提出基于深度强化学习的能量管理办法,针对微电网优化运行问题建立相应的马尔可夫决策模型;S3:利用长短期记忆(LSTM)神经网络得到光伏、负荷数据的有效预测模型,并且基于LSTM和深度确定性策略梯度(DDPG)方法构建微电网能量优化求解框架,得到最优能量调度策略;S4:通过算例仿真验证方法的有效性,能有效应对随机变量的影响,提升微电网运行的经济性。2.如权利要求1所述的一种考虑源荷不确定性下微电网能量调度的深度强化学习方法,其特征在于,所述步骤S1中,微电网优化调度模型包括以下构成:S1

1:构建最小化成本的目标函数模型,考虑三个成本因素,分别是微电网的购电成本C
g
、储能设备的折旧成本C
pv
和光伏发电设备的运维成本C
b
,模型可表示如下:min C=C
g
+C
pv
+C
b
ꢀꢀꢀꢀꢀꢀꢀ
(1)S1
‑1‑
1:建立微电网购电成本模型,表示如下:式中,λ
b,t
和λ
s,t
分别为t时段微电网向主电网购电和售电的价格;和分别为t时段微电网向主电网的购售电量;S1
‑1‑
2:建立光伏设备运维成本模型,表示如下:式中,k
pv
为光伏的单位运维成本,P
tpv
为t时段光伏出力;S1
‑1‑
3:建立储能设备折旧成本模型,表示如下:式中,k
b
为储能设备的单位折旧成本;P
tb
为t时段储能设备的工作功率,P
tb
<0表示储能设备充电,反之,则表示储能设备放电;S1

2:构建微电网优化调度问题中的约束条件模型,包括储能设备约束、功率平衡约束和与主电网功率交互约束,可表示如下:S1
‑2‑
1:建立储能设备约束模型,表示如下:由于储能设备深度充电和放电会对自身造成损害,所以需要在每个时段将储能设备功率和荷电状态约束在一定范围内;因此,储能设备所需满足的约束如下所示:
式中,为储能设备充放电功率的上限值;η
ch
和η
dis
分别为储能设备的充电效率和放电效率;和分别为t时段储能设备充电和放电的状态变量,值为1时表示储能设备处于工作状态,值为0时,则不工作;Δt为时间间隔;和分别为调度周期内储能设备荷电状态的最小值和最大值;为t时段储能设备的荷电状态;由于储能设备的工作状态是单一进行的,即在一个工作时段内,储能设备的充放电状态无法同时存在,故采用下式对其约束:此外,为满足下一个调度周期起始时段对储能设备的蓄能和放能要求,需保证储能设备在调度周期初和调度周期末的荷电状态相等,故采用下式对其约束:式中,为调度周期末储能设备的荷电状态,为储能设备在下一个调度周期的初始荷电状态;S1
‑2‑
2:建立功率平衡约束模型,表示如下:式中,P
tl
为t时段的负荷需求;由于同一时段内不能同时存在购电和售电行为,故采用下式对其约束;S1
‑2‑
3:建立与主电网功率交互约束模型,表示如下:为保证在调度周期内变压器的安全运行,与主电网功率交互还需满足如下约束:为保证在调度周期内变压器的安全运行,与主电网功率交互还需满足如下约束:式中,和分别为微电网向主电网购电和售电的最大功率。3.如权利要求2所述的一种考虑源荷不确定性下微电网能量调度的深度强化学习方法,其特征在于,所述步骤S2中,针对微电网优化问题建立相应的马尔可夫决策过程,能量管理模型如下:S2

1:对状态空间进行建模,表示如下:将马尔可夫决策过程的状态空间用负荷、光伏出力、储能的荷电状态、购售电价以及微电网运行环境的调度时段表示:
S2

2:对动作空间进行建模,表示如下:连续型动作空间定义为储能设备的充放电功率分别为储能设备的充电功率储能设备的放电功率以及不工作;此外,还需根据约束式(5)对调度动作大小进行限制;S2

3:对奖励函数进行分类并分别建模,表示如下:强化学习的目标是为了在与环境的交互探索中获得累计奖励最大;对奖励函数设置两个部分,第一部分是由微电网的运行成本函数转化而来,第二部分是由储能运行时的惩罚函数组成;S2
‑3‑
1:对微电网成本奖励函数进行建模,表示如下:由于光伏出力和负荷的随机性使强化学习算法在每个时段获得的奖励呈现较大波动性,不合理的奖励设置机制会出现强化学习模型训练时间长、收敛性不佳等问题,从而难以学到有效的调度动作;基于此,为进一步提升模型训练效果,设置两个正数k1和k2,对奖励值大小进行缩放处理;因此,第一部分奖励函数设置如下式,即:S2
‑3‑
2:对调度周期内储能运行的惩罚函数建模,表示如下:储能设备在调度周期内动作时,可能会使其荷电状态在某个时段内出现越限情况,即违反约束式(7);因此,需要给错误的调度动作给予惩罚;定义储能运行的惩罚函数,即:式中,α
dis
和α
ch
分别表示在调度时段内储能违反最小和最大荷电状态约束的放电和充电惩罚系数;S2
‑3‑
3:对调度周期末储能运行的惩罚函数建模,表示如下:根据约束式(9)可知,还应设置储能调度周期末时储能的...

【专利技术属性】
技术研发人员:王坤马冲冲周涉宇王洪良兰洲李子明鲁赛冯昌森
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1