一种基于深度强化学习的含风电虚拟电厂聚合调度方法技术

技术编号:36523665 阅读:13 留言:0更新日期:2023-02-01 16:01
一种基于深度强化学习的含风电虚拟电厂聚合调度方法属于电力系统调度技术领域,包括构建风电自适应预测模型、获得最接近实际出力的趋势性风电出力场景、搭建应用于含风电虚拟电厂的深度强化学习智能体模型、获得状态s、系统的动作a以及奖励值r并带入最终训练后的应用于含风电虚拟电厂的深度强化学习智能体模型,得出风电最优聚合调度结果几大步骤。本发明专利技术面向虚拟电厂模型采用了Double

【技术实现步骤摘要】
一种基于深度强化学习的含风电虚拟电厂聚合调度方法


[0001]本专利技术属于电力系统调度
,特别是涉及到一种基于深度强化学习 的含风电虚拟电厂聚合调度方法。

技术介绍

[0002]未来新能源大规模并网是必然趋势。受天气的影响,使风电存在随机性、 波动性和间歇性。这些因素的存在会使风电出力的不确定性增加,为新能源的 消纳以及电力系统的调度和运行带来影响。随着能源互联网、智慧能源等新颖 概念相继提出,多能互补正是能源互联网、智慧能源的落脚点。虚拟电厂作为 能源互联网重要组态,可实现区域性多能源聚合调控,对解决好新能源消纳, 电网安全稳定运行具有重要意义。
[0003]目前,常见的调度方法一般采用约束求解法,启发式智能算法,或者求解 器求解。虽然以上这些方法具有一定的优势,但会发生过估计和无法收敛的情 况,对具有随机性、间歇性的含新能源虚拟电厂建模十分困难。
[0004]因此现有技术当中亟需要一种新型的技术方案来解决这一问题。

技术实现思路

[0005]本专利技术所要解决的技术问题是:提供一种基于深度强化学习的含风电虚拟 电厂聚合调度方法用于解决常见的调度方法对具有随机性、间歇性的含新能源 虚拟电厂建模困难的技术问题。
[0006]一种基于深度强化学习的含风电虚拟电厂聚合调度方法,包括以下步骤, 并且以下步骤顺次进行:
[0007]步骤一、构建风电自适应预测模型
[0008]所述模型中存储的历史数据均按照对应功率所在的区间进行分组,每组中 的数据均以[预测功率值,实测功率值]的形式表示,将预测功率值和实测功率 值用多种拟合函数进行拟合并比较,获得最佳拟合曲线;
[0009]步骤二、获得最接近实际出力的趋势性风电出力场景
[0010]对最佳拟合曲线进行风光场景的趋势性刻画并进行修正获得最接近实际出 力的趋势性风电出力场景并获得在t时段的功率输出P
W
(t);
[0011]步骤三、通过深度网络学习算法搭建应用于含风电虚拟电厂的深度强化学 习智能体模型
[0012]1)定义两个矩阵网络Q
A
和Q
B
分别为:
[0013]Q
A
(s,a)=Q
A
(s,a)+α(s,a)[r+γmaxQ
B
(s

,a
*
)

Q
A
(s,a)]ꢀꢀꢀ
(1)
[0014]公式(1)中,a
*
表示矩阵网络Q
A
采取该动作a获得的立即回报以及和下一 个状态s

动作的Q值的加权最大回报,a
*
=argmaxQ
A
(s

,a);在网络表格中, 横列s表示网络的输出状态,纵列a表示矩阵网络Q
A
的输出动作;r表示每次训 练得到的奖励值;
[0015]γ为折扣因子,0≤γ≤1,选取γ=0,则表示只考虑当前奖励,意味着采取 短视的策
略;选取γ=1表示把未来的收益也加入了当前的价值中;为平衡当前 与未来,则将γ设为0到1之间的一个值;
[0016]Q
B
(s,a)=Q
B
(s,a)+α(s,a)[r+γmaxQ
A
(s

,b
*
)

Q
B
(s,a)]ꢀꢀꢀ
(2)
[0017]公式(2)中,b
*
表示矩阵网络Q
B
采取该动作a获得的立即回报以及和下一 个状态s

动作的Q值的加权最大回报,b
*
=argmaxQ
B
(s

,a);在网络表格中, 横列s表示网络的输出状态,纵列a表示矩阵网络Q
B
的输出动作;r表示每次训 练得到的奖励值;
[0018]γ为折扣因子,0≤γ≤1,选取γ=0,则表示只考虑当前奖励,意味着采取 短视的策略;选取γ=1表示把未来的收益也加入了当前的价值中;为平衡当前 与未来,则将γ设为0到1之间的一个值;
[0019]2)初始化两个矩阵网络Q
A
和Q
B
,以及状态s;
[0020]3)Q
A
和Q
B
相互交替进行估值计算和动作输出;
[0021]4)把状态s分别输入Q
A
和Q
B
,得到两个网络分别输出的动作a,并且根 据各自的动作迁移到各自的状态s

,得到各自的奖励值r并以同等概率选择Q
A
和Q
B
两个网络交替进行更新;
[0022]5)选择Q
A
时,按照公式(1)进行更新;
[0023]6)选择Q
B
时,按照公式(2)进行更新;
[0024]7)将状态s

迭代状态s,重复交替更新直至达到训练次数,获得训练后的 应用于含风电虚拟电厂的深度强化学习智能体模型;
[0025]步骤四、对应用于含风电虚拟电厂的深度强化学习智能体模型搭建深度强 化学习环境、深度强化学习动作和深度强化学习奖励,分别获得状态s、系统的 动作a以及奖励值r:
[0026]S=[P
W
(t),L(t),Γ(t),H1‑2(t),Φ(t)]ꢀꢀꢀ
(3)
[0027](3)式中:P
W
(t)为在t时段的风电功率输出,由步骤二获得,L(t)为负 荷在t时段的负荷需求;Γ(t)为t时段的分时电价,H1‑2(t)为可控负荷参与虚 拟电厂调控下的状态,Φ(t)为在t时段电储能的荷电状态;
[0028]a=[a
W
a
L a
C
a
ESS
]ꢀꢀꢀ
(4)
[0029](4)式中:a
W
作为多风电场的发电动作,a
L
作为可控负荷的耗电动作, a
C
作为电动汽车的耗电动作,a
ESS
作为储能对于聚合风电场下的功率调节;
[0030]r=

(o+k+m)
ꢀꢀꢀ
(5)
[0031](5)式中:o表示虚拟电厂运行期间为实现供用平衡,对储能电池过放电或 过充电惩罚;k表示响应激励机制;m表示当虚拟电厂内部平衡处于不平衡状 态时,外部电网购买的电量;r表示奖励值计算函数;
[0032]步骤五、将步骤四中获得的状态s、系统的动作a以及奖励值r带入公式 (1)或公式(2)中最终训练后的应用于含风电虚拟电厂的深度强化学习智能 体模型,得出风电最优聚合调度结果。
[003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的含风电虚拟电厂聚合调度方法,其特征是:包括以下步骤,并且以下步骤顺次进行,步骤一、构建风电自适应预测模型所述模型中存储的历史数据均按照对应功率所在的区间进行分组,每组中的数据均以[预测功率值,实测功率值]的形式表示,将预测功率值和实测功率值用多种拟合函数进行拟合并比较,获得最佳拟合曲线;步骤二、获得最接近实际出力的趋势性风电出力场景对最佳拟合曲线进行风光场景的趋势性刻画并进行修正获得最接近实际出力的趋势性风电出力场景并获得在t时段的功率输出P
W
(r);步骤三、通过深度网络学习算法搭建应用于含风电虚拟电厂的深度强化学习智能体模型1)定义两个矩阵网络Q
A
和Q
B
分别为:Q
A
(s,a)=Q
A
(s,a)+α(s,a)[r+γmaxQ
B
(s',a
*
)

Q
A
(s,a)]
ꢀꢀꢀꢀ
(1)公式(1)中,a
*
表示矩阵网络Q
A
采取该动作a获得的立即回报以及和下一个状态s

动作的Q值的加权最大回报,a
*
=arg maxQ
A
(s',a);在网络表格中,横列s表示网络的输出状态,纵列a表示矩阵网络Q
A
的输出动作;r表示每次训练得到的奖励值;γ为折扣因子,0≤γ≤1,选取γ=0,则表示只考虑当前奖励,意味着采取短视的策略;选取γ=1表示把未来的收益也加入了当前的价值中;为平衡当前与未来,则将γ设为0到1之间的一个值;Q
B
(s,a)=Q
B
(s,a)+α(s,a)[r+γmaxQ
A
(s',b
*
)

Q
B
(s,a)]
ꢀꢀꢀꢀ
(2)公式(2)中,b
*
表示矩阵网络Q
B
采取该动作a获得的立即回报以及和下一个状态s

动作的Q值的加权最大回报,b
*
=arg maxQ
B
(s',a);在网络表格中,横列s表示网络的输出状态,纵列a表示矩阵网络Q
B
的输出动作;r表示每次训练得到的奖励值;γ为折扣因子,0≤γ≤1,选取γ=0,表示只考虑当前奖励,选取γ=1表示把未来的收益也加入了当前的价值中,为平衡当前与未来,则将γ设为0到1之间的一个值;2)初始化两个矩阵网络Q
A
和Q
B
,以及状态s;3)Q
A
和Q
B
相互交替进行估值计算和动作输出;4)把状态s分别输入Q
A
和Q
B
,得到两个网络分别输出的动作a,并且根据各自的动作迁移到各自的状态s

,得到各自的奖励值r并以同等概率选择Q
A
和Q
B
两个网络交替进行更新;5)选择Q
A
时,按照公式(1)进行更新;6)选择Q
B
时,按照公式(2)进行更新;7)将状态s

迭代状态s,重复交替更新直至达到训练次数,获得训练后的应用于含风电虚拟电厂的深度强化学习智能体模型;步骤四、对应用于含风电虚拟电厂的深度强化学习智能体模型搭建深度强化学习环境、深度强化学习动作和深度强化学习奖励,分别获得状态s、系统的动作a以及奖励值r:S=[P
W
(t),L(t),Γ(t),H1‑2(t),Φ(t)]
ꢀꢀꢀꢀꢀꢀ
(3)(3)式中:P
W
(t)为在t时段的风电功率输出,由步骤二获得,L(t)为负荷在t时段的负荷需求;Γ(t)为t时段的分时电价,H1‑2(t)为可控负荷参与虚拟电厂调控下的状态,Φ(t)为在t时段电储能的荷电状态;
a=[a
W
a
L
a
C
a
ESS
]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)(4)式中:a
W
作为多风电场的发电动作,a
L
作为可控负荷的耗电动作,a
C
作为电动汽车的耗电动作,a
ESS
作为储能对于聚合风电场下的功率调节;r=

(o+k+m)
...

【专利技术属性】
技术研发人员:纪秀李聪戚成龙李德鑫王佳蕊郎超越张红王晓丹李蒙王合心白杨
申请(专利权)人:吉林省电力科学研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1