一种基于值分布深度制造技术

技术编号:39426507 阅读:10 留言:0更新日期:2023-11-19 16:13
本发明专利技术涉及电力调度工程技术领域,具体涉及一种基于值分布深度

【技术实现步骤摘要】
一种基于值分布深度Q网络的微电网储能调度优化方法


[0001]本专利技术涉及电力调度工程
,尤其涉及一种基于值分布深度
Q
网络的微电网储能调度优化方法


技术介绍

[0002]微电网
(microgrid,MG),
作为新型电力系统的典型代表
,
其内部包含分布式供电单元

储能单元和负载单元,储能作为微电网中的核心环节,在微电网稳定运行

能量优化管理

短时供电

改善电能质量等方面起着至关重要的作用

以储能系统的控制方法为核心来研究微电网的调度策略是应对微电网优化运行问题的关键所在

[0003]近年来,随着对节能减排的重视,越来越多的算法应用电力系统中

主要方法分为有模型和无模型两大类

对于有模型的方法:由于微电网同时面临能源侧和负荷侧的不确定性,这使得对于微电网的准确建模难以完成,且微电网的优化决策场景也难以表述为明确的数学表达式,会导致决策优化难以达到最优结果;对于无模型的方法:随着人工智能的兴起,将强化学习应用于电力系统中的研究也越来越多

强化学习方法是求解序贯决策的无模型方法,通过智能体与不确定环境的互动获取反馈来学习在环境中获得最大奖励的策略

现有方案大多数是基于
DQN
算法来实现对微电网的优化和管理,但由于微电网决策序列较长,而且新能源发电功率和负载需求功率以及电价具有波动性,会导致该方法需要大量时间去训练微电网储能调度决策


技术实现思路

[0004]有鉴于此,本专利技术的目的在于提出一种基于值分布深度
Q
网络的微电网储能调度优化方法,以解决有模型方法的建立数学模型困难和无法达到最优调度决策以及无模型强化学习方法的训练时间过长的问题

[0005]基于上述目的,本专利技术提供了一种基于值分布深度
Q
网络的微电网储能调度优化方法,包括以下步骤:
[0006]S1、
根据目标微电网结构建立与之对应的储能系统模型;
[0007]S2、
将微电网系统储能调度问题转换为马尔科夫决策过程,以此建立储能系统智能体状态空间

动作空间和奖励函数;
[0008]S3、
利用值分布深度
Q
网络强化学习算法对储能调度马尔科夫决策过程进行训练,通过与环境的交互使从环境中获得的奖励达到稳定后,得到训练好的模型;
[0009]S4、
将微电网储能调度模型中的光伏发电组件的日发电量,日负荷量,储能系统荷电状态以及分时电价数据信息作为状态输入到训练好的模型,输出储能充放电调度策略,得出微电网运行成本最小的调度方案

[0010]优选地,步骤
S1
进一步包括:
[0011]S11、
建立储能系统模型:使用动态模型表示储能系统,和分别表示在时间
t
储能系统的充电或者放电功率,
t
时刻储能系统荷电状态用表示,则储能系统的模型为:
[0012][0013]S12、
设定储能系统限制条件:对于建立的储能模型,对其在
t
时刻的充电功率放电功率和储能系统荷电状态加以限制:
[0014][0015][0016][0017]其中,分别表示储能系统充放电功率的最大值,分别表示储能系统荷电状态最小值和最大值;
[0018]S13、
设定微电网功率平衡限制:功率平衡关系为:
[0019][0020][0021]其中,为
t
时刻微电网同外部电网的交互功率,若大于0则表示微电网向外部电网购电,若小于0则表示微电网向外部电网售电,为
t
时刻光伏发电功率,为
t
时刻储能系统充放电功率,为
t
时刻负载的功率需求

[0022]优选地,步骤
S2
进一步包括:
[0023]S21、
定义状态空间
S
:包括光伏发电功率

负载需求功率

储能系统荷电状态和从电网中的购电价格,状态空间为:
[0024][0025]在系统状态空间
S
中,分别表示在
t
时刻的光伏发电功率和负荷需求功率,表示在
t
时刻的储能系统的荷电状态,
price
t
表示在
t
时刻外部电网的购电价格;
[0026]定义动作空间
A
:包括储能系统的充电功率和放电功率,动作空间表示为:
[0027][0028]在系统动作空间
A
中,表示在
t
时刻的储能充放电功率;
[0029]定义奖励函数
R
:包括微电网系统在满足约束情况下运行时产生的成本和违反约束时的惩罚项,奖励函数表示为:
[0030][0031]在奖励函数
R
中,表示在
t
时刻向外部电网交换电能的功率,
C
是储能系统的维修成本
,
η
表示违反约束的惩罚项;
[0032]建立决策方法:使用深度神经网络来近似智能体的动作

价值函数和智能体接受环境的状态量,将状态量输入到深度神经网络中,深度神经网络输出在观测状态下的状态

动作价值分布
Z(s,a)
,状态

动作价值分布函数表示智能体在观测状态
s
t
时并采取动作的长期回报的分布:
[0033][0034]其中,
γ
是折扣因子,
r
t
表示在
t
时刻状态
s
下执行动作
a
后获得的奖励,
s
t
表示
t
时刻的状态信息,
a
t
表示
t
时刻的动作,深度神经网络输出的状态

动作价值分布与储能智能体可采取的动作相对应,智能体根据最大
Q
值选取动作,其中
Q
值的公式为:
[0035][0036]其中
N
表示神经网络输出的分布粒子数,
i
为第
i
个分布粒子,
θ

是神经网络的参数,
s,a
为输入的状态和动作,输出为长期回报的分布
Z。
[0037]优选地,步骤
S3
进一步包括:
[0038]S31、...

【技术保护点】

【技术特征摘要】
1.
一种基于值分布深度
Q
网络的微电网储能调度优化方法,其特征在于,包括以下步骤:
S1、
根据目标微电网结构建立与之对应的储能系统模型;
S2、
将微电网系统储能调度问题转换为马尔科夫决策过程,以此建立储能系统智能体状态空间

动作空间和奖励函数;
S3、
利用值分布深度
Q
网络强化学习算法对储能调度马尔科夫决策过程进行训练,通过与环境的交互使从环境中获得的奖励达到稳定后,得到训练好的模型;
S4、
将微电网储能调度模型中的光伏发电组件的日发电量,日负荷量,储能系统荷电状态以及分时电价数据信息作为状态输入到训练好的模型,输出储能充放电调度策略,得出微电网运行成本最小的调度方案
。2.
根据权利要求1所述的基于值分布深度
Q
网络的微电网储能调度优化方法,其特征在于,步骤
S1
进一步包括:
S11、
建立储能系统模型:使用动态模型表示储能系统,和分别表示在时间
t
储能系统的充电或者放电功率,
t
时刻储能系统荷电状态用表示,则储能系统的模型为:
S12、
设定储能系统限制条件:对于建立的储能模型,对其在
t
时刻的充电功率放电功率和储能系统荷电状态加以限制:加以限制:加以限制:其中,分别表示储能系统充放电功率的最大值,分别表示储能系统荷电状态最小值和最大值;
S13、
设定微电网功率平衡限制:功率平衡关系为:设定微电网功率平衡限制:功率平衡关系为:其中,为
t
时刻微电网同外部电网的交互功率,若大于0则表示微电网向外部电网购电,若小于0则表示微电网向外部电网售电,为
t
时刻光伏发电功率,为
t
时刻储能系统充放电功率,为
t
时刻负载的功率需求
。3.
根据权利要求2所述的基于值分布深度
Q
网络的微电网储能调度优化方法,其特征在于,步骤
S2
进一步包括:
S21、
定义状态空间
S
:包括光伏发电功率

负载需求功率

储能系统荷电状态和从电网中的购电价格,状态空间为:
在系统状态空间
S
中,分别表示在
t
时刻的光伏发电功率和负荷需求功率,表示在
t
时刻的储能系统的荷电状态,
price
t
表示在
t
时刻外部电网的购电价格;定义动作空间
A
:包括储能系统的充电功率和放电功率,动作空间表示为:在系统动作空间
A
中,表示在
t
时刻的储能充放电功率;定义奖励函数
R
:包括微电网系统在满足约束情况下运行时产生的成本和违反约束时的惩罚项,奖励函数表示为:在奖励函数
R
中,表示在
t
时刻向外部电网交换电能的功率,
C
是储能系统的维修成本
,
η
表示违反约束的惩罚项;建立决策方法:使用深度神经网络来近似智能体的动作

价值函数和智能体接受环境的状态量,将状态量输入到深度神经网络中,深度神经网络输出在观测状态下的状态

动作价值分布
Z(s,a)
,状态

动作价值分布函数表示智能体在观测状态
s
t
时并采取动作的长期回报的分布:其中,
γ
是折扣因子,
r
t
表示在
t
时刻状态
s
下执行动作
a
后获得的奖励,
s
t
表示
t
时刻的状态信息,
a
t
表示
t
时刻的动作,深度神经网络输出的状态

动作价值分布与储能智能体可采取的动作相对应,智能体根据最大
Q
值选取动作,其中
Q
值的公式为:其中
N
表示神经网络输出的分布粒子数,
i
为第
i
个分布粒子,
θ

是神经网络的参数,
s,a
为输入的状态和动作,输出为长期回报的分布
Z。4.

【专利技术属性】
技术研发人员:余诺宫家凯葛愿韩芬唐斌
申请(专利权)人:安徽工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1