基于强化学习的分布式电源接入配电网有功优化方法技术

技术编号:37089801 阅读:25 留言:0更新日期:2023-03-29 20:04
本发明专利技术公开了基于强化学习的分布式电源接入配电网有功优化方法包括,对强化学习的数学原理进行挖掘;提出基于强化学习的配电网最优潮流。本方法方法基于强化学习的数学原理,通过对数学原理进行挖掘得到基于强化学习的配电网最优潮流模型,该模型通过选用合理的优化方法来实现配网侧的多目标实时控制,在待优化的目标函数值达到最优的条件下保证能够满足配电网运行过程当中的各项约束条件,保护电网运行的可靠性,解决了由于分布式电源分散性、时序性、随机性极强,为配网侧的优化控制带来了更大的难度的问题。来了更大的难度的问题。来了更大的难度的问题。

【技术实现步骤摘要】
基于强化学习的分布式电源接入配电网有功优化方法


[0001]本专利技术涉及配电网优化
,尤其涉及基于强化学习的分布式电源接入配电网有功优化方法。

技术介绍

[0002]随着配网侧越来越多地接入风机、光伏单元等分布式电源及储能装置,新型主动配电网正在逐步形成和完善。由于分布式电源分散性、时序性、随机性极强,为配网侧的优化控制带来了更大的难度,所以选用合理的优化方法来实现配网侧的多目标实时控制成为了亟待解决的问题。

技术实现思路

[0003]本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊,而这种简化或省略不能用于限制本专利技术的范围。
[0004]鉴于上述现有存在的问题,提出了本专利技术。
[0005]因此,本专利技术提供了基于强化学习的分布式电源接入配电网有功优化方法,能够解决传统方法中分布式电源分散性、时序性、随机性极强的问题。
[0006]为解决上述技术问题,本专利技术提供如下技术方案,基于强化学习的分布式电源接入配电网有功优化方法,包括:
[0007]对强化学习的数学原理进行挖掘;
[0008]提出基于强化学习的配电网最优潮流。
[0009]作为本专利技术所述的基于强化学习的分布式电源接入配电网有功优化方法的一种优选方案,其中:所述挖掘强化学习的数学原理包括,Q学习过程,过程如下:
[0010]定义Q值:
[0011][0012]评估Q值:
[0013][0014]其中,为Q值函数,A为动作集合,s为当前状态,s

为下一时刻的状态,R(s,s',a)为回报函数值,γ为折扣因子;
[0015]更新Q值迭代公式如下:
[0016][0017]其中,α为学习因子,ΔQ为学习增量。
[0018]作为本专利技术所述的基于强化学习的分布式电源接入配电网有功优化方法的一种优选方案,其中:所述Q学习过程包括,Q(λ)算法将值函数Q(s,a)与资格迹相结合,其迭代更新公式如下:
[0019]Q
k+1
(s,a)=Q
k
(s,a)+αδ
k
e
k
(s,a)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0020][0021]其中,k为迭代次数,R(s
k
,s
k+1
,a
k
)为奖励函数值,e
k
(s,a)为资格迹。
[0022]作为本专利技术所述的基于强化学习的分布式电源接入配电网有功优化方法的一种优选方案,其中:所述更新规则包括,
[0023][0024]其中,(s
ik
,a
ik
)为个体i在第k次迭代时的状态

动作对,γ∈[0,1]为折扣因子,λ∈[0,1]为资格迹衰退系数。
[0025]作为本专利技术所述的基于强化学习的分布式电源接入配电网有功优化方法的一种优选方案,其中:所述挖掘强化学习的数学原理还包括,动作选择策略如下式所示:
[0026][0027]ε

贪婪搜索原则可以表示如下:
[0028][0029]其中,q0为[0,1]区间内的随机数,ε为贪婪动作利用率,a
ran
d为随机动作。
[0030]作为本专利技术所述的基于强化学习的分布式电源接入配电网有功优化方法的一种优选方案,其中:所述贪婪搜索包括,贪婪策略迭代公式如下:
[0031][0032]其中,β为更新速率,P
sk
(a)为第k次迭代时状态s下动作a被选择的概率。
[0033]作为本专利技术所述的基于强化学习的分布式电源接入配电网有功优化方法的一种优选方案,其中:所述基于强化学习的配电网最优潮流包括,考虑到电网运行的经济性,有功网络损耗应当作为首要考虑的指标,所述有功网络损耗的目标函数如下:
[0034][0035]其中,F
10
为有功网络损耗,B为配电网所有支路的集合,i、j分别为支路首末端的节点编号,θ
ij
为节点i、j电压的相角差,g
ij
为节点i、j之间的支路电导;
[0036]进一步定义目标函数为优化后和优化前有功网损的差值:
[0037]max F1=

ω1(F
11

F
10
) (10)
[0038]其中,F1为目标函数,F
11
为优化后的目标函数值,F
10
为优化前目标函数的初始值,ω1为所述目标函数的权重系数,且ω1>0。
[0039]作为本专利技术所述的基于强化学习的分布式电源接入配电网有功优化方法的一种优选方案,其中:所述目标函数包括,主动配电网需要使待优化的目标函数值达到最优,同时保证能够满足配电网运行过程当中的约束条件,如下所示:
[0040][0041]其中,P
DG,i
、Q
DG,i
、P
d,i
、Q
d,i
分别为节点i处接入分布式电源的有功出力、无功出力和所述节点处的有功负荷、无功负荷,G
ij
、B
ij
分别为节点i和节点j之间的电导和电纳。
[0042]作为本专利技术所述的基于强化学习的分布式电源接入配电网有功优化方法的一种优选方案,其中:所述约束条件包括,
[0043][0044][0045][0046][0047]其中,P
ij
为支路的有功功率,为支路的有功功率上限;
[0048]将电压越限的节点个数纳入优化目标,并进行量化处理:
[0049]max F2=

ω2(N
ag1

N
ag0
) (16)
[0050]其中,F2为节点电压约束条件,N
ag1
为优化后电压越限的节点个数,N
ag0
为优化后电压越限的节点个数,ω2为该约束条件的权重系数,且ω2>0。
[0051]作为本专利技术所述的基于强化学习的分布式电源接入配电网有功优化方法的一种优选方案,其中:所述目标函数还包括,
[0052]采用罚函数法设计基于强化学习的合格函数,计算过程如下:
[0053][0054]其中,f
e
为罚函数初值,PF
u
为第u个约束条件的惩罚函数,NC为约束条件个数。
[0055][0056]其中,χ为惩罚因子,Z
u
为第u个约束条件,Z
ulim
为第u个约束条件Z
u
的极限值。
[0057]在所述的OPF问题当本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于强化学习的分布式电源接入配电网有功优化方法,其特征在于:包括,对强化学习的数学原理进行挖掘;提出基于强化学习的配电网最优潮流。2.如权利要求1所述的基于强化学习的分布式电源接入配电网有功优化方法,其特征在于:所述挖掘强化学习的数学原理包括,Q学习过程,过程如下:定义Q值:评估Q值:其中,为Q值函数,A为动作集合,s为当前状态,s

为下一时刻的状态,R(s,s',a)为回报函数值,γ为折扣因子;更新Q值迭代公式如下:其中,α为学习因子,ΔQ为学习增量。3.如权利要求2所述的基于强化学习的分布式电源接入配电网有功优化方法,其特征在于:所述Q学习过程包括,Q(λ)算法将值函数Q(s,a)与资格迹相结合,其迭代更新公式如下:Q
k+1
(s,a)=Q
k
(s,a)+αδ
k
e
k
(s,a) (4)其中,k为迭代次数,R(s
k
,s
k+1
,a
k
)为奖励函数值,e
k
(s,a)为资格迹。4.如权利要求3所述的基于强化学习的分布式电源接入配电网有功优化方法,其特征在于:所述更新规则包括,其中,为个体i在第k次迭代时的状态

动作对,γ∈[0,1]为折扣因子,λ∈[0,1]为资格迹衰退系数。5.如权利要求4所述的基于强化学习的分布式电源接入配电网有功优化方法,其特征在于:所述挖掘强化学习的数学原理还包括,动作选择策略如下式所示:ε

贪婪搜索原则可以表示如下:
其中,q0为[0,1]区间内的随机数,ε为贪婪动作利用率,a
ran
d为随机动作。6.如权利要求5所述的基于强化学习的分布式电源接入配电网有功优化方法,其特征在于:所述贪婪搜索包括,贪婪策略迭代公式如下:其中,β为更新速率,P
sk
(a)为第k次迭代时状态s下动作a被选择的概率。7.如权利要求6所述的基于强化学习的分布式电源接入配电网有功优化方法,其特征在于:所述基于强化学习的配电网最优潮流包括,考虑到电网运行的经济性,有功网络损耗应当作为首要考虑的指标,所述有功网络损耗的目标函数如下:其中,F
10
为有功网络损耗,B为配电网所有支路的集合,i、j分别为支路首末端的节点编号,θ
ij
为节点i、j电压的相角差,g
...

【专利技术属性】
技术研发人员:李巍付宇白浩李跃肖小兵蔡永翔刘通王扬刘安茳熊楠方阳宾峰郑友卓郝树青苗宇徐进张洋任佳宽李新皓张恒荣王卓月李前敏
申请(专利权)人:南方电网科学研究院有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1