【技术实现步骤摘要】
基于强化学习的分布式电源接入配电网有功优化方法
[0001]本专利技术涉及配电网优化
,尤其涉及基于强化学习的分布式电源接入配电网有功优化方法。
技术介绍
[0002]随着配网侧越来越多地接入风机、光伏单元等分布式电源及储能装置,新型主动配电网正在逐步形成和完善。由于分布式电源分散性、时序性、随机性极强,为配网侧的优化控制带来了更大的难度,所以选用合理的优化方法来实现配网侧的多目标实时控制成为了亟待解决的问题。
技术实现思路
[0003]本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊,而这种简化或省略不能用于限制本专利技术的范围。
[0004]鉴于上述现有存在的问题,提出了本专利技术。
[0005]因此,本专利技术提供了基于强化学习的分布式电源接入配电网有功优化方法,能够解决传统方法中分布式电源分散性、时序性、随机性极强的问题。
[0006]为解决上述技术问题,本专利技术提供如下技术方案,基于强化学习的分布式电源接入配电网有功优化方法,包括:
[0007]对强化学习的数学原理进行挖掘;
[0008]提出基于强化学习的配电网最优潮流。
[0009]作为本专利技术所述的基于强化学习的分布式电源接入配电网有功优化方法的一种优选方案,其中:所述挖掘强化学习的数学原理包括,Q学习过程,过程如下:
[0010 ...
【技术保护点】
【技术特征摘要】
1.基于强化学习的分布式电源接入配电网有功优化方法,其特征在于:包括,对强化学习的数学原理进行挖掘;提出基于强化学习的配电网最优潮流。2.如权利要求1所述的基于强化学习的分布式电源接入配电网有功优化方法,其特征在于:所述挖掘强化学习的数学原理包括,Q学习过程,过程如下:定义Q值:评估Q值:其中,为Q值函数,A为动作集合,s为当前状态,s
’
为下一时刻的状态,R(s,s',a)为回报函数值,γ为折扣因子;更新Q值迭代公式如下:其中,α为学习因子,ΔQ为学习增量。3.如权利要求2所述的基于强化学习的分布式电源接入配电网有功优化方法,其特征在于:所述Q学习过程包括,Q(λ)算法将值函数Q(s,a)与资格迹相结合,其迭代更新公式如下:Q
k+1
(s,a)=Q
k
(s,a)+αδ
k
e
k
(s,a) (4)其中,k为迭代次数,R(s
k
,s
k+1
,a
k
)为奖励函数值,e
k
(s,a)为资格迹。4.如权利要求3所述的基于强化学习的分布式电源接入配电网有功优化方法,其特征在于:所述更新规则包括,其中,为个体i在第k次迭代时的状态
‑
动作对,γ∈[0,1]为折扣因子,λ∈[0,1]为资格迹衰退系数。5.如权利要求4所述的基于强化学习的分布式电源接入配电网有功优化方法,其特征在于:所述挖掘强化学习的数学原理还包括,动作选择策略如下式所示:ε
‑
贪婪搜索原则可以表示如下:
其中,q0为[0,1]区间内的随机数,ε为贪婪动作利用率,a
ran
d为随机动作。6.如权利要求5所述的基于强化学习的分布式电源接入配电网有功优化方法,其特征在于:所述贪婪搜索包括,贪婪策略迭代公式如下:其中,β为更新速率,P
sk
(a)为第k次迭代时状态s下动作a被选择的概率。7.如权利要求6所述的基于强化学习的分布式电源接入配电网有功优化方法,其特征在于:所述基于强化学习的配电网最优潮流包括,考虑到电网运行的经济性,有功网络损耗应当作为首要考虑的指标,所述有功网络损耗的目标函数如下:其中,F
10
为有功网络损耗,B为配电网所有支路的集合,i、j分别为支路首末端的节点编号,θ
ij
为节点i、j电压的相角差,g
...
【专利技术属性】
技术研发人员:李巍,付宇,白浩,李跃,肖小兵,蔡永翔,刘通,王扬,刘安茳,熊楠,方阳,宾峰,郑友卓,郝树青,苗宇,徐进,张洋,任佳宽,李新皓,张恒荣,王卓月,李前敏,
申请(专利权)人:南方电网科学研究院有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。