基于鲁棒深度强化学习的多智能体分布式电压控制方法技术

技术编号:37427269 阅读:18 留言:0更新日期:2023-04-30 09:48
本发明专利技术公开了基于鲁棒深度强化学习的多智能体分布式电压控制方法,包括搭建多馈线配电网多智能体控制设备模型,包括OLTC模型及光伏逆变器模型;建立计及主网电压波动的多智能体双层电压控制模型,包括上层主智能体状态

【技术实现步骤摘要】
基于鲁棒深度强化学习的多智能体分布式电压控制方法


[0001]本专利技术涉及基于鲁棒深度强化学习的多智能体分布式电压控制方法,属于配电网电压控制


技术介绍

[0002]近年来,分布式光伏渗透率的不断提高给配电网的电压控制带来了深远的影响。与此同时,动态无功补偿技术不断发展,储能技术逐渐成熟,分布式能源日益可控化,这些都为配电网的电压控制带来了越来越多的可控资源,也对现有的电压控制方法提出了挑战。传统的电压控制方案需要建立精确的物理模型,采用一些近似和简化技术对参数进行优化。当配电网规模变大,建立精确物理模型的难度也会变大。在大量分布式光伏不断接入的情况下,整个网络的复杂性、随机性和动态性能都会不断增加,继续采用传统的方法可能会造成控制精度的降低,求解耗时较长,甚至难以求解。深度强化学习具有去模型化的特点,可在毫秒的尺度之内提供最优解,在解决复杂的多变量问题方面具有很大的优势。

技术实现思路

[0003]本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊,而这种简化或省略不能用于限制本专利技术的范围。
[0004]鉴于上述基于鲁棒深度强化学习的多智能体分布式电压控制方法中存在的问题,提出了本专利技术。
[0005]因此,本专利技术所要解决的问题在于如何提供基于鲁棒深度强化学习的多智能体分布式电压控制方法。
[0006]为解决上述技术问题,本专利技术提供如下技术方案:基于鲁棒深度强化学习的多智能体分布式电压控制方法,其包括,
[0007]作为本专利技术所述基于鲁棒深度强化学习的多智能体分布式电压控制方法的一种优选方案,其中:参考对抗性马尔科夫决策模型和DistFlow最优潮流模型搭建计及主网电压波动的多智能体双层电压控制模型;
[0008]通过鲁棒D3QN算法,确定上层满时间尺度OLTC抽头位置;
[0009]引入二阶锥松弛技术的凸优化DistFlow最优潮流模型,获取下层快时间尺度光伏逆变器无功功率;
[0010]通过计算数据判断电压控制模型是否收敛;
[0011]实现多智能体分布式电压控制。
[0012]作为本专利技术所述基于鲁棒深度强化学习的多智能体分布式电压控制方法的一种优选方案,其中:所述OLTC机组和光伏逆变器机组模型为
[0013]OLTC机组模型为
[0014][0015]其中,T为慢时间尺度,u
ref
(T)为T时段OLTC抽头位置函数;U
1t
为上级主网电压波动后的实际幅值,U
1ref
为上级主网电压额定值;a
tp
(T)为T时段OLTC的抽头位置变量;U
max
和U
min
分别为所允许的电压最大值和最小值;tp
max
和tp
min
分别为抽头位置的最大值和最小值,取+16和

16;
[0016]光伏逆变器机组模型为
[0017][0018][0019]‑
1≤a
pv,i
(T,t)≤1
[0020]其中,t为快时间尺度,i为节点;Q
PV,i
(T,t)为逆变器输出的无功功率,a
pv,i
(T,t)为光伏逆变器的连续型控制变量,为无功输出绝对值的上限;P
PV,i
(T,t)为光伏元件输出的有功功率,为光伏额定视在功率。
[0021]作为本专利技术所述基于鲁棒深度强化学习的多智能体分布式电压控制方法的一种优选方案,其中:所述计及主网电压波动的多智能体双层电压控制模型,包括上层主智能体状态

对抗性马尔科夫决策模型,下层子智能体DistFlow最优潮流模型。
[0022]作为本专利技术所述基于鲁棒深度强化学习的多智能体分布式电压控制方法的一种优选方案,其中:构建上层主智能体状态

对抗性马尔科夫决策模型
[0023]对抗价值函数和动作

价值函数为
[0024][0025][0026]其中,s为当前状态,a为动作;V
π~w
(s)为对抗价值函数,Q
π~w
(s,a)为动作价值函数;π~w为在观测扰动下的策略;r为回报值,γ为折扣率;
[0027]基于固定策略π和固定对手w下的贝尔曼方程为,
[0028]V
π~w
(s)=∑
a∈A
π(a|w(s)∑
s

∈S
p(s|s,a)[r(s,a,a

)+γV
π

w
(s

)][0029][0030]其中,A为动作空间集合,S为状态空间集合,p为概率,s'为下一时刻的状态;
[0031]固定策略π的最优对抗价值函数和动作

价值函数为,
[0032][0033][0034]其中,π~w
*
为在固定策略π下的最优对手,其使总期望回报最小化;
[0035]固定策略π下的最优对手w
*
下的贝尔曼收敛方程为,
[0036][0037]其中,X(s)为扰动集,包含对手的所有干扰
[0038]最优对手w
*
(π)下的最优策略π
*
为,
[0039][0040]作为本专利技术所述基于鲁棒深度强化学习的多智能体分布式电压控制方法的一种优选方案,其中:定义上层主智能体状态

对抗性马尔科夫决策过程各状态量,
[0041]状态空间S
[0042][0043]其中,K为该配网中总馈线数,为各馈线节点有功功率平均值;
[0044]对手扰动w(s)
[0045][0046]其中,Δu为电压波动;
[0047]动作空间A
[0048]a
tp
(T)∈[

16,16][0049]回报值。
[0050]作为本专利技术所述基于鲁棒深度强化学习的多智能体分布式电压控制方法的一种优选方案,其中:下层的DistFlow最优潮流模型
[0051]下层子智能体电压控制的目标为最小化整个配网系统的瞬时电压偏差,t时刻各馈线上的子智能体的目标函数为:
[0052][0053]其中,N
k
为第k条馈线上的节点数;v
i
(T,t)为节点i处的电压幅值。
[0054]作为本专利技术所述基于鲁棒深度强化学习的多智能体分布式电压控制方法的一种优选方案,其中:下层DistFlow最优潮流模型的约束条件,
[0055]在每个T开始时,主智能体将OLTC控制下的公共节点电压发送给各子智能体;基于此,在接下来的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于鲁棒深度强化学习的多智能体分布式电压控制方法,其特征在于:包括,参考对抗性马尔科夫决策模型和DistFlow最优潮流模型搭建计及主网电压波动的多智能体双层电压控制模型;通过鲁棒D3QN算法,确定上层满时间尺度OLTC抽头位置;引入二阶锥松弛技术的凸优化DistFlow最优潮流模型,获取下层快时间尺度光伏逆变器无功功率;通过计算数据判断电压控制模型是否收敛;实现多智能体分布式电压控制。2.如权利要求1所述的基于鲁棒深度强化学习的多智能体分布式电压控制方法,其特征在于:所述OLTC机组和光伏逆变器机组模型为,OLTC机组模型为其中,T为慢时间尺度,u
ref
(T)为T时段OLTC抽头位置函数;U
1t
为上级主网电压波动后的实际幅值,U
1ref
为上级主网电压额定值;a
tp
(T)为T时段OLTC的抽头位置变量;U
max
和U
min
分别为所允许的电压最大值和最小值;tp
max
和tp
min
分别为抽头位置的最大值和最小值,取+16和

16;光伏逆变器机组模型为,光伏逆变器机组模型为,其中,t为快时间尺度,i为节点;Q
PV,i
(T,t)为逆变器输出的无功功率,a
pv,i
(T,t)为光伏逆变器的连续型控制变量,为无功输出绝对值的上限;P
PV,i
(T,t)为光伏元件输出的有功功率,为光伏额定视在功率。3.如权利要求1或2所述的基于鲁棒深度强化学习的多智能体分布式电压控制方法,其特征在于:所述计及主网电压波动的多智能体双层电压控制模型,包括上层主智能体状态

对抗性马尔科夫决策模型,下层子智能体DistFlow最优潮流模型。4.如权利要求3所述的基于鲁棒深度强化学习的多智能体分布式电压控制方法,其特征在于:构建上层主智能体状态

对抗性马尔科夫决策模型对抗价值函数和动作

价值函数为,价值函数为,其中,s为当前状态,a为动作;V
π~w
(s)为对抗价值函数,Q
π~w
(s,a)为动作价值函数;π~w
为在观测扰动下的策略;r为回报值,γ为折扣率;基于固定策略π和固定对手w下的贝尔曼方程为,V
π~w
(s)=∑
a∈A
π(a|w(s)∑
s

∈S
p(s

|s,a)[r(s,a,a

)+γV
π

w
(s

)]其中,A为动作空间集合,S为状态空间集合,p为概率,s'为下一时刻的状态;固定策略π的最优对抗价值函数和动作

价值函数为,价值函数为,其中,π~w
*
为在固定策略π下的最优对手,其使总期望回报最小化;固定策略π下的最优对手w
*
下的贝尔曼收敛方程为,其中,X(s)为扰动集,包含对手的所有干扰最优对手w
*
(π)下的最优策略π*为,5.如权利要求4所述的基于鲁棒深度强化学习的多智能体分布式电压控制方法,其特征在于:定义上层主智能体状态

对抗性马尔科夫决策过程各状态量状态空间S其中,K为该配网中总馈线数,为各馈线节点有功功率平均值;对手扰动w(s)其中,Δu为电压波动;动作空间Aa
tp
(T)∈[

16,16]回报值。6.如权利要求4所述的基于鲁棒深度强化学习的多智能体分布式电压控制方法,其特征在于:下层的DistFlow最优潮流模型下层子智能体电压控制的目标为最小化整个配网系统的瞬时电压偏差,t时刻各馈线上的子智能体的目标函数为:
其中,N
k
为第k条馈线上的节点数;v
i
(T,t)为节点i处的电压幅值。7.如权利要求6所述的基于鲁棒深度强化学习的多智能体分布式电压控制方法,其特征在于:下层DistFl...

【专利技术属性】
技术研发人员:陈巨龙李庆生李震刘文霞刘影刘大猛陈露东王杰罗宁王斌徐常朱永清吴志顾伟周苏洋
申请(专利权)人:贵州电网有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1