无功电压分布式控制方法、服务器、控制器及存储介质技术

技术编号:35684139 阅读:15 留言:0更新日期:2022-11-23 14:28
本发明专利技术提供一种无功电压分布式控制方法、服务器、控制器及存储介质,方法采用在线联邦学习与分布式控制并行的控制架构,包括:在本地控制器上部署多智能体深度强化学习算法;通过本地控制器与集中服务器之间的边际变量交换,本地控制器学习得到各本地控制器的控制策略;各本地控制器基于控制策略和本地量测数据,执行电网无功电压控制;其中,所述集中服务器用于协调各个本地控制器上的智能体的学习过程。本发明专利技术无需被控配电网的精确模型即可实现近似最优的无功电压控制,各个本地控制器可以快速执行控制策略,进而保证了高速的本地控制。制。制。

【技术实现步骤摘要】
无功电压分布式控制方法、服务器、控制器及存储介质


[0001]本专利技术属于电力系统运行和控制
,特别涉及一种无功电压分布式控制方法、服务器、控制器及存储介质。

技术介绍

[0002]大规模分布式电源(DG,Distributed Generation)已成为新型电力系统的重要组成部分,如果缺乏有效的协调控制,海量DG并网会严重影响系统的安全运行。DG通常由电力电子变流器并入配电网,具有快速的控制性能,结合人工智能、5G通信等新技术,可以成为受端电网调控的灵活性资源,主动参与电网调控,支持新型电力系统的构建。在此背景下,高DG渗透率配电网的各类先进运行控制手段的价值日益凸显。其中,无功电压控制一直是配电网能量管理系统的重要组成,能够通过对配电网中各类无功资源的合理配置,消除配网电压越限等安全隐患,并提升配电网运行效率。
[0003]传统无功电压控制方法往往采用了基于模型的集中优化架构,即在配网控制中心处收集全配网状态信息,通过事先建立的配网模型进行数学优化,并将优化后的控制指令下发到各个被控设备。然而,这种基于模型的集中优化架构在实际应用中常面临以下两方面问题,限制了基于模型的集中无功电压控制方法的应用。一方面,集中式架构存在单点失效、通讯与计算负担高、受通信时延影响严重、难以保护各主体隐私等关键问题。这是由于在高渗透率配电网中,被控DG众多,网络结构复杂,通讯条件难以支撑快速的DG控制。工程实践中,常采用虚拟电厂(Virtual Power Plant,VPP)的形式对DG进行聚合,在配电网内部形成多个主体。各主体之间的不仅需要进行协调控制,还需要保证各主体的隐私。因此,业内出现了大量分布式无功电压控制方法,在各个VPP上设置本地控制器,旨在实现点对点通信条件或无通讯条件下的无功电压控制。相比于集中式方法,分布式方法往往对通信条件的要求更弱,控制速度更快,适用于大规模DG的控制。另一方面,海量DG并入配电网,其模型难于精确和及时维护,这是由于庞大的设备规模和频繁的变动导致配电网网络模型维护成本巨大,实际上基本采用理论参数,精度低。由于配电网的理想模型难以获得,传统基于模型的优化控制方法无法保障控制效果,往往出现控制指令远离最优点、电网运行在次优状态的情况。因此,业内出现了一批基于深度强化学习的无模型无功电压优化方法,能够通过对控制过程产生的海量数据在线学习,自适应地获得最优无功电压控制策略。
[0004]结合上述两个方向的改进,业内出现了一类基于多智能体深度强化学习的无功电压控制方法,能够通过“集中学习

分散控制”的方式,兼具无模型自适应的全局优化能力和分散控制的高速灵活本地控制能力,提升了无功电压控制在海量DG场景下的实用性。然而,现有基于多智能体深度强化学习的无功电压控制方法,要求将各个本地控制器中的运行数据上传到集中服务器进行学习,并将学习好的策略下发到各个本地控制器,该过程不仅需要耗费大量的通讯资源,还造成了各个VPP隐私的泄露。
[0005]因此,有必要提出一种低通讯、高隐私保护性的控制方法,在兼具全局无模型自适应优化能力和本地快速控制能力的同时,仅使用少量通讯带宽,节省通讯成本并保护各主
体隐私。

技术实现思路

[0006]针对上述问题,本专利技术提供一种无功电压分布式控制方法,采用在线联邦学习与分布式控制并行的控制架构,包括:
[0007]在本地控制器上部署多智能体深度强化学习算法;
[0008]通过本地控制器与集中服务器之间的边际变量交换,本地控制器学习得到各本地控制器的控制策略;
[0009]各本地控制器基于控制策略和本地量测数据,执行电网无功电压控制;
[0010]其中,所述集中服务器用于协调各个本地控制器上的智能体的学习过程。
[0011]进一步地,在各区域本地控制器上执行以下步骤:
[0012]框架构建步骤:构建基于马尔科夫博弈的多智能体交互训练框架;
[0013]网络部署步骤:部署神经网络;
[0014]本地控制步骤:并行执行无功电压控制;
[0015]本地交换步骤:并行执行与所述集中服务器之间的边际变量交换,包括从所述集中服务器获取下行边际变量和向所述集中服务器发送上行边际变量;
[0016]本地学习步骤:根据下行边际变量,并行执行本地学习;
[0017]其中,所述下行边际变量由所述集中服务器根据收集的上行边际变量,执行集中学习后得到;
[0018]本地控制步骤、本地交换步骤和本地学习步骤重复并行执行。
[0019]进一步地,所述上行边际变量包括本地控制器计算的标量数据;
[0020]所述下行边际变量包括用于计算梯度信息的数据。
[0021]进一步地,集中服务器用于建立分布式无功电压优化模型,包括确定各区域无功电压控制目标:
[0022]将配电网按照实际的本地控制器安装情况,分为|A|个区域,区域标号集合记为A,每个区域设置一个本地控制器,用于快速获取本区域的量测数据,本地控制器能够与集中服务器进行通讯;其中,各区域无功电压控制目标为在满足电压约束的条件下最小化全网网损:
[0023][0024]其中,L
opt
为分布式无功电压优化目标,P
loss
为全网网损,分别代表第i个区域中第j个节点的有功功率注入和电压幅值,V,分别为电压幅值的下限与上限;q
S,i
代表第i个区域中所有静止无功补偿器SVC的无功功率输出,q
S,1
表示第1个区域中所有SVC的无功功
率输出,q
S,|A|
表示第|A|个区域中所有SVC的无功功率输出,其中代表第i个区域中第j个SVC的无功功率输出,分别代表第i个区域中第j个SVC的无功功率输出的下限与上限;q
G,i
代表第i个区域中所有DG的无功功率输出,
qG,1
表示第1个区域中所有DG的无功功率输出,
qG,|A|
表示第|A|个区域中所有DG的无功功率输出,其中代表第i个区域中第j个DG的无功功率输出,为第i个区域中第j个DG的装机容量和有功功率输出,N
i
为第i个区域节点的集合,为第i个区域DG的集合,为第i个区域SVC的集合。
[0025]进一步地,构建基于马尔科夫博弈的多智能体交互训练框架,包括:
[0026]对应各区域系统的量测数据,构建各区域观测变量o
i
如(1.2)所示:
[0027][0028]代表第i个区域中第j个节点的无功功率注入;
[0029]对应各区域无功电压优化目标,构建各区域统一回馈变量r如(1.3)所示:
[0030][0031]其中,C
V
为电压约束的惩罚系数;函数[]+
的定义为[x]+
=max(0,x);
[0032]将统一回馈变量按区域分解,可得:
[0033][0034]其中,R<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种无功电压分布式控制方法,其特征在于,采用在线联邦学习与分布式控制并行的控制架构,包括:在本地控制器上部署多智能体深度强化学习算法;通过本地控制器与集中服务器之间的边际变量交换,本地控制器学习得到各本地控制器的控制策略;各本地控制器基于控制策略和本地量测数据,执行电网无功电压控制;其中,所述集中服务器用于协调各个本地控制器上的智能体的学习过程。2.根据权利要求1所述的无功电压分布式控制方法,其特征在于,在各区域本地控制器上执行以下步骤:框架构建步骤:构建基于马尔科夫博弈的多智能体交互训练框架;网络部署步骤:部署神经网络;本地控制步骤:并行执行无功电压控制;本地交换步骤:并行执行与所述集中服务器之间的边际变量交换,包括从所述集中服务器获取下行边际变量和向所述集中服务器发送上行边际变量;本地学习步骤:根据下行边际变量,并行执行本地学习;其中,所述下行边际变量由所述集中服务器根据收集的上行边际变量,执行集中学习后得到;本地控制步骤、本地交换步骤和本地学习步骤重复并行执行。3.根据权利要求2所述的无功电压分布式控制方法,其特征在于,所述上行边际变量包括本地控制器计算的标量数据;所述下行边际变量包括用于计算梯度信息的数据。4.根据权利要求2或3所述的无功电压分布式控制方法,其特征在于,集中服务器用于建立分布式无功电压优化模型,包括确定各区域无功电压控制目标:将配电网按照实际的本地控制器安装情况,分为|A|个区域,区域标号集合记为A,每个区域设置一个本地控制器,用于快速获取本区域的量测数据,本地控制器能够与集中服务器进行通讯;其中,各区域无功电压控制目标为在满足电压约束的条件下最小化全网网损:其中,L
opt
为分布式无功电压优化目标,P
loss
为全网网损,分别代表第i个区域中第j个节点的有功功率注入和电压幅值,V,分别为电压幅值的下限与上限;q
S,i
代表第i个区域中所有静止无功补偿器SVC的无功功率输出,q
S,1
表示第1个区域中所有SVC的无功功率输出,q
S,|A|
表示第|A|个区域中所有SVC的无功功率输出,其中代表第i个区域中第j个SVC的无功功率输出,分别代表第i个区域中第j个SVC的无功功率输
出的下限与上限;q
G,i
代表第i个区域中所有DG的无功功率输出,q
G,1
表示第1个区域中所有DG的无功功率输出,q
G,|A|
表示第|A|个区域中所有DG的无功功率输出,其中代表第i个区域中第j个DG的无功功率输出,为第i个区域中第j个DG的装机容量和有功功率输出,N
i
为第i个区域节点的集合,为第i个区域DG的集合,为第i个区域SVC的集合。5.根据权利要求4所述的无功电压分布式控制方法,其特征在于,构建基于马尔科夫博弈的多智能体交互训练框架,包括:对应各区域系统的量测数据,构建各区域观测变量o
i
如(1.2)所示:如(1.2)所示:代表第i个区域中第j个节点的无功功率注入;对应各区域无功电压优化目标,构建各区域统一回馈变量r如(1.3)所示:其中,C
V
为电压约束的惩罚系数;函数[]
+
的定义为[x]
+
=max(0,x);将统一回馈变量按区域分解,可得:其中,R
i
为r在第i个区域的分解变量,即第i个区域的本地回馈变量,能够通过第i个区域的本地量测数据计算得到;对应可控灵活性资源的无功功率,构建各区域动作变量a
i
如(1.5)所示:其中,代表第i个区域中第k个SVC的无功功率输出,代表第i个区域中第j个DG的无功功率输出,可控灵活性资源包括SVC和DG。6.根据权利要求5所述的无功电压分布式控制方法,其特征在于,在各区域本地控制器上分别部署神经网络包括:在各区域本地控制器上部署神经网络并初始化,对于任意的第i个区域,包括如下步骤:定义第i个区域的第一神经网络c
i
为一个输入(o
i
,a
i
)、输出单个标量值的全连接神经网络,记c
i
的网络参数为对应的冻结参数为冻结参数对应的神经网络记为随机初始化与第一神经网络用于评估期望奖励;定义第i个区域的第二神经网络e
i
为一个输入(o
i
,a
i
)输出单个标量值的全连接神经网络,记e
i
的网络参数为对应的冻结参数为冻结参数对应的神经网络记为随机初始化与第二神经网络用于评估熵;
定义第三神经网络和第四神经网络其中,与均为输入o
i
输出k
i
维向量的策略神经网络,其中k
i
为动作向量a
i
的维度;与分别具有独立的输出层,同时共享相同的神经网络输入层与隐含层,包括若干个隐含层;记与的全部网络参数为θ
i
。7.根据权利要求6所述的无功电压分布式控制方法,其特征在于,还包括:初始化离散时间变量,令当前时刻t=0,两个迭代之间的实际时间间隔为Δt,根据本地控制器的实际量测数据及指令控制速度确定;初始化各本地控制器本地缓存经验库D
i
,i∈A,对于任意的第i个区域,初始化临时变量8.根据权利要求7所述的无功电压分布式控制方法,其特征在于,各区域本地控制器并行执行边际变量交换步骤包括:从区域电网的量测装置获得量测数据,更新对应的观测变量o
i
;根据本地的策略神经网络与更新本迭代对应动作变量a
i
:ξ
i
表示第i个随机变量,N表示正态分布,I
i
表示k
i
维的单位向量;本地控制器将a
i
下发至本地对应的被控DG和/或SVC;各区域本地控制器在t时刻执行以下边际变量交换步骤,并行执行:根据当前时刻,随机在D
i
中抽取样本,记为{o
i
,a
i
,R
i
,o
i

},并计算上行边际变量:其中,o
i

为o
i
的抽取样本,a
i

和的计算方式为:的计算方式为:将上行边际变量u
i
通过通讯网络上传到集中服务器上。9.根据权利要求8所述的无功电压分布式控制方法,其特征在于,各本地控制器收集集中服务器下发的下行边际变量,并行执行学习步骤,包括:根据下行边际变量d
i
和本地数据进行如下计算:和本地数据进行如下计算:和本地数据进行如下计算:和本地数据进行如下计算:
其中,表示第i个区域的熵估计函数目标值,π
i
表示第i个区域的策略函数,表示神经网络e的损失函数,γ表示强化学习折扣值,α表示惩罚系数,表示第i个区域的第一神经网络c的梯度,为第i个区域的全部网络参数θ
i
的梯度,表示对所有观测变量和动作中的随机变量求期望;表示在数据集上对o,a,r,o'求期望,o=[o1,

,o
n
]
T
表示全部区域的观测变量,a=[a1,

,a
n
]
T
表示全部区域的动作变量,o1′
为全部区域的样本观测变量;其中,表示全部区域的推断动作变量,c
i
表示第i个区域的神经网络;表示神经网络f对区域i的第一神经网络c
i
取值的偏导数;表示损失函数L
φ
对神经网络f取值的偏导数;更新参数与θ
i
:::其中,η
θ
表示策略神经网络的学习率,L
θ
表示策略神经网络参数的损失函数,η
Q
为一超参数,代表值函数学习率;更新冻结参数与与与10.根据权利要求9所述的无功电压分布式控制方法,其特征在于,所述下行边际变量通过所述集中服务器收集各区域上行边际变量并进行集中学习而获得:收集各个本地控制器上传的上行边际变量u
i
;根据u
i
中的信息计算:其中,y表示值函数目标量,γ表示强化学习折扣值,表示第1个区域的冻结参数对应的神经网络,(o1′
,a1′
)表示第1个区域的冻结参数对应的神经网络的输入,其中,o1′
为第一
个区域的样本观测变量,a1′
为第一个区域的样本动作变量;表示第n个区域的冻结参数对应的神经网络,(o
n

,a
n
′<...

【专利技术属性】
技术研发人员:吴文传刘昊天王彬孙宏斌郭庆来孙峰洲林毅薛静玮陈浩
申请(专利权)人:清华大学国网福建省电力有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1