一种基于多智能体深度强化学习的有源配电网协同调压方法及系统技术方案

技术编号:33121697 阅读:66 留言:0更新日期:2022-04-17 00:21
本发明专利技术公开了一种基于多智能体深度强化学习的有源配电网协同调压方法及系统,包括获取高比例可再生能源配电网协同电压控制模型;将协同电压控制模型设计为与每个分布式电源逆变器控制相关的马尔可夫博弈问题;采用多智能体注意力近端策略优化算法以及专家知识求解马尔可夫博弈问题,最终得到每个分布式电源逆变器的本地有功功率和无功功率最优控制策略;将训练获得的最优控制策略部署进行在线协同调压,与现有方法相比,本发明专利技术方法可实现配电网电压安全前提下具有更强的可再生能源消纳能力。纳能力。纳能力。

【技术实现步骤摘要】
一种基于多智能体深度强化学习的有源配电网协同调压方法及系统


[0001]本专利技术涉及配电网电压调节与人工智能交叉
,尤其涉及一种基于多智能体深度强化学 习的有源配电网协同调压方法及系统。

技术介绍

[0002]传统配电网的潮流是从首段节点沿馈线方向向各节点负荷供电,呈放射型,沿馈线潮流方向电 压逐渐降低。而分布式电源的并网,改变了潮流的分布,进而出现分布式电源向本节点或附近节点 供电的情况,造成局部节点电压的升高。因此,非常有必要对含分布式电源的配电网进行实时协同 控制,使其在控制各节点电压在安全范围内的同时最小化分布式电源有功功率削减量。
[0003]传统方法的有源配电网协同调压方法主要包括:如基于经验规则的方法和基于安全最优功率流 的方法(如模型预测控制)。前者采用预先设定的门限值作为决策的依据,计算量小,但容易造成 不必要的负荷切除。后者需要知晓系统模型的准确知识而且计算量大。为了减少对精准模型的依赖, 一些基于数据驱动的方法被提出,如强化学习方法。这些方法可以学习到端到端的策略,即根据电 网的反馈信息直接得到控制决策。然而,传统的强化学习方法无法有效应对状态空间较大的情况, 即方法缺乏稳定性甚至不收敛。为此,现有研究提出了一些基于深度强化学习的电压控制方法,如 基于多智能体深度强化学习方法,其中包括Multi

Agent Deep Deterministic Policy Gradient (MADDPG)等方法,这些方法虽然能有效控制电压,但算法稳定性和可扩展性较弱,无法实现大规 模分布式电源之间的高效协作,进而降低有功功率削减量。

技术实现思路

[0004]本专利技术的目的是提供一种基于多智能体深度强化学习的有源配电网协同调压方法及系统,具备 多智能体近端策略优化算法和专家知识带来的稳定性和注意力机制带来的高可扩展性。
[0005]本专利技术为实现上述专利技术目的采用如下技术方案:
[0006]本专利技术提供了一种基于多智能体深度强化学习的有源配电网协同调压方法,包括:
[0007]获取高比例可再生能源配电网协同电压控制模型;
[0008]将协同电压控制模型设计为与每个分布式电源逆变器控制相关的马尔可夫博弈问题;
[0009]采用多智能体注意力近端策略优化算法以及专家知识求解马尔可夫博弈问题,最终得到每个分 布式电源逆变器的本地有功功率和无功功率最优控制策略;
[0010]将训练获得的最优控制策略部署进行在线协同调压。
[0011]进一步地,所述协同电压控制模型包含目标函数、决策变量和约束条件;
[0012]若配电网节点数为M,接入分布式电源数为N,其目标函数表述为:
[0013][0014]式(1)中:[
·
]+
=max(
·
,0),|
·
|表示取绝对值,V
min
和V
max
分别表示节点可接受的最低 和最高电压值,V
j,t
表示t时隙节点电压,M表示配电网节点数,Δp
i,t
表示第i个分布式电源在t 时隙的有功功率削减量,Δq
i,t
为第i个分布式电源逆变器在t时隙的无功补偿量,N表示配电网接 入分布式电源数,α为分布式电源有功削减成本相对于电压偏离程度导致的惩罚成本的重要性系 数,β为分布式电源逆变器无功相对于电压偏离程度导致的惩罚成本的重要性系数;
[0015]决策变量和约束条件,公式如下:
[0016][0017][0018][0019]式(2)中:和为第i个分布式电源逆变器的最小与最大无功补偿量,式(3)中:为第i个分布式电源在t时刻最大的有功功率,式(4)中P
i,t
为第i个分布式电源在t时隙未调整 下的有功功率,Q
i,t
为第i个分布式电源在t时隙未调整下的无功功率,S
i
为第i个分布式电源的 视在功率,其为固定值;
[0020]在分布式电源进行无功补偿和有功削减后整体配电网应满足潮流等式约束,公式如下:
[0021][0022][0023]式(5)和(6)中:和是负载需求接入节点i在t时隙的有功功率和无功功率, G
ij,t
和B
ij,t
是节点i和节点j之间导纳元素的实部和虚部。
[0024]进一步地,所述马尔可夫博弈问题由环境状态、动作、奖励函数三部分表征;
[0025]环境状态s
t
由如下多元组表示:
[0026]S
t
=(o
1,t
,o
2,t
,

,o
n,t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0027]式(7)中:o
i,t
=(P
i,t
,Q
i,t
,V
i,t
),P
i,t
表示t时隙分布式电源接入节点i的有功功率,Q
i,t
表示t时隙分 布式电源接入节点i的无功功率,V
i,t
表示t时隙分布式电源接入节点的电压;
[0028]动作a
t
由如下多元组表示:
[0029]a
t
=(Δq
i,t
,Δp
i,t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0030]式(8)中:a
t
为分布式电源逆变器在t时隙的行为,Δq
i,t
为第i个分布式电源逆变器在t时隙 无功补偿量,Δp
i,t
为第i个分布式电源的有功功率削减量;
[0031]奖励函数r
t
表达式如下:
[0032]c
1,t r
t
=c
1,t
+αc
2,t
+βc
3,t
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)
[0033]式(9)中:c
1,t
是t时隙所有节点因违背安全电压导致的惩罚成本,c
2,t
是t时隙所有分布 式电源有功削减量之和,c
3,t
是t时隙所有分布式电源逆变器无功补偿量之和,α为分布式电源 有功削减成本相对于电压偏离程度导致的惩罚成本的重要性系数,β为分布式电源逆变器无功补 偿相对于电压偏离程度导致的惩罚成本的重要性系数。
[0034]进一步地,所述多智能体注意力近端策略优化算法包括行动者网络、评论家网络、注意力网络; 对于分布式电源节点i,其评论家网络和注意力网络共同表征为:
[0035]V
i
(o
i,t
)=f
i
(g...

【技术保护点】

【技术特征摘要】
1.一种基于多智能体深度强化学习的有源配电网协同调压方法,其特征在于,所述方法包括:获取高比例可再生能源配电网协同电压控制模型;将协同电压控制模型设计为与每个分布式电源逆变器控制相关的马尔可夫博弈问题;采用多智能体注意力近端策略优化算法以及专家知识求解马尔可夫博弈问题,最终得到每个分布式电源逆变器的本地有功功率和无功功率最优控制策略;将训练获得的最优控制策略部署进行在线协同调压。2.根据权利要求1所述的一种基于多智能体深度强化学习的有源配电网协同调压方法,其特征在于,所述协同电压控制模型包含目标函数、决策变量和约束条件;若配电网节点数为M,接入分布式电源数为N,其目标函数表述为:式(1)中:[
·
]
+
=max(
·
,0),|
·
|表示取绝对值,V
min
和V
max
分别表示节点可接受的最低和最高电压值,V
j,t
表示t时隙节点电压,M表示配电网节点数,Δp
i,t
表示第i个分布式电源在t时隙的有功功率削减量,Δq
i,t
为第i个分布式电源逆变器在t时隙的无功补偿量,N表示配电网接入分布式电源数,α为分布式电源有功削减成本相对于电压偏离程度导致的惩罚成本的重要性系数,β为分布式电源逆变器无功相对于电压偏离程度导致的惩罚成本的重要性系数;决策变量和约束条件,公式如下:决策变量和约束条件,公式如下:决策变量和约束条件,公式如下:式(2)中:和为第i个分布式电源逆变器的最小与最大无功补偿量,式(3)中:为第i个分布式电源在t时刻最大的有功功率,式(4)中P
i,t
为第i个分布式电源在t时隙未调整下的有功功率,Q
i,t
为第i个分布式电源在t时隙未调整下的无功功率,S
i
为第i个分布式电源的视在功率,其为固定值;在分布式电源进行无功补偿和有功削减后整体配电网应满足潮流等式约束,公式如下:
式(5)和(6)中:和是负载需求接入节点i在t时隙的有功功率和无功功率,G
ij,t
和B
ij,t
是节点i和节点z之间导纳元素的实部和虚部。3.根据权利要求2所述的一种基于多智能体深度强化学习的有源配电网协同调压方法,其特征在于,所述马尔可夫博弈问题由环境状态、动作、奖励函数三部分表征;环境状态s
t
由如下多元组表示:S
t
=(o
1,t
,o
2,t
,

,o
n,t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)式(7)中:o
i,t
=(P
i,t
,Q
i,t
,V
i,t
),P
i,t
表示t时隙分布式电源接入节点i的有功功率,Q
i,t
表示t时隙分布式电源接入节点i的无功功率,V
i,t
表示t时隙分布式电源接入节点的电压;动作a
t
由如下多元组表示:a
t
=(Δq
i,t
,Δp
i,t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)式(8)中:a
t
为分布式电源逆变器在t时隙的动作,Δq
i,t
为第i个分布式电源逆变器在t时隙无功补偿量,Δp
i,t
为第i个分布式电源的有功功率削减量;奖励函数r
t
表达式如下:c
1,t r
t
=c
1,t
+αc
2,t
+βc
3,t
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)式(9)中:c
1,t
是t时隙所有节点因违背安全电压导致的惩罚成本,c
2,t
是t时隙所有分布式电源有功削减量之和,c
3,t
是t时隙所有分布式电源逆变器无功补偿量之和,α为分布式电源有功削减成本相对于电压偏离程度导致的惩罚成本的重要性系数,β为分布式电源逆变器无功补偿相对于电压偏离程度导致的惩罚成本的重要性系数。4.根据权利要求3所述的一种基于多智能体深度强化学习的有源配电网协同调压方法,其特征在于,所述多智能体注意力近端策略优化算法包括行动者网络、评论家网络、注意力网络;对于分布式电源节点i,其评论家网络和注意力网络共同表征为:V
i
(o
i,t
)=f
i
(g
i
(o
i
),x

【专利技术属性】
技术研发人员:余亮毕刚岳东窦春霞张廷军
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1