一种分布式资源协同调度的多智能体强化学习方法技术

技术编号:38424147 阅读:14 留言:0更新日期:2023-08-07 11:22
本发明专利技术公开了一种分布式资源协同调度的多智能体强化学习方法包括,建立分布式设备接入配网的仿真环境;搭建不同分布式设备强化学习的智能体;所述智能体与所述仿真环境交互训练;通过训练好的所述智能体进行决策。通过本发明专利技术,研究人员可以通过历史数据的训练,通过神经网络的强大数据拟合能力,在不需要知道所有分布式设备聚合模型的所有参数情况下精准快速决策。通过本发明专利技术,电动汽车聚合商、分布式光伏设备、储能能够实现用户与电网的双向互动,解决传统优化方法优化时间过长、参数感知不全导致决策不准的问题。不全导致决策不准的问题。不全导致决策不准的问题。

【技术实现步骤摘要】
一种分布式资源协同调度的多智能体强化学习方法


[0001]本专利技术涉及人工智能
,尤其涉及一种分布式资源协同调度的多智能体强化学习方法。

技术介绍

[0002]当前,作为新能源消纳主体的配电网本身线路分支多、线路结构复杂,同时大量分布式可控资源接入电网不可避免导致电网运行方式多样复杂,用户能够通过分布式可控设备实现与电网的双向互动,然而现阶段大部分研究都是基于分布式设备聚合模型的建立与电价激励机制的研究,当电网不能全面感知底层聚合模型的所有参数时给决策带来了极大的困难,难以根据当前的状态做出最优决策,同时,电网分布式光伏设备、电动汽车协调优化的非凸性和高不确定性使得求解时间过长,难以满足调控的需求。因此,能否探索一种智能化的方法解决上述分布式优化方法带来的不足。
[0003]近年来,随着人工智能技术兴起和发展,强化学习(ReinforcementLearning)作为解决序贯决策问题的重要科学范式,通过与环境交互试错,在持续学习中更新价值评判和策略选择,成为解决序贯决策问题行之有效的技术,特别是深度神经网络与强化学习结合后的深度强化学习模型(Deep Reinforcement Learning,DRL),具有更好的自适应学习能力和解决非凸非线性问题的优化决策能力,其为处理复杂电力系统分布式可控资源协同调度问题提供了新的思路。

技术实现思路

[0004]本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊,而这种简化或省略不能用于限制本专利技术的范围。
[0005]鉴于上述现有存在的问题,提出了本专利技术。
[0006]因此,本专利技术提供了一种分布式资源协同调度的多智能体强化学习方法,能够解决传统优化方法优化时间过长、参数感知不全导致决策不准的问题。
[0007]为解决上述技术问题,本专利技术提供如下技术方案,一种分布式资源协同调度的多智能体强化学习方法,包括:
[0008]建立分布式设备接入配网的仿真环境;
[0009]搭建不同分布式设备强化学习的智能体;
[0010]所述智能体与所述仿真环境交互训练;
[0011]通过训练好的所述智能体进行决策。
[0012]作为本专利技术的一种分布式资源协同调度的多智能体强化学习方法的一种优选方案,其中:所述仿真环境,具体包括:
[0013]所述分布式设备接入的配电网需要满足电力系统潮流方程约束、电压安全稳定约束、储能设备运行约束、分布式光伏设备约束、电动汽车聚合商约束条件,所述分布式设备
接入后,根据所述分布式设备给出的决策评价其决策的优劣并以奖励值的形式返回到所述智能体中。
[0014]7.作为本专利技术的一种分布式资源协同调度的多智能体强化学习方法的一种优选方案,其中:所述电力系统潮流方程约束:
[0015][0016][0017]式中,P
mt,i,t
和Q
mt,i,t
为节点i发电机组在t时刻的有功、无功功率;P
load,i,t
,Q
load,i,t
为节点i在t时刻的有功、无功负荷;P
pv,i,t
,P
ess,i,t
,P
EVA,i,t
分别为节点i在t时刻的分布式光伏、储能和电动汽车聚合商的有功功率;U
i,t
为节点i的电压模值;U
j,t
为节点j的电压模值;θ
ij,t
为两节点间的相角差;G
ij
,B
ij
分别是节点i、j之间的电导和电纳;
[0018]所述储能设备运行约束:
[0019][0020]式中,E
ess,i
为节点i处储能的容量,S
ess,i,max
,P
ess,i,max
,Q
ess,i,max
分别为节点i处视在功率、有功和无功功率上限,Soc
ess,i,max
,Soc
ess,i,min
是储能荷电状态的上、下限,Soc
ess,i,t
是节点储能荷电状态的η
c
,η
d
为储能的充、放电效率,e
ess,i,t
为第t时刻节点i处当前时刻储存的能量,Δt表示t时刻的增量;
[0021]所述分布式光伏设备约束,
[0022]P
pv,i,min
<P
pv,i,t
<P
pv,i,max
[0023]式中P
pv,i,max
和P
pv,i,min
分别表示在第t时刻节点i的分布式光伏设备能够输出的最大功率和最小功率,P
pv,i,t,
表示在第t时刻节点i的分布式光伏设备的输出功率;
[0024]所述电动汽车聚合商约束,
[0025][0026]式中P
up,t
和P
down,t
分别表示在第t时刻电动汽车聚合商参与功率下调及上调控制的可调节容量,为电动汽车聚合商的最大输出功率,P
ev,t
为t时刻电动汽车聚合商的输出功率。
[0027]作为本专利技术的一种分布式资源协同调度的多智能体强化学习方法的一种优选方案,其中:所述智能体,包括:
[0028]不同分布式设备强化学习的所述智能体,从所述仿真环境中获取的状态、输出的
动作空间以及奖励函数。
[0029]作为本专利技术一种分布式资源协同调度的多智能体强化学习方法的一种优选方案,其中:不同分布式设备强化学习的所述智能体,还包括:
[0030]不同的布式设备强化学习的所述智能体有各自的状态空间和动作空间,所述智能体能够根据各自的目标进行参数更新达到自适应学习的效果。
[0031]作为本专利技术的一种分布式资源协同调度的多智能体强化学习方法的一种优选方案,其中:所述状态空间,包括:
[0032]S={P
load,load
,P
pv,pv,max
,P
EVA,EVA,max
,P
mt,mt
,SOC
ess,ess
,a,t}
[0033]式中,P
load,|load|
,P
pv,|pv|,max
,P
EVA,|EVA|,max
,P
mt,|mt|
,SOC
ess,|ess|
,a和t分别为电负荷功率特性、分布式光伏设备出力上限、电动汽车聚合商出力、传统机组出力、储能的SOC、当前时刻电网电价、调度时间断面。
[0034]作为本专利技术的一种分布式资源协同调度的多智能体强化学习方法的一种优选方案,其中:本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分布式资源协同调度的多智能体强化学习方法,其特征在于:包括,建立分布式设备接入配网的仿真环境;搭建不同分布式设备强化学习的智能体;所述智能体与所述仿真环境交互训练;通过训练好的所述智能体进行决策。2.如权利要求1的一种分布式资源协同调度的多智能体强化学习方法,其特征在于:所述仿真环境,具体包括:所述分布式设备接入的配电网需要满足电力系统潮流方程约束、电压安全稳定约束、储能设备运行约束、分布式光伏设备约束、电动汽车聚合商约束条件,所述分布式设备接入后,根据所述分布式设备给出的决策评价其决策的优劣并以奖励值的形式返回到所述智能体中。3.如权利要求1或2的一种分布式资源协同调度的多智能体强化学习方法,其特征在于,所述电力系统潮流方程约束:式中,P
mt,i,t
和Q
mt,i,t
为节点i发电机组在t时刻的有功、无功功率;P
load,i,t
,Q
load,i,t
为节点i在t时刻的有功、无功负荷;P
pv,i,t
,P
ess,i,t
,P
EVA,i,t
分别为节点i在t时刻的分布式光伏、储能和电动汽车聚合商的有功功率;U
i,t
为节点i的电压模值;U
j,t
为节点j的电压模值;θ
ij,t
为两节点间的相角差;G
ij
,B
ij
分别是节点i、j之间的电导和电纳;所述储能设备运行约束:式中,E
ess,i
为节点i处储能的容量,S
ess,i,max
,P
ess,i,max
,Q
ess,i,max
分别为节点i处视在功率、有功和无功功率上限,Soc
ess,i,max
,Soc
ess,i,min
是储能荷电状态的上、下限,Soc
ess,i,t
是节点储能荷电状态的η
c
,η
d
为储能的充、放电效率,e
ess,i,t
为第t时刻节点i处当前时刻储存的能量,Δt表示t时刻的增量;所述分布式光伏设备约束,P
pv,i,min
<P
pv,i,t
<P
pv,i,max
式中P
pv,i,max
和P
pv,i,min
分别表示在第t时刻节点i的分布式光伏设备能够输出的最大功率和最小功率,P
pv,i,t,
表示在第t时刻节点i的分布式光伏设备的输出功率;所述电动汽车聚合商约束,
式中P
up,t
和P
down,t
分别表示在第t时刻电动汽车聚合商参与功率下调及上调控制的可调节容量

为电动汽车聚合商的最大输出功率,P
ev,t
为t时刻电动汽车聚合商的输出功率。4.如权利要求1的一种分布式资源协同调度的多智能体强化学习方法,其特征在于:所述智能体,包括:不同分布式设备强化学习的所述智能体,从所述仿真环境中获取的状态、输出的动作空间以及奖励函数。5.如权利要求4的一种分布式资源协同调度的多智能体强化学习方法,其特征在于:不同分布式设备强化学习的所述智能体,还包括:不同的布式设备强化学习的所述智能体有各自的状态空间和动作空间,所述智能体能够根据各自的目标进行参数更新达到自适应学习的效果。6.如权利要求5的一种分布式资源协同调度的多智能体强化学习方法,其特征在于:所述状态空间,包括:S={P
load,|load|
,P
pv,|pv|,max
...

【专利技术属性】
技术研发人员:谈竹奎刘斌张俊玮冯圣勇潘旭辉何龙王秀境徐长宝张秋雁徐玉韬唐赛秋徐宏伟陈敦辉
申请(专利权)人:贵州电网有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1