当前位置: 首页 > 专利查询>四川大学专利>正文

基于云边协同与多智能体深度学习的配电网调度运行方法技术

技术编号:39660573 阅读:10 留言:0更新日期:2023-12-11 18:22
本发明专利技术涉及基于云边协同与多智能体深度学习的配电网调度运行方法,属于配电网运行优化技术领域,提出一种基于多智能体深度强化学习的云边协同框架,引入一种离散多智能体软动作

【技术实现步骤摘要】
基于云边协同与多智能体深度学习的配电网调度运行方法


[0001]本专利技术属于配电网运行优化
,具体涉及基于云边协同与多智能体深度学习的配电网调度运行方法


技术介绍

[0002]近年来,随着分布式发电的渗透率不断增加,分布式发电的间歇性有功输出给配电网的运行带来了巨大挑战

配电网调度运行及网络重构通过优化分段开关和联络开关的组合,可以有效改善电力潮流

随着远程控制开关技术的进步,网络重构正在向实时重构发展,以维持配电网的最佳运行状态

传统的调度运行方法包括凸优化方法和启发式方法

凸优化方法在全局最优性方面具有理论保证

然而,这些方法基于物理模型,在实践中不够准确

而且,由于二进制变量和连续变量的维度较高,凸优化方法在解决大规模配电网调度运行问题时耗时较长

启发式方法在小规模配电网调度运行问题中是有效的

然而,在大规模配电网中很难获得稳定且全局最优的解决方案

因此,为了适应
DG
的有功输出的快速和意外波动,快速获得最佳的配电网调度运行方案具有重要意义

[0003]因此,现阶段设计基于云边协同与多智能体深度学习的配电网调度运行方法,来解决以上问题


技术实现思路

[0004]本专利技术目的在于提供基于云边协同与多智能体深度学习的配电网调度运行方法,用于解决上述现有技术中存在的技术问题,如:凸优化方法在全局最优性方面具有理论保证

然而,这些方法基于物理模型,在实践中不够准确

而且,由于二进制变量和连续变量的维度较高,凸优化方法在解决大规模配电网调度运行问题时耗时较长

启发式方法在小规模配电网调度运行问题中是有效的

然而,在大规模配电网中很难获得稳定且全局最优的解决方案

[0005]为实现上述目的,本专利技术的技术方案是:
[0006]一种基于云边协同与多智能体深度学习的配电网调度运行方法,包括以下步骤:
[0007]步骤1:构建多智能体深度强化学习的云边协同框架,其中多智能体深度强化学习模型可以在云中心进行集中式训练,并在边缘服务器上进行分散式执行,以降低多智能体深度强化学习的训练成本和执行延迟;
[0008]步骤2:根据配电网调度运行任务的特点,建立考虑约束的多智能体马尔科夫决策过程,并采用离散多智能体软动作

评论家算法作为多智能体深度强化学习中解决非稳态环境问题的基本算法;
[0009]步骤3:提出了一种名为原

对偶多智能体软动作

评论家算法的新型在线多智能体深度强化学习方法,通过在安全行动探索下直接与物理配电网交互,进一步提高智能体的性能;
[0010]步骤4:提出了一种名为多智能体约束惩罚
Q

learning
的新型离线算法,以降低多
智能体深度强化学习的试错成本,同时允许智能体从历史数据集中考虑约束条件进行策略的预训练

[0011]进一步的,步骤1提出了一种基于多智能体深度强化学习方法的云边协同框架

所提出的框架是一个典型的自上而下的框架,由一个云中心

多个边缘服务器和数千个传感器组成,它们的作用如下所示:
[0012]1)
云中心
[0013]对应于具有全局决策

低计算成本和高通信延迟特性的电力调度中心

负责利用全局数据集对多智能体深度强化学习模型进行集中式学习

这是一种成本效益高

协调一致的模型训练方法

在训练过程结束后,每个智能体的模型将被发送到相应的边缘服务器

[0014]2)
边缘服务器
[0015]边缘服务器部署在
110kV
变电站中,具有本地观测

低通信延迟和有限计算资源的特点

每个边缘服务器根据本地数据和每个智能体的训练模型,负责对每个子配电网络进行实时的网络调度运行决策

这种方式下的决策制定是高效和及时的分散决策制定

此外,边缘服务器还负责数据预处理,并定期将数据上传到云中心

[0016]3)
传感器
[0017]传感器从配电网络中收集数据,如功率

电压和开关状态

智能电表或其他传感器记录净有功
/
无功节点注入功率数据
。SCADA
系统记录变电站的电力数据和节点电压数据

开关传感器收集受控开关的状态

[0018]通过合理分配训练和执行任务,所提出的框架可以显著降低多智能体深度强化学习模型的训练成本和执行延迟

[0019]进一步的,步骤2根据配电网调度运行任务的特点,建立考虑约束的多智能体马尔科夫决策过程,并采用离散多智能体软动作

评论家算法作为多智能体深度强化学习中解决非稳态环境问题的基本算法

[0020]安全强化学习将约束添加到标准马尔可夫决策过程,从而转化为约束马尔可夫决策过程

在本专利技术中,多智能体约束马尔可夫决策过程可以定义为
<N

S

A

R

C

P

γ
>。
其中,
N
表示智能体数量,
S

{S1,
S2,


S
N
}
表示环境状态空间,
S
n
表示每个智能体的本地状态
。A

{A1,
A2,


A
N
}
表示所有智能体的联合动作空间
。R

{R1,
R2,


R
N
}
表示所有智能体的长期折扣奖励
。C

{C1,
C2,


C
N
}
表示所有智能体的长期折扣成本

具体而言,它指的是智能体采取的动作违反约束时的惩罚,并确保学习过程中的动作探索是安全的

此外,如果智能体违反约束,它允许智能体优先选择安全动作

如果智能体不违反约束,则允许智能体专注于最大化长期奖励本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
基于云边协同与多智能体深度学习的配电网调度运行方法,其特征在于,包括以下步骤:步骤1:构建多智能体深度强化学习的云边协同框架,其中多智能体深度强化学习模型在云中心进行集中式训练,并在边缘服务器上进行分散式执行;步骤2:根据配电网调度运行任务的特点,建立考虑约束的多智能体马尔科夫决策过程,并采用离散多智能体软动作

评论家算法作为多智能体深度强化学习中解决非稳态环境问题的基本算法;步骤3:提出原

对偶多智能体软动作

评论家算法的新型在线多智能体深度强化学习方法,通过在安全行动探索下直接与物理配电网交互;步骤4:提出多智能体约束惩罚
Q

learning
的新型离线算法允许智能体从历史数据集中考虑约束条件进行策略的预训练
。2.
根据权利要求1所述的基于云边协同与多智能体深度学习的配电网调度运行方法,其特征在于,步骤1中多智能体深度强化学习的云边协同框架为自上而下的框架,由一个云中心

多个边缘服务器和数千个传感器组成,其中,
1)
云中心对应于电力调度中心,还负责利用全局数据集对多智能体深度强化学习模型进行集中式学习;在训练过程结束后,每个智能体的模型将被发送到相应的边缘服务器;
2)
边缘服务器部署在
110kV
变电站中,每个边缘服务器根据本地数据和每个智能体的训练模型,负责对每个子配电网络进行实时的网络调度运行决策;此外,边缘服务器还负责数据预处理,并定期将数据上传到云中心;
3)
传感器从配电网络中收集数据,智能电表或其他传感器记录净有功
/
无功节点注入功率数据;
SCADA
系统记录变电站的电力数据和节点电压数据;开关传感器收集受控开关的状态
。3.
根据权利要求2所述的基于云边协同与多智能体深度学习的配电网调度运行方法,其特征在于,步骤2具体如下:安全强化学习将约束添加到标准马尔可夫决策过程,从而转化为约束马尔可夫决策过程;多智能体约束马尔可夫决策过程定义为
<N,S,A,R,C,P,
γ
>
;其中,
N
表示智能体数量,
S

{S1,S2,

,S
n
}
表示环境状态空间,
S
n
表示每个智能体的本地状态;
A

{A1,A2,

,A
N
}
表示所有智能体的联合动作空间;
R

{R1,R2,

,R
N
}
表示所有智能体的长期折扣奖励;
C

{C1,C2,

,C
N
}
表示所有智能体的长期折扣成本;此外,如果智能体违反约束,允许智能体优先选择安全动作;如果智能体不违反约束,则允许智能体专注于最大化长期奖励;
P
表示所有智能体的状态转移概率,通过训练过程中的智能体学习得到;
γ
表示折扣因子,用于调整长期奖励和当前奖励的权重;在多智能体深度强化学习中,每个智能体在时间步骤
t
接收本地信息,并决定下一个时间步骤
t+1
的动作;状态转移是所有智能体联合动作
A
的结果;假设在一个大规模配电网络中有
N

110kV
变电站,
I
个节点,
G
条支路和
M
个受控开关;每个变电站连接一个子配电网络;第
n
个子配电网络中有
I
n
个节点,
G
n
条支路和
M
n
个受控开关;第
n
个智能体在时间步骤
t
的状态空间定义为第
n
个智能体的动作空间是第
n
个子配电网络中开关的组合;在完全合作的多智能体深度强化学习任务中,每个智能体共享全局奖励;考虑到第
n

子配电网络的开关操作次数只与第
n
个智能体相关,单个小规模网络调度运行的奖励函数与功率损耗和开关操作次数相关;式中:
c
loss

c
switch
代表代表功率损耗和开关操作的价格;约束由成本函数描述,包括开关惩罚和电压惩罚;每个智能体共享整个网络的总电压惩罚,即每个子配电网络的电压配置受到联合动作的影响;置受到联合动作的影响;式中:表示在一段时间内第
n
个子配电网络中控制开关
m
的操作次数的上限;
V
max

V
min
表示节点电压的上限和下限;在多智能体约束马尔可夫决策过程中,智能体
n
的目标是找到最优策略以最大化长期折扣奖励并满足约束条件:期折扣奖励并满足约束条件:期折扣奖励并满足约束条件:其中
:::
其中,和表示长期折扣成本的上限;此外,大规模配电网调度运行问题可看作是一个完全合作的多智能体深度强化学习任务;其中,所有智能体共同努力实现一个共同的目标,即优化大型配电网络的全局功率流;离散的多智能体软动作

评论家算法,通过使用全局评论网络来促进稳定训练,解决多智能体深度强化学习任务;针对网络调度运行任务的离散动作空间,具体如下:
1)
评论家网络的输入从状态和动作的组合
(<S,A>)
转变为仅仅是状态
(<S>)
;评论家网络的输出从单个
Q
值转变为具有
|A|
个元素的
Q
值数组,其中
|A|
是动作的数量;使得评论家能够在离散动作空间中评估每个可能动作的
Q
值;
2)
演员网络的输出从高斯策略变为动作概率分布
π
,覆盖动作空间中可能的动作;使用随机策略来选择动作,其中每个动作被选中的概率是确定的;在更新评论家网络时,重放缓
冲区采样的...

【专利技术属性】
技术研发人员:高红均王仁浚刘俊勇
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1