一种基于近端策略优化算法的实时最优潮流计算方法技术

技术编号：33656163 阅读：87 留言：0更新日期：2022-06-02 20:35

可再生能源出力的间歇性和负荷的随机性给电网安全运行带来了挑战，最优潮流需要实时求解以有效帮助电网运营商做出有效的实时决策。本发明专利技术提出了一种基于近端策略优化算法的实时最优潮流计算方法，涉及电力系统规划控制领域。首先依据电力系统的拓扑结构、历史信息和潮流求解器构建电力系统仿真环境；然后搭建近端策略优化算法的智能体，在离线训练过程中与环境进行交互并优化智能体参数。离线训练结束后，智能体依据电网中实时状态提供最优动作，得到接近最优的潮流解，实现在线应用。本发明专利技术在IEEE14节点系统中进行训练和验证，并与MATPOWER的最优潮流标准解进行比较，验证了该方法在计算实时最优潮流上的有效性。方法在计算实时最优潮流上的有效性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于近端策略优化算法的实时最优潮流计算方法

[0001]本专利技术涉及电力系统规划控制领域，尤其涉及一种基于近端策略优化算法的实时最优潮流计算方法。

技术介绍

[0002]最优潮流(Optimal Power Flow，OPF)是从电力系统优化运行的角度，调节系统的每个调度间隔t的可控设备，来改变电网潮流的分布情况，在满足电力系统稳定、经济运行的前提下，达到某一目标最优。最优潮流中考虑了无功功率，因此也称交流最优潮流(AC Optimal Power Flow，ACOPF)。目标函数通常设为发电总成本(有功潮流优化)、电网网损(无功潮流优化)。
[0003]由于最优潮流是基于电网安全性、稳定性、经济性的优化问题，能维持电网中良好的供电质量，所以在电力系统的经济调度、机组组合、需求响应、可靠性分析、规划设计方面具有广泛应用。从数学模型上分析，基尔霍夫定律引入的节点功率平衡方程是二次等式约束，具有非凸性，这导致了最优潮流是典型的非线性非凸优化问题，难以求出全局最优解。因此，最优潮流求解方法需要在求解速度和质量上得到保证。
[00本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于近端策略优化算法的实时最优潮流计算方法，其特征在于，具体包括以下步骤：步骤1：基于DRL算法和依据电力系统的拓扑结构、历史数据信息和MATPOWER内置PF求解器，构建电力系统仿真环境；其中DRL包括智能体、环境、状态、动作和奖励函数；步骤2：搭建PPO算法的智能体，并与步骤1构建的仿真环境进行交互，实现离线训练，优化智能体参数；其中，PPO是基于策略梯度的DRL算法；步骤3：离线训练结束后，智能体能够依据电网中实时的状态提供最优动作，从而得到接近最优的潮流解，实现电网中的在线应用。2.根据权利要求1所述的一种基于近端策略优化算法的实时最优潮流计算方法，其特征在于，步骤1具体为：步骤1.1：构建电力系统交流最优潮流数学模型；设电力系统是由N
b
个节点，N
g
个发电机和N
l
个传输线组成；最优潮流数学模型的目标函数为电力系统中发电机总成本最小，如公式1；等式约束为各节点有功功率平衡约束和无功功率平衡约束，如公式2
‑
3；不等式约束包括发电机有功功率约束和无功功率约束、节点电压幅值约束、线路传输功率约束和发电机有功爬坡约束，如公式4
‑
8；8；8；8；8；8；8；8；式中，为第i台发电机在t时刻的有功功率输出；c
2i
、c
1i
和c
0i
为第i台发电机成本的二次项系数、一次项系数和常数项系数；为分别节点i所连发电机在t时段的有功、无功功率输出；分别为节点i所连负荷在t时段的有功、无功功率；V
it
为节点i在t时段的电压幅值；分别为节点i和j之间所连支路在t时段的电导与电纳；为节点i和j之间所连支路在t时段的相角差；为发电机i有功出力的最大、最小值；为发电机i无功出力的最大、最小值；V
imax
、V
imin
为节点i电压幅值允许的最大、最小值；为节点i、j间传输线路中的传输功率；为节点i、j间传输线路允许的最大传输功
率；为上一时刻发电机i有功出力；分别为发电机i瞬间最大下降和上升有功功率；步骤1.2：根据电力系统的拓扑结构，构建状态空间；状态包括t时刻各节点所连接的有功负荷、无功负荷、系统电导矩阵、电纳矩阵和t
‑
1时刻发电机有功出力和电压幅值；式中，分别为所有节点在t时段的有功、无功负荷；G、B分别为系统电导矩阵与电纳矩阵；为PV节点发电机在t
‑
1时段的有功出力；为所有发电机在t
‑
1时段的电压幅值；步骤1.3：依据步骤1.1交流最优潮流数学模型的可控设备即发电机构建动作空间；动作为t时刻负荷下的最佳发电机设定值；式中，为PV节点发电机在t时段的有功出力；为所有发电机在t时段的电压幅值；步骤1.4：依据步骤1.1交流最优潮流数学模型，构建电力系统仿真环境的奖励函数，在状态s
t
下采取动作a
t
后的即时奖励r
t
定义为：式中，cost为电力系统中所有发电机总成本；r
pg
、r
v
、r
s
、r
g
计算公式为：计算公式为：计算公式为：计算公式为：式中，r
pg
、r
v
、r
s
、r
g
分别对应公式(4)、(6)、(7)、(8)，当满足约束时，奖励为0；当不满足约束，该项奖励为超出约束部分经过标准化后的值；经过标准化处理后，发电机有功出力、
线路潮流和节点电压约束的奖励均处于同一数量级，便于智能体学习。3.根据权利要求1所述的一种基于近端策略优化算法的实时最优潮流计算方法，其特征在于，步骤2具体为：步骤2：搭建PPO算法的智能体，并与步骤1构建的仿真环境进行交互，实现离线训练，优化智能体参数；其中，PPO是基于策略梯度的DRL算法；步骤2.1：搭建智能体包括目标策略target actor、在线策略online actor和评价critic网络；Actor用来拟合状态s
t
映射到动作a
t
的策略函数，输入为状态s
t
，输出为均值μ、方差σ2选择动作的正态分布；Critic用来拟合s
t
映射到状态价值V(s
t
)的值函数，输入为状态s
t
，输出为状态价值V
π
(s
t
)；步骤2.2：初始化智能体中online a...

【专利技术属性】
技术研发人员：赵强，王佳，韩英华，
申请(专利权)人：东北大学秦皇岛分校，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人