【技术实现步骤摘要】
一种基于近端策略优化算法的实时最优潮流计算方法
[0001]本专利技术涉及电力系统规划控制领域,尤其涉及一种基于近端策略优化算法的实时最优潮流计算方法。
技术介绍
[0002]最优潮流(Optimal Power Flow,OPF)是从电力系统优化运行的角度,调节系统的每个调度间隔t的可控设备,来改变电网潮流的分布情况,在满足电力系统稳定、经济运行的前提下,达到某一目标最优。最优潮流中考虑了无功功率,因此也称交流最优潮流(AC Optimal Power Flow,ACOPF)。目标函数通常设为发电总成本(有功潮流优化)、电网网损(无功潮流优化)。
[0003]由于最优潮流是基于电网安全性、稳定性、经济性的优化问题,能维持电网中良好的供电质量,所以在电力系统的经济调度、机组组合、需求响应、可靠性分析、规划设计方面具有广泛应用。从数学模型上分析,基尔霍夫定律引入的节点功率平衡方程是二次等式约束,具有非凸性,这导致了最优潮流是典型的非线性非凸优化问题,难以求出全局最优解。因此,最优潮流求解方法需要在求解速度和质量上得到保证。
[0004]目前,最优潮流问题的求解方法主要分为三类:
[0005]寻求最优潮流局部最优解。例如梯简化度法、牛顿法、内点法等都属于基于梯度的计算方法,依赖于数学模型,以罚函数法处理约束条件,求解最优潮流的局部最优解。但基于迭代的方式进行寻优,计算时间长,尤其在大规模电网中,无法快速响应电网变化。在如今的电力系统中,高比例的风、光等可再生能源发电和接入的柔性负荷表现出强烈波动性 ...
【技术保护点】
【技术特征摘要】
1.一种基于近端策略优化算法的实时最优潮流计算方法,其特征在于,具体包括以下步骤:步骤1:基于DRL算法和依据电力系统的拓扑结构、历史数据信息和MATPOWER内置PF求解器,构建电力系统仿真环境;其中DRL包括智能体、环境、状态、动作和奖励函数;步骤2:搭建PPO算法的智能体,并与步骤1构建的仿真环境进行交互,实现离线训练,优化智能体参数;其中,PPO是基于策略梯度的DRL算法;步骤3:离线训练结束后,智能体能够依据电网中实时的状态提供最优动作,从而得到接近最优的潮流解,实现电网中的在线应用。2.根据权利要求1所述的一种基于近端策略优化算法的实时最优潮流计算方法,其特征在于,步骤1具体为:步骤1.1:构建电力系统交流最优潮流数学模型;设电力系统是由N
b
个节点,N
g
个发电机和N
l
个传输线组成;最优潮流数学模型的目标函数为电力系统中发电机总成本最小,如公式1;等式约束为各节点有功功率平衡约束和无功功率平衡约束,如公式2
‑
3;不等式约束包括发电机有功功率约束和无功功率约束、节点电压幅值约束、线路传输功率约束和发电机有功爬坡约束,如公式4
‑
8;8;8;8;8;8;8;8;式中,为第i台发电机在t时刻的有功功率输出;c
2i
、c
1i
和c
0i
为第i台发电机成本的二次项系数、一次项系数和常数项系数;为分别节点i所连发电机在t时段的有功、无功功率输出;分别为节点i所连负荷在t时段的有功、无功功率;V
it
为节点i在t时段的电压幅值;分别为节点i和j之间所连支路在t时段的电导与电纳;为节点i和j之间所连支路在t时段的相角差;为发电机i有功出力的最大、最小值;为发电机i无功出力的最大、最小值;V
imax
、V
imin
为节点i电压幅值允许的最大、最小值;为节点i、j间传输线路中的传输功率;为节点i、j间传输线路允许的最大传输功
率;为上一时刻发电机i有功出力;分别为发电机i瞬间最大下降和上升有功功率;步骤1.2:根据电力系统的拓扑结构,构建状态空间;状态包括t时刻各节点所连接的有功负荷、无功负荷、系统电导矩阵、电纳矩阵和t
‑
1时刻发电机有功出力和电压幅值;式中,分别为所有节点在t时段的有功、无功负荷;G、B分别为系统电导矩阵与电纳矩阵;为PV节点发电机在t
‑
1时段的有功出力;为所有发电机在t
‑
1时段的电压幅值;步骤1.3:依据步骤1.1交流最优潮流数学模型的可控设备即发电机构建动作空间;动作为t时刻负荷下的最佳发电机设定值;式中,为PV节点发电机在t时段的有功出力;为所有发电机在t时段的电压幅值;步骤1.4:依据步骤1.1交流最优潮流数学模型,构建电力系统仿真环境的奖励函数,在状态s
t
下采取动作a
t
后的即时奖励r
t
定义为:式中,cost为电力系统中所有发电机总成本;r
pg
、r
v
、r
s
、r
g
计算公式为:计算公式为:计算公式为:计算公式为:式中,r
pg
、r
v
、r
s
、r
g
分别对应公式(4)、(6)、(7)、(8),当满足约束时,奖励为0;当不满足约束,该项奖励为超出约束部分经过标准化后的值;经过标准化处理后,发电机有功出力、
线路潮流和节点电压约束的奖励均处于同一数量级,便于智能体学习。3.根据权利要求1所述的一种基于近端策略优化算法的实时最优潮流计算方法,其特征在于,步骤2具体为:步骤2:搭建PPO算法的智能体,并与步骤1构建的仿真环境进行交互,实现离线训练,优化智能体参数;其中,PPO是基于策略梯度的DRL算法;步骤2.1:搭建智能体包括目标策略target actor、在线策略online actor和评价critic网络;Actor用来拟合状态s
t
映射到动作a
t
的策略函数,输入为状态s
t
,输出为均值μ、方差σ2选择动作的正态分布;Critic用来拟合s
t
映射到状态价值V(s
t
)的值函数,输入为状态s
t
,输出为状态价值V
π
(s
t
);步骤2.2:初始化智能体中online a...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。