一种基于近端策略优化算法的实时最优潮流计算方法技术

技术编号:33656163 阅读:74 留言:0更新日期:2022-06-02 20:35
可再生能源出力的间歇性和负荷的随机性给电网安全运行带来了挑战,最优潮流需要实时求解以有效帮助电网运营商做出有效的实时决策。本发明专利技术提出了一种基于近端策略优化算法的实时最优潮流计算方法,涉及电力系统规划控制领域。首先依据电力系统的拓扑结构、历史信息和潮流求解器构建电力系统仿真环境;然后搭建近端策略优化算法的智能体,在离线训练过程中与环境进行交互并优化智能体参数。离线训练结束后,智能体依据电网中实时状态提供最优动作,得到接近最优的潮流解,实现在线应用。本发明专利技术在IEEE14节点系统中进行训练和验证,并与MATPOWER的最优潮流标准解进行比较,验证了该方法在计算实时最优潮流上的有效性。方法在计算实时最优潮流上的有效性。

【技术实现步骤摘要】
一种基于近端策略优化算法的实时最优潮流计算方法


[0001]本专利技术涉及电力系统规划控制领域,尤其涉及一种基于近端策略优化算法的实时最优潮流计算方法。

技术介绍

[0002]最优潮流(Optimal Power Flow,OPF)是从电力系统优化运行的角度,调节系统的每个调度间隔t的可控设备,来改变电网潮流的分布情况,在满足电力系统稳定、经济运行的前提下,达到某一目标最优。最优潮流中考虑了无功功率,因此也称交流最优潮流(AC Optimal Power Flow,ACOPF)。目标函数通常设为发电总成本(有功潮流优化)、电网网损(无功潮流优化)。
[0003]由于最优潮流是基于电网安全性、稳定性、经济性的优化问题,能维持电网中良好的供电质量,所以在电力系统的经济调度、机组组合、需求响应、可靠性分析、规划设计方面具有广泛应用。从数学模型上分析,基尔霍夫定律引入的节点功率平衡方程是二次等式约束,具有非凸性,这导致了最优潮流是典型的非线性非凸优化问题,难以求出全局最优解。因此,最优潮流求解方法需要在求解速度和质量上得到保证。
[0004]目前,最优潮流问题的求解方法主要分为三类:
[0005]寻求最优潮流局部最优解。例如梯简化度法、牛顿法、内点法等都属于基于梯度的计算方法,依赖于数学模型,以罚函数法处理约束条件,求解最优潮流的局部最优解。但基于迭代的方式进行寻优,计算时间长,尤其在大规模电网中,无法快速响应电网变化。在如今的电力系统中,高比例的风、光等可再生能源发电和接入的柔性负荷表现出强烈波动性、间歇性和不可控性,给电力系统带来了更多的不确定因素。如果最优潮流解不能快速跟随电网状态的变化,会严重影响配电网的安全稳定运行,因此最优潮流的快速求解十分重要。
[0006]对节点功率平衡方程进行近似处理。具有代表性的方法是将交流潮流约束近似为线性的直流潮流约束,然后求解近似的直流最优潮流(DC Optimal Power Flow,DCOPF)问题。直流最优潮流是线性的优化问题,计算速度快,能得到全局最优解。然而,直流最优潮流忽略了原交流最优潮流问题中的无功功率和网损,将节点电压都设为1,导致直流最优潮流解相对于原问题的计算精度不高;且直流最有潮流的全局最优解不一定是原最优潮流问题的可行解。
[0007]近年来人工智能技术的快速发展,大量的深度强化学习(Deep Reinforcement Learning,DRL)算法应用到最优潮流问题上。DRL能在离线过程中通过大量的历史数据训练模型,并将训练好的模型在电力系统中在线应用,其中输入为预测或测量的已知变量包括负荷、网络拓扑结构等,输出为实时最优潮流解。DRL将在线的计算负担转移到了离线训练阶段,提高实时应用的计算速度。基于价值的DRL算法,如Q

学习(Q

learning),只适用于离散动作空间;由于电力系统中的变量均属于连续量,若将连续状态、动作强行离散化不能保证决策的最优,还会带来维度灾难。

技术实现思路

[0008]针对现有技术的不足,本专利技术提供了一种基于近端策略优化即PPO算法的实时最优潮流计算方法。
[0009]一种基于近端策略优化算法的实时最优潮流计算方法,具体包括以下步骤:
[0010]步骤1:基于DRL算法和依据电力系统的拓扑结构、历史数据信息和MATPOWER内置PF求解器,构建电力系统仿真环境;其中DRL包括智能体、环境、状态、动作和奖励函数;
[0011]步骤1.1:构建电力系统交流最优潮流数学模型;设电力系统是由N
b
个节点,N
g
个发电机和N
l
个传输线组成;最优潮流数学模型的目标函数为电力系统中发电机总成本最小,如公式1;等式约束为各节点有功功率平衡约束和无功功率平衡约束,如公式2

3;不等式约束包括发电机有功功率约束和无功功率约束、节点电压幅值约束、线路传输功率约束和发电机有功爬坡约束,如公式4

8;
[0012][0013][0014][0015][0016][0017][0018][0019][0020]式中,为第i台发电机在t时刻的有功功率输出;c
2i
、c
1i
和c
0i
为第i台发电机成本的二次项系数、一次项系数和常数项系数;为分别节点i所连发电机在t时段的有功、无功功率输出;分别为节点i所连负荷在t时段的有功、无功功率;V
it
为节点i在t时段的电压幅值;分别为节点i和j之间所连支路在t时段的电导与电纳;为节点i和j之间所连支路在t时段的相角差;为发电机i有功出力的最大、最小值;为发电机i无功出力的最大、最小值;V
imax
、V
imin
为节点i电压幅值允许的最大、最小值;为节点i、j间传输线路中的传输功率;为节点i、j间传输线路允许的最大传输功率;为上一时刻发电机i有功出力;分别为发电机i瞬间最大下降和上升有功功率;
[0021]步骤1.2:根据电力系统的拓扑结构,构建状态空间;状态包括t时刻各节点所连接的有功负荷、无功负荷、系统电导矩阵、电纳矩阵和t

1时刻发电机有功出力和电压幅值;
[0022][0023]式中,分别为所有节点在t时段的有功、无功负荷;G、B分别为系统电导矩阵与电纳矩阵;为PV节点发电机在t

1时段的有功出力;为所有发电机在t

1时段的电压幅值;
[0024]步骤1.3:依据步骤1.1交流最优潮流数学模型的可控设备即发电机构建动作空间;动作为t时刻负荷下的最佳发电机设定值;
[0025][0026]式中,为PV节点发电机在t时段的有功出力;为所有发电机在t时段的电压幅值;
[0027]步骤1.4:依据步骤1.1交流最优潮流数学模型,构建电力系统仿真环境的奖励函数,在状态s
t
下采取动作a
t
后的即时奖励r
t
定义为:
[0028][0029]式中,cost为电力系统中所有发电机总成本;r
pg
、r
v
、r
s
、r
g
计算公式为:
[0030][0031][0032][0033][0034]式中,r
pg
、r
v
、r
s
、r
g
分别对应公式(4)、(6)、(7)、(8),当满足约束时,奖励为0;当不满足约束,该项奖励为超出约束部分经过标准化后的值;经过标准化处理后,发电机有功出力、线路潮流和节点电压约束的奖励均处于同一数量级,便于智能体学习;
[0035]步骤2:搭建PPO算法的智能体,并与步骤1构建的仿真环境进行交互,实现离线训练,优化智能体参数;其中,PPO是基于策略梯度的DRL算法;
[0036]步本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于近端策略优化算法的实时最优潮流计算方法,其特征在于,具体包括以下步骤:步骤1:基于DRL算法和依据电力系统的拓扑结构、历史数据信息和MATPOWER内置PF求解器,构建电力系统仿真环境;其中DRL包括智能体、环境、状态、动作和奖励函数;步骤2:搭建PPO算法的智能体,并与步骤1构建的仿真环境进行交互,实现离线训练,优化智能体参数;其中,PPO是基于策略梯度的DRL算法;步骤3:离线训练结束后,智能体能够依据电网中实时的状态提供最优动作,从而得到接近最优的潮流解,实现电网中的在线应用。2.根据权利要求1所述的一种基于近端策略优化算法的实时最优潮流计算方法,其特征在于,步骤1具体为:步骤1.1:构建电力系统交流最优潮流数学模型;设电力系统是由N
b
个节点,N
g
个发电机和N
l
个传输线组成;最优潮流数学模型的目标函数为电力系统中发电机总成本最小,如公式1;等式约束为各节点有功功率平衡约束和无功功率平衡约束,如公式2

3;不等式约束包括发电机有功功率约束和无功功率约束、节点电压幅值约束、线路传输功率约束和发电机有功爬坡约束,如公式4

8;8;8;8;8;8;8;8;式中,为第i台发电机在t时刻的有功功率输出;c
2i
、c
1i
和c
0i
为第i台发电机成本的二次项系数、一次项系数和常数项系数;为分别节点i所连发电机在t时段的有功、无功功率输出;分别为节点i所连负荷在t时段的有功、无功功率;V
it
为节点i在t时段的电压幅值;分别为节点i和j之间所连支路在t时段的电导与电纳;为节点i和j之间所连支路在t时段的相角差;为发电机i有功出力的最大、最小值;为发电机i无功出力的最大、最小值;V
imax
、V
imin
为节点i电压幅值允许的最大、最小值;为节点i、j间传输线路中的传输功率;为节点i、j间传输线路允许的最大传输功
率;为上一时刻发电机i有功出力;分别为发电机i瞬间最大下降和上升有功功率;步骤1.2:根据电力系统的拓扑结构,构建状态空间;状态包括t时刻各节点所连接的有功负荷、无功负荷、系统电导矩阵、电纳矩阵和t

1时刻发电机有功出力和电压幅值;式中,分别为所有节点在t时段的有功、无功负荷;G、B分别为系统电导矩阵与电纳矩阵;为PV节点发电机在t

1时段的有功出力;为所有发电机在t

1时段的电压幅值;步骤1.3:依据步骤1.1交流最优潮流数学模型的可控设备即发电机构建动作空间;动作为t时刻负荷下的最佳发电机设定值;式中,为PV节点发电机在t时段的有功出力;为所有发电机在t时段的电压幅值;步骤1.4:依据步骤1.1交流最优潮流数学模型,构建电力系统仿真环境的奖励函数,在状态s
t
下采取动作a
t
后的即时奖励r
t
定义为:式中,cost为电力系统中所有发电机总成本;r
pg
、r
v
、r
s
、r
g
计算公式为:计算公式为:计算公式为:计算公式为:式中,r
pg
、r
v
、r
s
、r
g
分别对应公式(4)、(6)、(7)、(8),当满足约束时,奖励为0;当不满足约束,该项奖励为超出约束部分经过标准化后的值;经过标准化处理后,发电机有功出力、
线路潮流和节点电压约束的奖励均处于同一数量级,便于智能体学习。3.根据权利要求1所述的一种基于近端策略优化算法的实时最优潮流计算方法,其特征在于,步骤2具体为:步骤2:搭建PPO算法的智能体,并与步骤1构建的仿真环境进行交互,实现离线训练,优化智能体参数;其中,PPO是基于策略梯度的DRL算法;步骤2.1:搭建智能体包括目标策略target actor、在线策略online actor和评价critic网络;Actor用来拟合状态s
t
映射到动作a
t
的策略函数,输入为状态s
t
,输出为均值μ、方差σ2选择动作的正态分布;Critic用来拟合s
t
映射到状态价值V(s
t
)的值函数,输入为状态s
t
,输出为状态价值V
π
(s
t
);步骤2.2:初始化智能体中online a...

【专利技术属性】
技术研发人员:赵强王佳韩英华
申请(专利权)人:东北大学秦皇岛分校
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1