一种基于串行Q学习算法的电力系统离散无功优化方法技术方案

技术编号:22297829 阅读:30 留言:0更新日期:2019-10-15 06:28
本发明专利技术公开了一种基于串行Q学习算法的电力系统离散无功优化方法、装置、设备及计算机可读存储介质,包括:根据电力系统的控制变量、状态变量、等式约束及不等式约束,构建RPO问题的目标模型;对所述控制变量中的连续变量离散化后,根据串行Q学习算法,结合奖励函数,利用N个代理分别对所述控制变量中N个单维控制变量进行优化;所述奖励函数根据所述状态变量的安全裕度值设定;依据优化后的N个单维控制变量,确定所述目标模型的最优值,从而得到所述电力系统的最小网损总和与所述状态变量的目标安全稳定裕度。本发明专利技术所提供的方法、装置、设备及计算机可读存储介质在优化网损的过程中保持变量的离散性且对状态变量的安全稳定裕度进行了优化。

A Discrete Reactive Power Optimization Method for Power System Based on Serial Q Learning Algorithms

【技术实现步骤摘要】
一种基于串行Q学习算法的电力系统离散无功优化方法
本专利技术涉及电力系统无功优化领域,特别是涉及一种基于串行Q学习算法的电力系统离散无功优化方法、装置、设备以及计算机可读存储介质。
技术介绍
在电力系统中,给定输电网络的拓扑结构和输电线路的参数的条件下,有功、无功负荷和发电机的出力可分别从负荷预测和经济调度过程中获得。另一方面,为了保持电压水平、降低输电网络功率损耗并确保电力系统的安全稳定运行,优化无功功率也至关重要。无功优化问题(ReactivePowerOptimization,RPO)是最优潮流计算的一个子问题。它通过调节发电机的无功功率输出、变压器的抽头比和无功补偿装置的容量等控制变量,达到最小化线路损耗的目的。同时,RPO受限于电力系统中一系列的物理和运行约束。由于无功补偿装置的容量和变压器抽头比本质上是离散变化的,而发电机的无功功率输出是连续变量,因此RPO问题的数学模型是一个混合整数非线性规划问题,其优化过程非常复杂,长期以来一直是最优潮流计算研究的焦点之一。现有RPO研究工作在物理和运行约束条件下可以得到使网损最小化的控制变量最优解,但大多数工作忽略了最大化节点电压幅值和发电机无功出力的安全裕度的目标。当优化结果使得节点电压临近边界值,那么轻微的负荷波动很可能会导致节点电压越界,这对电力系统安全稳定运行是一个隐患。在RPO问题的求解方法方面,常用的最优化方法包括适用于线性和非线性问题的单纯形法、适用于非线性问题的内点法,以及适用于混合整数规划问题的分支定界法等。在这些方法中,拉格朗日函数和惩罚因子的引入将含有约束的RPO模型转化为无约束的优化问题。然而,上述传统规划方法对初始点的选取较为敏感,易于陷入局部最优。并且,数学规划方法需要已知目标函数或其偏导数的具体表达式,要求目标函数具有凸性、连续性和可导性。人工智能方法解决RPO问题,特别是进化计算方法,可用来弥补上述数学规划方法的不足。例如,使用遗传算法,进化策略或一些其他演化方法解决RPO问题时,对目标函数是否是凸函数、其表达式是否连续可导并无要求。其全局搜索能力较强,不易于陷入局部最优。然而,这些方法忽略了变压器变比和无功补偿容量的离散特性,需要将其视为连续变量进行优化,随后再选取最优解邻近的离散值作为最终结果,这种方法很难保证得到了控制变量的最优离散值。综上所述可以看出,如何在优化电力系统网损的过程中保持变量的离散性且对状态变量的安全稳定裕度进行优化是目前有待解决的问题。
技术实现思路
本专利技术的目的是提供一种基于串行Q学习算法的电力系统离散无功优化方法、装置、设备以及计算机可读存储介质,以解决现有的无功优化方法忽略了变压器变比和无功补偿容量的离散特性导致很难保证得到控制变量的最优离散值的问题。为解决上述技术问题,本专利技术提供一种基于串行Q学习算法的电力系统离散无功优化方法,包括:根据电力系统的控制变量、状态变量、等式约束及不等式约束,构建电力系统无功优化问题的目标模型;对所述控制变量中的连续变量离散化后,根据串行Q学习算法,结合奖励函数,利用N个代理分别对所述控制变量中N个单维控制变量进行优化;其中,所述奖励函数根据所述状态变量的安全裕度值设定;依据优化后的N个单维控制变量,确定所述目标模型的最优值,从而得到所述电力系统的最小网损总和与所述状态变量的目标安全稳定裕度。优选地,所述根据电力系统的控制变量、状态变量、等式约束及不等式约束,构建电力系统无功优化问题的目标模型包括:根据电力系统的控制变量X=[VG,TB,QC]、状态变量U=[VL,QG]、等式约束g(X,U)=0及不等式约束h(X,U)≤0,构建电力系统无功优化问题的目标模型构建电力系统无功优化问题的目标模型:其中,VG为发电机机端电压,TB为有载调压变压器变比,QC为无功补偿容量;VL为节点电压,QG为发电机无功出力;g(·)=0为潮流方程;F(X,U)为网损总和Ploss;所述不等式约束包括所述控制变量和所述状态变量的上下限约束与输电线路的功率极限约束。优选地,所述对所述控制变量中的连续变量离散化包括:将所述发电机机端电压的可行域范围离散化为若干格子,且离散化后的发电机机端电压对应的代理每次可采取的行为为所述若干格子中的一个格子。优选地,个代理对每个单维控制变量进行优化的步骤包括:S1:根据目标代理采取的当前行为,确定目标单维控制变量的当前初始值;S2:根据所述目标单维控制变量的当前初始值与所述等式约束,确定状态变量的当前值;S3:根据所述目标单维控制变量的当前初始值与所述状态变量当前值,确定所述电力系统的当前网损总和;S4:判断所述状态变量的当前值是否大于等于所述状态变量的当前预设下限值且小于等于所述状态变量的当前预设上限值,若是,则根据所述当前网损总和及所述状态变量的安全裕度值确定当前奖励函数值;其中,所述状态变量的安全裕度值根据所述状态变量的当前值与所述当前预设下限值及所述当前预设上限值的距离确定;S5:根据所述当前奖励函数值更新所述当前行为对应的值函数,以便所述目标代理根据更新后的值函数选取下一个行为;S6:循环执行所述S1至所述S5,直至循环次数达到预设次数,完成所述目标单维控制变量的优化。优选地,所述根据所述当前奖励函数值更新所述当前行为对应的值函数包括:利用Qk+1(xi)=(1-α)Qk(xi)+αRk更新所述当前行为对应的值函数;其中,Rk为所述当前奖励函数值,xi为所述当前行为,Qk(xi)为所述当前行为对应的值函数,Qk+1(xi)为更新后的值函数,α为学习速率。本专利技术还提供了一种基于串行Q学习算法的电力系统离散无功优化装置,包括:构建模块,用于根据电力系统的控制变量、状态变量、等式约束及不等式约束,构建电力系统无功优化问题的目标模型;优化模块,用于对所述控制变量中的连续变量离散化后,根据串行Q学习算法,结合奖励函数,利用N个代理分别对所述控制变量中N个单维控制变量进行优化;其中,所述奖励函数根据所述状态变量的安全裕度值设定;确定模块,用于依据优化后的N个单维控制变量,确定所述目标模型的最优值,从而得到所述电力系统的最小网损总和与所述状态变量的目标安全稳定裕度。优选地,所述构建模块具体用于:根据电力系统的控制变量X=[VG,TB,QC]、状态变量U=[VL,QG]、等式约束g(X,U)=0及不等式约束h(X,U)≤0,构建电力系统无功优化问题的目标模型构建电力系统无功优化问题的目标模型:其中,VG为发电机机端电压,TB为有载调压变压器变比,QC为无功补偿容量;VL为节点电压,QG为发电机无功出力;g(·)=0为潮流方程;F(X,U)为网损总和Ploss;所述不等式约束包括所述控制变量和所述状态变量的上下限约束与输电线路的功率极限约束。优选地,所述优化模块包括:离散单元,用于将所述发电机机端电压的可行域范围离散化为若干格子,且离散化后的发电机机端电压对应的代理每次可采取的行为为所述若干格子中的一个格子。本专利技术还提供了一种基于串行Q学习算法的电力系统离散无功优化设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述一种基于串行Q学习算法的电力系统离散无功优化方法的步骤。本专利技术还提供了一种计算机可读存储介质,所述计算机可读本文档来自技高网
...

【技术保护点】
1.一种基于串行Q学习算法的电力系统离散无功优化方法,其特征在于,包括:根据电力系统的控制变量、状态变量、等式约束及不等式约束,构建电力系统无功优化问题的目标模型;对所述控制变量中的连续变量离散化后,根据串行Q学习算法,结合奖励函数,利用N个代理分别对所述控制变量中N个单维控制变量进行优化;其中,所述奖励函数根据所述状态变量的安全裕度值设定;依据优化后的N个单维控制变量,确定所述目标模型的最优值,从而得到所述电力系统的最小网损总和与所述状态变量的目标安全稳定裕度。

【技术特征摘要】
1.一种基于串行Q学习算法的电力系统离散无功优化方法,其特征在于,包括:根据电力系统的控制变量、状态变量、等式约束及不等式约束,构建电力系统无功优化问题的目标模型;对所述控制变量中的连续变量离散化后,根据串行Q学习算法,结合奖励函数,利用N个代理分别对所述控制变量中N个单维控制变量进行优化;其中,所述奖励函数根据所述状态变量的安全裕度值设定;依据优化后的N个单维控制变量,确定所述目标模型的最优值,从而得到所述电力系统的最小网损总和与所述状态变量的目标安全稳定裕度。2.如权利要求1所述的方法,其特征在于,所述根据电力系统的控制变量、状态变量、等式约束及不等式约束,构建电力系统无功优化问题的目标模型包括:根据电力系统的控制变量X=[VG,TB,QC]、状态变量U=[VL,QG]、等式约束g(X,U)=0及不等式约束h(X,U)≤0,构建电力系统无功优化问题的目标模型构建电力系统无功优化问题的目标模型:其中,VG为发电机机端电压,TB为有载调压变压器变比,QC为无功补偿容量;VL为节点电压,QG为发电机无功出力;g(·)=0为潮流方程;F(X,U)为网损总和Ploss;所述不等式约束包括所述控制变量和所述状态变量的上下限约束与输电线路的功率极限约束。3.如权利要求2所述的方法,其特征在于,所述对所述控制变量中的连续变量离散化包括:将所述发电机机端电压的可行域范围离散化为若干格子,且离散化后的发电机机端电压对应的代理每次可采取的行为为所述若干格子中的一个格子。4.如权利要求3所述的方法,其特征在于,每个代理对每个单维控制变量进行优化的步骤包括:S1:根据目标代理采取的当前行为,确定目标单维控制变量的当前初始值;S2:根据所述目标单维控制变量的当前初始值与所述等式约束,确定状态变量的当前值;S3:根据所述目标单维控制变量的当前初始值与所述状态变量当前值,确定所述电力系统的当前网损总和;S4:判断所述状态变量的当前值是否大于等于所述状态变量的当前预设下限值且小于等于所述状态变量的当前预设上限值,若是,则根据所述当前网损总和及所述状态变量的安全裕度值确定当前奖励函数值;其中,所述状态变量的安全裕度值根据所述状态变量的当前值与所述当前预设下限值及所述当前预设上限值的距离确定;S5:根据所述当前奖励函数值更新所述当前行为对应的值函数,以便所述目标代理根据更新后的值函数选取下一个行为;S6:循环执行所述S1至所述...

【专利技术属性】
技术研发人员:罗鸿轩肖勇金鑫张乐平罗奕
申请(专利权)人:南方电网科学研究院有限责任公司中国南方电网有限责任公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1