一种基于串行Q学习算法的电力系统离散无功优化方法技术方案

技术编号：22297829 阅读：30 留言：0更新日期：2019-10-15 06:28

本发明专利技术公开了一种基于串行Q学习算法的电力系统离散无功优化方法、装置、设备及计算机可读存储介质，包括：根据电力系统的控制变量、状态变量、等式约束及不等式约束，构建RPO问题的目标模型；对所述控制变量中的连续变量离散化后，根据串行Q学习算法，结合奖励函数，利用N个代理分别对所述控制变量中N个单维控制变量进行优化；所述奖励函数根据所述状态变量的安全裕度值设定；依据优化后的N个单维控制变量，确定所述目标模型的最优值，从而得到所述电力系统的最小网损总和与所述状态变量的目标安全稳定裕度。本发明专利技术所提供的方法、装置、设备及计算机可读存储介质在优化网损的过程中保持变量的离散性且对状态变量的安全稳定裕度进行了优化。

A Discrete Reactive Power Optimization Method for Power System Based on Serial Q Learning Algorithms

全部详细技术资料下载

【技术实现步骤摘要】
一种基于串行Q学习算法的电力系统离散无功优化方法
本专利技术涉及电力系统无功优化领域，特别是涉及一种基于串行Q学习算法的电力系统离散无功优化方法、装置、设备以及计算机可读存储介质。
技术介绍
在电力系统中，给定输电网络的拓扑结构和输电线路的参数的条件下，有功、无功负荷和发电机的出力可分别从负荷预测和经济调度过程中获得。另一方面，为了保持电压水平、降低输电网络功率损耗并确保电力系统的安全稳定运行，优化无功功率也至关重要。无功优化问题(ReactivePowerOptimization，RPO)是最优潮流计算的一个子问题。它通过调节发电机的无功功率输出、变压器的抽头比和无功补偿装置的容量等控制变量，达到最小化线路损耗的目的。同时，RPO受限于电力系统中一系列的物理和运行约束。由于无功补偿装置的容量和变压器抽头比本质上是离散变化的，而发电机的无功功率输出是连续变量，因此RPO问题的数学模型是一个混合整数非线性规划问题，其优化过程非常复杂，长期以来一直是最优潮流计算研究的焦点之一。现有RPO研究工作在物理和运行约束条件下可以得到使网损最小化的控制变量最优解，但大多数工作忽略了最大化节点电压幅值和发电机无功出力的安全裕度的目标。当优化结果使得节点电压临近边界值，那么轻微的负荷波动很可能会导致节点电压越界，这对电力系统安全稳定运行是一个隐患。在RPO问题的求解方法方面，常用的最优化方法包括适用于线性和非线性问题的单纯形法、适用于非线性问题的内点法，以及适用于混合整数规划问题的分支定界法等。在这些方法中，拉格朗日函数和惩罚因子的引入将含有约束的RPO模型转化为无约束的优...

【技术保护点】
1.一种基于串行Q学习算法的电力系统离散无功优化方法，其特征在于，包括：根据电力系统的控制变量、状态变量、等式约束及不等式约束，构建电力系统无功优化问题的目标模型；对所述控制变量中的连续变量离散化后，根据串行Q学习算法，结合奖励函数，利用N个代理分别对所述控制变量中N个单维控制变量进行优化；其中，所述奖励函数根据所述状态变量的安全裕度值设定；依据优化后的N个单维控制变量，确定所述目标模型的最优值，从而得到所述电力系统的最小网损总和与所述状态变量的目标安全稳定裕度。

【技术特征摘要】
1.一种基于串行Q学习算法的电力系统离散无功优化方法，其特征在于，包括：根据电力系统的控制变量、状态变量、等式约束及不等式约束，构建电力系统无功优化问题的目标模型；对所述控制变量中的连续变量离散化后，根据串行Q学习算法，结合奖励函数，利用N个代理分别对所述控制变量中N个单维控制变量进行优化；其中，所述奖励函数根据所述状态变量的安全裕度值设定；依据优化后的N个单维控制变量，确定所述目标模型的最优值，从而得到所述电力系统的最小网损总和与所述状态变量的目标安全稳定裕度。2.如权利要求1所述的方法，其特征在于，所述根据电力系统的控制变量、状态变量、等式约束及不等式约束，构建电力系统无功优化问题的目标模型包括：根据电力系统的控制变量X＝[VG,TB,QC]、状态变量U＝[VL,QG]、等式约束g(X,U)＝0及不等式约束h(X,U)≤0，构建电力系统无功优化问题的目标模型构建电力系统无功优化问题的目标模型：其中，VG为发电机机端电压，TB为有载调压变压器变比，QC为无功补偿容量；VL为节点电压，QG为发电机无功出力；g(·)＝0为潮流方程；F(X,U)为网损总和Ploss；所述不等式约束包括所述控制变量和所述状态变量的上下限约束与输电线路的功率极限约束。3.如权利要求2所述的方法，其特征在于，所述对所述控制变量中的连续变量离散化包括：将所述发电机机端电压的可行域范围离散化为若干格子，且离散化后的发电机机端电压对应的代理每次可采取的行为为所述若干格子中的一个格子。4.如权利要求3所述的方法，其特征在于，每个代理对每个单维控制变量进行优化的步骤包括：S1：根据目标代理采取的当前行为，确定目标单维控制变量的当前初始值；S2：根据所述目标单维控制变量的当前初始值与所述等式约束，确定状态变量的当前值；S3：根据所述目标单维控制变量的当前初始值与所述状态变量当前值，确定所述电力系统的当前网损总和；S4：判断所述状态变量的当前值是否大于等于所述状态变量的当前预设下限值且小于等于所述状态变量的当前预设上限值，若是，则根据所述当前网损总和及所述状态变量的安全裕度值确定当前奖励函数值；其中，所述状态变量的安全裕度值根据所述状态变量的当前值与所述当前预设下限值及所述当前预设上限值的距离确定；S5：根据所述当前奖励函数值更新所述当前行为对应的值函数，以便所述目标代理根据更新后的值函数选取下一个行为；S6：循环执行所述S1至所述...

【专利技术属性】
技术研发人员：罗鸿轩，肖勇，金鑫，张乐平，罗奕，
申请(专利权)人：南方电网科学研究院有限责任公司，中国南方电网有限责任公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人