一种电力系统交流最优潮流决策方法、装置、设备及介质制造方法及图纸

技术编号：39959154 阅读：7 留言：0更新日期：2024-01-08 23:54

本发明专利技术公开了一种电力系统交流最优潮流决策方法、装置、设备及介质，涉及电力系统调度领域，该方法包括：获取电力系统的交流潮流数据；将所述交流潮流数据输入至训练好的最优潮流模型中，得到由所述最优潮流模型输出的最优潮流决策方案；所述最优潮流模型是基于历史交流潮流数据，并基于马尔可夫决策和强化学习过程、深度强化学习中智能体与环境的交互过程，利用双延迟深度确定策略梯度算法，对智能体进行离线以及在线测试后得到的。本发明专利技术针对电力行业调度的实时性和可靠性，提出基于深度强化学习的电力系统实时交流最优潮流方法，能够准确地掌握电力系统潮流与发电机设置的相关性信息，使得最终的决策结果更加符合实际。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及电力系统调度领域，具体涉及一种电力系统交流最优潮流决策方法、装置、设备及介质。

技术介绍

1、最优潮流（optimal power flow，opf）是电力系统运行的基础问题，最优潮流旨在寻找在遵守物理约束的情况下最小化发电成本的最佳运行操作，对于最优潮流相关的研究对于智能电网的发展至关重要。

2、现有技术在解决以新能源为主体的新型电力系统的最优潮流问题时，难以实时应对新能源出力与负荷需求复杂多变的场景。因此，如何在考虑新能源出力不确定性的情况下快速实时地求解最优潮流是目前业界亟待解决的重要课题。

技术实现思路

1、有鉴于此，本专利技术实施例提供了一种电力系统交流最优潮流决策方法、装置、设备及介质，以此解决现有技术中现有的opf决策难以实时应对新能源出力与负荷需求复杂多变的问题。

2、根据第一方面，本专利技术实施例提供了一种电力系统交流最优潮流决策方法，所述方法包括：

3、获取电力系统的交流潮流数据；

4、将所述交流潮流数据输入至训练好的最优潮流模型中，得到由所述最优潮流模型输出的最优潮流决策方案；

5、所述最优潮流模型是基于历史交流潮流数据，并基于马尔可夫决策和强化学习过程、深度强化学习中智能体与环境的交互过程，利用双延迟深度确定策略梯度算法，对智能体进行离线以及在线测试后得到的。

6、结合第一方面，在第一方面第一实施方式中，所述最优潮流模型通过以下步骤训练得到：

7、获取电力系统中

8、基于马尔可夫决策和强化学习过程，确定最优潮流模型中的智能体、环境、状态、动作和奖励；

9、基于深度强化学习中智能体与环境的交互过程，利用双延迟深度确定策略梯度算法对最优潮流模型的神经网络参数更新；

10、将智能体进行离线训练，并通过离线的智能体与环境不断交互，更新神经网络参数；

11、将智能体进行在线测试，离线训练后的智能体对电网仿真环境做出动作，检查动作的可行性并将可行的动作传入实际电网中。

12、结合第一方面第一实施方式，在第一方面第二实施方式中，所述获取电力系统中的历史交流潮流数据，并基于历史交流潮流数据，构建电力系统的最优潮流模型，具体包括：

13、获取电力系统中的历史交流潮流数据，并基于可再生能源的间歇性及不确定性优化，构建以最小发电成本为目标函数的最优潮流数学模型；最优潮流模型包括目标策略网络、目标价值网络、策略网络以及价值网络；

14、确定最优潮流数学模型的约束条件。

15、结合第一方面第二实施方式，在第一方面第三实施方式中，所述基于马尔可夫决策和强化学习过程，确定最优潮流模型中的智能体、环境、状态、动作和奖励，具体包括：

16、确定智能体和环境；环境为电力系统，智能体为动作的发出者；

17、确定状态空间和动作空间；状态空间包括电力系统中负荷节点的有功功率、无功功率、所有发电机的当前有功出力和电压；动作空间包括发电机的有功出力增量和电压增量；

18、设置奖励函数；奖励函数与目标函数负相关且将约束条件加入奖励函数中，若违反约束条件则会给予相应的惩罚。

19、结合第一方面第三实施方式，在第一方面第四实施方式中，所述基于深度强化学习中智能体与环境的交互过程，利用双延迟深度确定策略梯度算法对最优潮流模型的神经网络参数更新，具体包括：

20、进行最优潮流模型中目标策略网络、目标价值网络、策略网络以及价值网络的预测；

21、计算时序差分法目标和时序差分法误差；

22、每经过预设轮次，更新神经网络的参数。

23、结合第一方面第四实施方式，在第一方面第五实施方式中，所述将智能体进行离线训练，并通过离线的智能体与环境不断交互，更新神经网络参数，具体包括：

24、利用牛顿-拉夫逊潮流求解器，获取包含负荷有功功率和无功功率、发电机有功出力和电压的当前状态；

25、智能体接收环境的当前状态智能体根据当前状态做出最优动作；

26、利用牛顿-拉夫逊潮流求解器，生成此时的潮流分布作为下一状态，同时评估对应的奖励，将下一状态和奖励均反馈给智能体；

27、判断是否满足离线训练终止条件；离线训练终止条件为满足以下至少一项：牛顿-拉夫逊潮流求解器发散、奖励为正以及已达到最大步数；

28、若满足离线训练终止条件，终止离线训练。

29、结合第一方面第五实施方式，在第一方面第六实施方式中，所述将智能体进行离线训练，并通过离线的智能体与环境不断交互，更新神经网络参数，还包括：

30、若不满足离线训练终止条件，将环境的下一状态更新为当前状态，直至满足离线训练终止条件。

31、根据第二方面，本专利技术实施例还一种电力系统交流最优潮流决策装置，所述装置包括：

32、获取模块，用于获取电力系统的交流潮流数据；

33、决策模块，用于将所述交流潮流数据输入至训练好的最优潮流模型中，得到由所述最优潮流模型输出的最优潮流决策方案；

34、所述最优潮流模型是基于历史交流潮流数据，并基于马尔可夫决策和强化学习过程、深度强化学习中智能体与环境的交互过程，利用双延迟深度确定策略梯度算法，对智能体进行离线以及在线测试后得到的。

35、根据第三方面，本专利技术实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述电力系统交流最优潮流决策方法的步骤。

36、根据第四方面，本专利技术实施例还提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述电力系统交流最优潮流决策方法的步骤。

37、本专利技术的电力系统交流最优潮流决策方法、装置、设备及介质，通过训练得到最优潮流模型，且最优潮流模型是基于历史交流潮流数据，并基于马尔可夫决策和强化学习过程、深度强化学习中智能体与环境的交互过程，利用双延迟深度确定策略梯度算法，对智能体进行离线以及在线测试后得到的，因此基于最优潮流模型获取得到的最优潮流决策方案，为在最小化发电成本同时实现考虑新能源系统不确定性的情况下快速实时地决策出交流最优潮流。本专利技术针对电力行业调度的实时性和可靠性，提出基于深度强化学习的电力系统实时交流最优潮流方法，对电力系统最优潮流的求解进行了优化，能够准确地掌握电力系统潮流与发电机设置的相关性信息，使得最终的决策结果更加符合实际。同时，加快电网调度人员处理线路潮流的速度，以快速准确的实时调整控制措施来保证电力系统的安全性和经济性，进一步提高电力系统调度的智能化水平，为新能源大规模接入电力系统参与调度提供有效参考。

本文档来自技高网...

【技术保护点】

1.一种电力系统交流最优潮流决策方法，其特征在于，所述方法包括：

2.根据权利要求1所述的电力系统交流最优潮流决策方法，其特征在于，所述获取电力系统中的历史交流潮流数据，并基于历史交流潮流数据，构建电力系统的最优潮流模型，具体包括：

3.根据权利要求2所述的电力系统交流最优潮流决策方法，其特征在于，所述基于马尔可夫决策和强化学习过程，确定最优潮流模型中的智能体、环境、状态、动作和奖励，具体包括：

4.根据权利要求3所述的电力系统交流最优潮流决策方法，其特征在于，所述基于深度强化学习中智能体与环境的交互过程，利用双延迟深度确定策略梯度算法对最优潮流模型的神经网络参数更新，具体包括：

5.根据权利要求4所述的电力系统交流最优潮流决策方法，其特征在于，所述将智能体进行离线训练，并通过离线的智能体与环境不断交互，更新神经网络参数，具体包括：

6.根据权利要求5所述的电力系统交流最优潮流决策方法，其特征在于，所述将智能体进行离线训练，并通过离线的智能体与环境不断交互，更新神经网络参数，还包括：

7.一种电力系统交流最优

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述电力系统交流最优潮流决策方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述电力系统交流最优潮流决策方法的步骤。

...

【技术特征摘要】

1.一种电力系统交流最优潮流决策方法，其特征在于，所述方法包括：

5.根据权利要求4所述的电力系统交流最优潮流决策方法，其特征在于，所述将智...

【专利技术属性】
技术研发人员：沈增祥，胡高志，方子夜，钟灵军，陈飘，
申请(专利权)人：杭州鸿晟电力设计咨询有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人