强化学习电网调控智能体的构建方法技术

技术编号：42951184 阅读：29 留言：0更新日期：2024-10-11 16:07

本申请公开一种强化学习电网调控智能体的构建方法，智能体包括第一、第二电网调控网络，第一、第二价值网络，方法包括：第一电网调控网络根据从电力系统仿真环境中获取的当前时刻电网状态，预测当前时刻电网调控策略，电力系统仿真环境根据当前时刻电网调控策略生成当前时刻奖励值及下一时刻电网状态；第一价值网络根据当前时刻电网状态和当前时刻电网调控策略，获得当前时刻后的综合奖励值；第二电网调控网络根据下一时刻电网状态预测下一时刻电网调控策略；第二价值网络根据下一时刻电网状态和下一时刻电网调控策略，获得下一时刻后的综合奖励值；通过调整网络参数最小化损失函数，直至达到预设收敛条件时，获得最终的电网调控智能体。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及强化学习，具体而言，涉及一种强化学习电网调控智能体的构建方法。

技术介绍

1、“数字化转型”和“可持续的能源转型”是推动国民经济高质量发展、实现“双碳”战略目标的必由之路。随着可再生能源占比日益攀升和电网运行环境愈加复杂，传统电力系统调度模式难以在变化剧烈、参数不准的复杂环境中满足电力系统的实时调控需求。

2、现有电力系统调度策略主要采用最优化方法，首先利用凸松弛或线性化方法将复杂电网模型简化为易处理的凸模型或线性模型，然后再调用优化算法或求解器进行求解。然而，随着可再生能源和灵活性资源大规模接入，电网状态变化剧烈，运行环境趋于复杂，计算负担日益增长，诸多新型可调设备(例如，虚拟电厂、聚合商、需求侧响应等)难以精准建模。基于优化建模的电力系统调度方法严重依赖精准的电网参数和可调设备数学模型，逐渐难以满足复杂运行环境中电力系统的即时调控需求，给现代电力系统的高效快速决策和安全经济运行带来了重要挑战。

技术实现思路

1、本申请提供了一种强化学习电网调控智能体的构建方法，能...

【技术保护点】

1.一种强化学习电网调控智能体的构建方法，其特征在于，所述电网调控智能体包括第一电网调控网络、第一价值网络、第二电网调控网络、第二价值网络，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，任一时刻的电网调控策略包括用于恢复电网断面越限的调度策略；

3.根据权利要求2所述的方法，其特征在于，所述电力系统仿真环境根据所述当前时刻电网调控策略进行安全性检查以及潮流计算，获得针对所述当前时刻电网调控策略的当前时刻奖励值，包括：

4.根据权利要求3所述的方法，其特征在于，根据所述下一时刻后的综合奖励值、所述当前时刻后的综合奖励值和所述当前时刻奖励值，计...

【技术特征摘要】

2.根据权利要求1所述的方法，其特征在于，任一时刻的电网调控策略包括用于恢复电网断面越限的调度策略；

4.根据权利要求3所述的方法，其特征在于，根据所述下一时刻后的综合奖励值、所述当前时刻后的综合奖励值和所述当前时刻奖励值，计算所述第...

【专利技术属性】
技术研发人员：范展滔，邱生敏，吕耀棠，张坤，吴小刚，陈兴望，张艺镨，李志中，刘士齐，何劲松，
申请(专利权)人：中国南方电网有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人