一种智能体与电网环境交互学习系统与方法、存储介质技术方案

技术编号:36691112 阅读:20 留言:0更新日期:2023-02-27 19:58
本发明专利技术涉及一种智能体与电网环境交互学习系统与方法、存储介质,通过断面潮流文件作为中间媒介,将强化学习智能体、状态估计模块、潮流计算模块通过接口的形式进行交互联动,以实现强化学习智能体的训练。该方法可以有效复用调控系统中的状态估计与调度员潮流计算等高级应用软件,在降低建模复杂度的同时,使智能体训练环境更接近真实电网环境,提高精确度。度。度。

【技术实现步骤摘要】
一种智能体与电网环境交互学习系统与方法、存储介质


[0001]本专利技术涉及电网调控
,具体涉及一种智能体与电网环境交互学习系统与方法、存储介质。

技术介绍

[0002]随着我国市场经济的持续发展,特高压电网与交直流混联电网的建设,分布式微电网的并网运行,以及可再生能源的高比例持续性接入,使电网的运行与控制面临着越来越多的挑战,而强化学习技术则为解决高非线性、高维度、高实时性的电网控制与决策问题提供了新的解决方案。在电网控制与决策任务中,强化学习智能体在训练时不能与真实的电网环境进行交互,导致智能体操作不灵活、无法应对异常环境等问题,所以通常需要根据真实电网构造一套仿真环境。
[0003]由于真实电网环境元件数量多、拓扑关系与约束条件复杂,仿真环境的构建非常耗时耗力。现有方法采用模拟仿真环境的方式来构建智能体交互环境,与真实电网环境存在较大差异,造成控制和决策结果精确度较差,如果将训练好的智能体模型应用至实际电网生产环境中进行在线决策,还需要大量的迁移与适配工作。

技术实现思路

[0004]本专利技术提供了一种智能本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种智能体与电网环境交互学习系统,其特征在于,所述系统包括状态估计模块、交互服务模块、强化学习智能体与潮流计算模块;所述状态估计模块用于读取各个历史时间点的电网信息,并根据电网信息生成历史断面潮流文件,根据各个历史时间点的历史断面潮流文件按照期望目标分类得到与期望目标对应类别的历史断面潮流文件集合;所述交互服务模块用于按照智能体学习的期望目标从与期望目标对应类别的历史断面潮流文件集合中随机选取目标历史断面潮流文件,并对目标历史断面潮流文件进行解析得到目标历史电网状态信息,然后将目标历史电网状态信息发送至强化学习智能体;所述强化学习智能体用于根据目标历史电网状态信息预测执行动作,并将预测的执行动作发送给交互服务模块,以使交互服务模块根据预测的执行动作修改目标历史断面潮流文件,并将修改后的目标历史断面潮流文件发送给潮流计算模块;所述潮流计算模块用于根据修改后的目标历史断面潮流文件计算历史电网潮流,并结合历史电网潮流的计算结果生成新的历史断面潮流文件,将新生成的历史断面潮流文件发送给交互服务模块。2.根据权利要求1所述一种智能体与电网环境交互学习系统,其特征在于,所述交互服务模块还用于对新生成的历史断面潮流文件解析形成新的电网状态信息,基于新的电网状态信息和预测的执行动作生成奖励值,基于新的电网状态信息判断回合是否结束,并发送奖励值和回合是否结束的结果至强化学习智能体,使强化学习智能体根据回合是否结束的结果执行相应的操作及根据奖励值判断训练是否满足预设结束条件。3.根据权利要求2所述一种智能体与电网环境交互学习系统,其特征在于,所述奖励值的生成方式包括:在所述交互服务模块判断预测的执行动作属于非法动作时,将奖励值设置为负;在所述交互服务模块判断预测的执行动作不属于非法动作时,则提取新的电网状态信息中的电网效率数值生成奖励值,电网效率数值越高奖励值越大,电网效率数值越低奖励值越小。4.根据权利要求2所述一种智能体与电网环境交互学习系统,其特征在于,所述判断回合是否结束方式包括:所述交互服务模块根据新的电网状态信息判断强化学习智能体能否正常管控电网,若能,回合结束并将结果发送强化学习智能体,使强化学习智能体进入下一回合;若不能,回合不结束并将结果发送强化学习智能体,使强化学习智能体回到根据目标历史电网状态信息预测执行动作步骤并执行后续动作,直至回合结束。5.根据权利要求1所述一种智能体与电网环境交互学习系统,其特征在于,所述电网信息包...

【专利技术属性】
技术研发人员:邱鹏凌兆伟张天一句荣滨金宜放王洪泽乔咏田单连飞张越赵胜奥
申请(专利权)人:国网辽宁省电力有限公司国网电力科学研究院有限公司国家电网有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1