System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及电力系统仿真,尤其涉及到一种电网有功控制智能体的仿真训练方法、装置及设备。
技术介绍
1、近年来,随着大数据分析及新一代人工智能技术的迅猛发展,利用基于数据驱动的人工智能技术解决当前电网面临的新问题和新挑战,成为建设新型电力系统过程中的新手段和新方法。其中,深度强化学习技术在电网调度辅助决策方面发挥了重要作用。
2、为了研究深度强化学习在电网调度中的应用,目前基于ieee典型拓扑搭建了实验室级别仿真环境来验证深度强化学习在电网调控中的应用效果,但实际电网特性与ieee典型拓扑有着显著不同,导致目前深度强化学习训练的智能体无法适应与训练环境不一致的电网模型拓扑结构,因此,深度强化学习技术难以在实际系统中落地实用。如何训练适应实际电网调度需求的智能体算法是目前亟需解决的问题。
技术实现思路
1、有鉴于此,本专利技术提供了一种电网有功控制智能体的仿真训练方法、装置及设备,可解决目前深度强化学习训练的智能体无法适用于实际电网模型拓扑结构的技术问题。
2、根据本专利技术的第一个方面,提供了一种电网有功控制智能体的仿真训练方法,所述方法包括:
3、获取基于深度强化学习构建的智能体,基于实际电网模型拓扑结构与历史运行数据构建电网仿真环境,在所述电网仿真环境中,获取电网设备的至少一组初始状态数据,利用一组所述初始状态数据训练所述智能体,生成当前时刻的初始有功控制动作策略;
4、判断所述初始有功控制动作策略是否满足预设校验条件,若是,则根
5、根据所述初始状态数据以及所述下一状态数据计算得到初始动作奖励值,利用所述下一状态数据以及所述初始动作奖励值继续训练所述智能体,直到达到预设停止条件,得到训练完成的智能体。
6、优选地,所述方法还包括:
7、若所述初始有功控制动作策略不满足所述预设校验条件,则利用所述初始状态数据再次训练所述智能体,直到所述初始有功控制动作策略满足所述预设校验条件。
8、优选地,所述判断所述初始有功控制动作策略是否满足预设校验条件,包括:
9、判断所述初始有功控制动作策略中的动作列表长度和当前环境机组数量是否相等;以及,
10、判断所述初始有功控制动作策略中的机组当前有功出力和有功调整量叠加后是否在机组出力限额之内。
11、优选地,所述方法还包括:
12、设置所述预设停止条件,其中,所述预设停止条件包括所述初始状态数据的组数以及每组训练次数。
13、优选地,在所述得到训练完成的智能体之后,所述方法还包括:
14、获取所述电网设备待调整状态数据;
15、将所述待调整状态数据输入所述训练完成的智能体,生成最优有功控制动作策略;
16、根据所述最优有功控制动作策略更新所述待调整状态数据。
17、优选地,所述获取电网设备的至少一组初始状态数据,包括:
18、根据所述实际电网模型拓扑结构与所述历史运行数据获取电网设备在不同预设时刻对应的不同组初始状态数据。
19、根据本专利技术的第二个方面,提供了一种电网有功控制智能体的仿真训练装置,所述装置包括:
20、获取模块,用于获取基于深度强化学习构建的智能体,基于实际电网模型拓扑结构与历史运行数据构建电网仿真环境,在所述电网仿真环境中,获取电网设备的至少一组初始状态数据,利用一组所述初始状态数据训练所述智能体,生成当前时刻的初始有功控制动作策略;
21、判断模块,用于判断所述初始有功控制动作策略是否满足预设校验条件,若是,则根据所述初始有功控制动作策略更新所述初始状态数据,得到下一时刻的下一状态数据;
22、第一训练模块,用于根据所述初始状态数据以及所述下一状态数据计算得到初始动作奖励值,利用所述下一状态数据以及所述初始动作奖励值继续训练所述智能体,直到达到预设停止条件,得到训练完成的智能体。
23、优选地,所述装置还包括:
24、第二训练模块,用于若所述初始有功控制动作策略不满足所述预设校验条件,则利用所述初始状态数据再次训练所述智能体,直到所述初始有功控制动作策略满足所述预设校验条件。
25、依据本申请第三个方面,提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述电网有功控制智能体的仿真训练方法。
26、依据本申请第四个方面,提供了一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述电网有功控制智能体的仿真训练方法。
27、借由上述技术方案,本专利技术提供的一种电网有功控制智能体的仿真训练方法、装置及设备,本专利技术可首先获取基于深度强化学习构建的智能体,基于实际电网模型拓扑结构与历史运行数据构建电网仿真环境,在所述电网仿真环境中,获取电网设备的至少一组初始状态数据,利用一组所述初始状态数据训练所述智能体,生成当前时刻的初始有功控制动作策略;然后判断所述初始有功控制动作策略是否满足预设校验条件,若是,则根据所述初始有功控制动作策略更新所述初始状态数据,得到下一时刻的下一状态数据;最后根据所述初始状态数据以及所述下一状态数据计算得到初始动作奖励值,利用所述下一状态数据以及所述初始动作奖励值继续训练所述智能体,直到达到预设停止条件,得到训练完成的智能体。通过本专利技术的技术方案,一方面,基于实际电网模型拓扑结构与历史运行数据构建了电网仿真训练环境,从而实现了从实际电网模型拓扑结构与历史运行数据中获取实际电网数据(即电网设备的至少一组初始状态数据),另一方面,通过执行智能体输出的有功控制动作策略,更新电网的状态数据,实现了智能体与电网仿真环境的交互,因此,本专利技术中计算的状态数据与动作奖励值符合实际电网特性,利用这样的状态数据与动作奖励值迭代训练智能体,使得训练完成的智能体能够适应实际电网调度需求,在实际电网应用中适应性强。而现有技术中,是基于ieee典型拓扑搭建了实验室级别仿真环境,由于ieee典型拓扑与实际电网特性不同,因此,基于实验室级别仿真环境训练的智能体无法适应与训练环境不一致的拓扑结构,进而无法适应实际电网调度需求,在实际电网应用中适应性差。
28、上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。
本文档来自技高网...【技术保护点】
1.一种电网有功控制智能体的仿真训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求1或2所述的方法,其特征在于,所述判断所述初始有功控制动作策略是否满足预设校验条件,包括:
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
5.根据权利要求1所述的方法,其特征在于,在所述得到训练完成的智能体之后,所述方法还包括:
6.根据权利要求1所述的方法,其特征在于,所述获取电网设备的至少一组初始状态数据,包括:
7.一种电网有功控制智能体的仿真训练装置,其特征在于,所述装置包括:
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
9.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述电网有功控制智能体的仿真训练方法。
10.一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程
...【技术特征摘要】
1.一种电网有功控制智能体的仿真训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求1或2所述的方法,其特征在于,所述判断所述初始有功控制动作策略是否满足预设校验条件,包括:
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
5.根据权利要求1所述的方法,其特征在于,在所述得到训练完成的智能体之后,所述方法还包括:
6.根据权利要求1所述的方法,其特征在于,所述获取电网设备的至少一组初始状态数据,...
【专利技术属性】
技术研发人员:周毅,沈维健,周良才,陈清,高佳宁,范栋琦,闪鑫,王波,王天禄,骆玮,徐峰,徐希,李雷,郑义明,孙小磊,刘理达,孙志豪,余飞翔,陆廷骧,吴自博,张楷,杨永瑞,夏正国,周志涛,李林鑫,滕书宇,
申请(专利权)人:国家电网有限公司华东分部,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。