基于专家系统与深度逆向强化学习的电网紧急控制方法技术方案

技术编号:24210068 阅读:59 留言:0更新日期:2020-05-20 16:27
本发明专利技术公开了一种基于专家系统与深度逆向强化学习的电网紧急控制方法,包括步骤:1)构建专家知识库;2)采用深度卷积神经网络来作为回报函数的基底,构建电力紧急调度的回报函数,初始化深度逆向强化学习算法参数后,以专家知识库中专家演示的正确的控制方式的状态序列轨迹为样本,通过深度逆向强化学习与优化方案计算出回报函数中的权值,得出一个经过优化的回报函数,从而得出一个可模仿专家知识库中专家操作的基于深度逆向强化学习的紧急控制策略;3)将在线样本中的状态量输入训练好的深度逆向强化学习算法,根据当前的状态及训练好的结果,深度逆向强化学习算法按照回报函数给出适用于当前的最优的紧急控制策略。本发明专利技术更具备灵活性和准确性。

Power grid emergency control method based on expert system and deep reverse reinforcement learning

【技术实现步骤摘要】
基于专家系统与深度逆向强化学习的电网紧急控制方法
本专利技术涉及电力系统电网控制的
,尤其是指一种基于专家系统与深度逆向强化学习的电网紧急控制方法。
技术介绍
随着我国电网的快速发展,新能源渗透率不断提高,电网结构日趋复杂。传统的电网暂态稳定分析控制技术与电网高速发展带来的新的稳定性问题之间的矛盾日益凸显,由于电网模型和参数的影响,电网仿真数据库难以复现电网事故失稳轨迹,尤其组合爆炸问题限制工况数量。因此,物理模型难以对电网不确定性因素建模分析,同时基于物理特性的建模方式受限于计算资源,对于复杂电网建模计算困难,不能够全面考虑多种因素。传统基于电网物理机理的分析方法已经不能满足电网控制要求,需寻找新方法解决这一问题。电网紧急状态下控制手段包括切机切负荷、低频减载和低压减载。电网处于紧急状态时,电网整体仍保持完整性,部分电网模型约束条件被破坏。电网部分元件参数超过额定值,部分母线电压或者负荷超过额定值,电网可能失去稳定性。数据驱动方法分析电网运行环境信息,并根据不同运行方式和电网运行状态迅速给出控制方案成为本文研究重点。数据本文档来自技高网...

【技术保护点】
1.基于专家系统与深度逆向强化学习的电网紧急控制方法,其特征在于,包括以下步骤:/n1)构建专家知识库,表达方式设置为采用电力系统中某紧急状态序列向量,及其对应的专家操作动作序列,规则是以变量的约束形式输入进专家知识库,知识库的更新方式为仿真后人工更新输入与在线学习共同组成;/n2)采用深度卷积神经网络来作为回报函数的基底,构建电力紧急调度的回报函数,初始化深度逆向强化学习算法参数后,以专家知识库中专家演示的正确的控制方式的状态序列轨迹为样本,通过深度逆向强化学习与优化方案计算出回报函数中的权重系数,得出一个经过优化的回报函数,从而得出一个能够模仿专家知识库中专家操作的基于深度逆向强化学习的紧...

【技术特征摘要】
1.基于专家系统与深度逆向强化学习的电网紧急控制方法,其特征在于,包括以下步骤:
1)构建专家知识库,表达方式设置为采用电力系统中某紧急状态序列向量,及其对应的专家操作动作序列,规则是以变量的约束形式输入进专家知识库,知识库的更新方式为仿真后人工更新输入与在线学习共同组成;
2)采用深度卷积神经网络来作为回报函数的基底,构建电力紧急调度的回报函数,初始化深度逆向强化学习算法参数后,以专家知识库中专家演示的正确的控制方式的状态序列轨迹为样本,通过深度逆向强化学习与优化方案计算出回报函数中的权重系数,得出一个经过优化的回报函数,从而得出一个能够模仿专家知识库中专家操作的基于深度逆向强化学习的紧急控制策略;
3)将在线样本中的状态量输入训练好的深度逆向强化学习算法,根据当前的状态及训练好的结果,深度逆向强化学习算法按照回报函数给出适用于当前的最优的紧急控制策略,而且在线过程中不断通过不同情况下的紧急控制策略得出的状态序列与控制效果来更新专家知识库的内容实现在线学习的过程。


2.根据权利要求1所述的基于专家系统与深度逆向强化学习的电网紧急控制方法,其特征在于:在步骤1)中,专家知识库中的专家决策知识的表达形式为状态变量+决策动作,即:
Yi=〈xi1,xi2,…,xin〉
其中,Yi表示一系列的决策样本,xi表示状态,ai表示在状态xi下采取的操作动作;
状态变量主要包括各个节点的电压、相角,各发电机无功、发电机电磁功率、发电机机械功率、发电机速度偏差和发电机功角、电力系统各点负荷这些属性维度;专家知识库中专家演示的决策过程的动作集合考虑的紧急控制措施为切机和切负荷,因此,动作集合ai为切某几台发电机与某几条负荷线路,在状态变量中则表现为某几台发电机无功、发电机电磁功率变为零、某节点负荷下降;
专家知识库中专家决策规则的表达形式为:
以不等式存在的不同的约束条件:包括节点电压、相角大小上下限,发电机功率上下限,发电机速度偏差和发电机功角、电力系统各点负荷上下限。


3.根据权利要求1所述的基于专家系统与深度逆向强化学习的电网紧急控制方法,其特征在于:在步骤2)中,示例轨迹辅助的行动序列生成与优化是在基于深度逆向强化学习构建的生成与优化策略的基础上,利用已有的示例轨迹数据和训练过程中产生的示例轨迹数据加速学习过程的方法:首先是利用已有的示例轨迹数据,根据深度逆向强化学习生成回报函数,将高质量数据背后的高水平指挥员对电网环境的认知以回报函数的方式作为加速强化学习收敛和学习效果的基础;其次,将深度逆向强化学习生成的回报函数和环境固有的回报函数进行奖赏塑型,在行动序列生成时,从初始态势开始,根据当前态势和策略模型进行行动的选择和寻优,从而生成行动,执行行动后驱动环境形成下一个状态,如此迭代形成了期望态势转换和行动序列;
深度逆向强化学习过程中的在线学习与在线样本的数据均来自于电力调度中心管辖的数据采集与监视控制系统SCADA、电力设备状态监控系统PEMDS、能量管理系统EMS、地理信息系统GIS和气象信息接收系统WIAS;
进入电网紧急控制决策流程的启动条件为:
系统安全性的约束条件受到坏,并且由于系统的电压和频率超过或低于允许值,直接影响对负荷的正常供电;
采用的生成紧急控制策略的方法为:逆强化学习,采用的是马尔可夫MDP的决策过程,包括:
2.1)MDP决策参数
2.1.1)状态空间集合
电力系统紧急控制策略的MDP决策过程中状态变量主要包括各个节点的电压、相角,各发电机无功、发电机电磁功率、发电机机械功率、节点电压、发电机速度偏差和发电机功角、电力系统各点负荷这些属性维度;
2.1.2)动作空间集合
MDP决策过程的动作集合由专家知识库中专家演示的决策过程决定,考虑的紧急控制措施为切机...

【专利技术属性】
技术研发人员:李嘉文余涛
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1