一种基于深度强化学习的智能电网状态恢复方法及系统技术方案

技术编号：35064601 阅读：26 留言：0更新日期：2022-09-28 11:21

本发明专利技术公开一种基于深度强化学习的智能电网状态恢复方法及系统，包括，构建攻击模型及电网状态估计系统，对电网状态估计系统注入攻击模型，基于对电网状态估计系统注入攻击模型的过程，构建马尔可夫决策过程模型；基于马尔可夫决策过程模型，通过深度强化学习方法对电力系统进行策略优化，得到恢复策略。得到恢复策略。得到恢复策略。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度强化学习的智能电网状态恢复方法及系统

[0001]本专利技术涉及电力系统优化调度
，特别涉及一种基于深度强化学习的智能电网状态恢复方法及系统。

技术介绍

[0002]作为典型的信息物理系统(Cyber
‑
physical system)，智能电网集成了先进的传感器、高效的测量技术和先进的控制方法，以实现电网系统经济、高效、环保的运行。
[0003]然而，由于智能电网网络环境的多样性和开放性，电力系统的状态估计过程很容易被恶意攻击者入侵，给电网运行带来不可预测的重大损失。例如，2019年，黑客利用防火墙漏洞对美国PJM电网发起DoS攻击，中断了电网运营商监控加州、犹他州和怀俄明州电力系统的能力。
[0004]强化学习算法通过反复试错来探索环境，并通过训练获得序贯决策问题的最优策略。因其可以在无需明确构建完整决策模型的情况下为智能体制定有效的策略，为智能电网安全策略的研究提供了一个极具吸引力的方向。然而，在电力系统状态恢复过程中应用强化学习方法时，仍存在以下的困难：
[0005]1)现有的基于强化学习的电力系统安全策略研究集中于攻击检测方向，缺乏电力系统受到攻击后状态恢复策略的研究。2)现有的基于强化学习的状态恢复方法通常会将系统状态离散化，完全忽略了电力系统状态恢复动作空间为连续的特点。为此，提出一种基于深度强化学习的智能电网状态恢复策略具有挑战性和可取性。

技术实现思路

[0006]为解决上述现有技术中所存在的问题，本专利技术提供一种基于深度...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的智能电网状态恢复方法，其特征在于，包括：构建攻击模型及电网状态估计系统，对电网状态估计系统注入攻击模型，基于对电网状态估计系统注入攻击模型的过程，构建马尔可夫决策过程模型；基于马尔可夫决策过程模型，通过深度强化学习方法对电力系统进行策略优化，得到恢复策略。2.根据权利要求1所述方法，其特征在于：所述马尔可夫决策过程模型包括：时刻状态、时刻动作、状态转移方程及瞬时奖励；其中，时刻状态基于电网状态估计系统的状态估计值及测量向量计算获取，时刻动作基于电网状态估计系统的测量向量计算获取，状态转移方程基于时刻状态计算获取，瞬时奖励基于时刻状态及时刻动作计算获取。3.根据权利要求2所述方法，其特征在于：对电力系统进行策略优化的过程包括：基于马尔可夫决策过程模型，构建电力系统与外部环境的交互过程，基于交互过程获取交互状态、交互动作、交互奖励及下一时刻状态；构建深度强化学习模型，其中深度强化学习模型为执行
‑
评估架构的深度强化学习框架，基于交互状态、交互动作、交互奖励及下一时刻状态构建训练集，通过训练集对深度强化学习模型进行训练，通过训练后的深度强化学习模型对电力系统进行策略优化，得到恢复策略。4.根据权利要求3所述方法，其特征在于：构建训练集的过程包括：通过经验回放方法对交互状态、交互动作、交互奖励的采样，并对采样结果进行归一化，得到训练集；其中经验回放方法中的采样概率为时间差分误差。5.根据权利要求3所述方法，其特征在于：对深度强化学习模型进行训练的过程包括：通过训练集对执行网络的梯度及评估网络的误差进行计算，其中，深度强化学习模型包括执行网络及评估网络；基于计算结果对执行网络及评估网络的参数进行更新，将更新结果对执行网络及评估网络进行更新，得到训练好的深度强化学习模型。6.一种基于深度强化学习的智能电网状态恢复系统...

【专利技术属性】
技术研发人员：安豆，张斐烨，
申请(专利权)人：四川数字经济产业发展研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人