一种基于深度强化学习的智能电网状态恢复方法及系统技术方案

技术编号:35064601 阅读:26 留言:0更新日期:2022-09-28 11:21
本发明专利技术公开一种基于深度强化学习的智能电网状态恢复方法及系统,包括,构建攻击模型及电网状态估计系统,对电网状态估计系统注入攻击模型,基于对电网状态估计系统注入攻击模型的过程,构建马尔可夫决策过程模型;基于马尔可夫决策过程模型,通过深度强化学习方法对电力系统进行策略优化,得到恢复策略。得到恢复策略。得到恢复策略。

【技术实现步骤摘要】
一种基于深度强化学习的智能电网状态恢复方法及系统


[0001]本专利技术涉及电力系统优化调度
,特别涉及一种基于深度强化学习的智能电网状态恢复方法及系统。

技术介绍

[0002]作为典型的信息物理系统(Cyber

physical system),智能电网集成了先进的传感器、高效的测量技术和先进的控制方法,以实现电网系统经济、高效、环保的运行。
[0003]然而,由于智能电网网络环境的多样性和开放性,电力系统的状态估计过程很容易被恶意攻击者入侵,给电网运行带来不可预测的重大损失。例如,2019年,黑客利用防火墙漏洞对美国PJM电网发起DoS攻击,中断了电网运营商监控加州、犹他州和怀俄明州电力系统的能力。
[0004]强化学习算法通过反复试错来探索环境,并通过训练获得序贯决策问题的最优策略。因其可以在无需明确构建完整决策模型的情况下为智能体制定有效的策略,为智能电网安全策略的研究提供了一个极具吸引力的方向。然而,在电力系统状态恢复过程中应用强化学习方法时,仍存在以下的困难:
[0005]1)现有的基于强化学习的电力系统安全策略研究集中于攻击检测方向,缺乏电力系统受到攻击后状态恢复策略的研究。2)现有的基于强化学习的状态恢复方法通常会将系统状态离散化,完全忽略了电力系统状态恢复动作空间为连续的特点。为此,提出一种基于深度强化学习的智能电网状态恢复策略具有挑战性和可取性。

技术实现思路

[0006]为解决上述现有技术中所存在的问题,本专利技术提供一种基于深度强化学习的智能电网状态恢复方法及系统。
[0007]一方面,为实现上述技术目的,本专利技术提供了一种基于深度强化学习的智能电网状态恢复方法,包括
[0008]构建攻击模型及电网状态估计系统,对电网状态估计系统注入攻击模型,基于对电网状态估计系统注入攻击模型的过程,构建马尔可夫决策过程模型;
[0009]基于马尔可夫决策过程模型,通过深度强化学习方法对电力系统进行策略优化,得到恢复策略。
[0010]可选的,所述马尔可夫决策过程模型包括:时刻状态、时刻动作、状态转移方程及瞬时奖励;其中,时刻状态基于电网状态估计系统的状态估计值及测量向量计算获取,时刻动作基于电网状态估计系统的测量向量计算获取,状态转移方程基于时刻状态计算获取,瞬时奖励基于时刻状态及时刻动作计算获取。
[0011]可选的,对电力系统进行策略优化的过程包括:
[0012]基于马尔可夫决策过程模型,构建电力系统与外部环境的交互过程,基于交互过程获取交互状态、交互动作、交互奖励及下一时刻状态;
[0013]构建深度强化学习模型,其中深度强化学习模型为执行

评估架构的深度强化学习框架,基于交互状态、交互动作、交互奖励及下一时刻状态构建训练集,通过训练集对深度强化学习模型进行训练,通过训练后的深度强化学习模型对电力系统进行策略优化,得到恢复策略。
[0014]可选的,构建训练集的过程包括:
[0015]通过经验回放方法对交互状态、交互动作、交互奖励的采样,并对采样结果进行归一化,得到训练集;其中经验回放方法中的采样概率为时间差分误差。
[0016]可选的,对深度强化学习模型进行训练的过程包括:
[0017]通过训练集对执行网络的梯度及评估网络的误差进行计算,其中,深度强化学习模型包括执行网络及评估网络;
[0018]基于计算结果对执行网络及评估网络的参数进行更新,将更新结果对执行网络及评估网络进行更新,得到训练好的深度强化学习模型。
[0019]另一方面,为实现上述技术目的,本专利技术提供了一种基于深度强化学习的智能电网状态恢复系统,包括:
[0020]构建模块用于构建攻击模型及电网状态估计系统,对电网状态估计系统注入攻击模型,基于对电网状态估计系统注入攻击模型的过程,构建马尔可夫决策过程模型;
[0021]优化模型用于基于马尔可夫决策过程模型,通过深度强化学习方法对电力系统进行策略优化,得到恢复策略。
[0022]可选的,构建模型中所述马尔可夫决策过程模型包括:时刻状态、时刻动作、状态转移方程及瞬时奖励;其中,时刻状态基于电网状态估计系统的状态估计值及测量向量计算获取,时刻动作基于电网状态估计系统的测量向量计算获取,状态转移方程基于时刻状态计算获取,瞬时奖励基于时刻状态及时刻动作计算获取。
[0023]可选的,优化模块包括第一优化模块,第一优化模块基于马尔可夫决策过程模型,构建电力系统与外部环境的交互过程,基于交互过程获取交互状态、交互动作、交互奖励及下一时刻状态;构建深度强化学习模型,其中深度强化学习模型为执行

评估架构的深度强化学习框架,基于交互状态、交互动作、交互奖励及下一时刻状态构建训练集,通过训练集对深度强化学习模型进行训练,通过训练后的深度强化学习模型对电力系统进行策略优化,得到恢复策略。
[0024]可选的,优化模块包括第二优化模块,第二优化模块用于通过经验回放方法对交互状态、交互动作、交互奖励的采样,并对采样结果进行归一化,得到训练集;其中经验回放方法中的采样概率为时间差分误差。
[0025]可选的,优化模块包括第三优化模块,第三优化模块用于通过训练集对执行网络的梯度及评估网络的误差进行计算,其中,深度强化学习模型包括执行网络及评估网络;基于计算结果对执行网络及评估网络的参数进行更新,将更新结果对执行网络及评估网络进行更新,得到训练好的深度强化学习模型。
[0026]本专利技术具有如下技术效果:
[0027]该方法及系统可以有效提升电力系统受到假数据注入攻击后地应对能力,增强电力系统状态估计过程的安全性,保障智能电网高效的运行。
附图说明
[0028]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0029]图1为本专利技术实施例提供的方法流程示意图。
具体实施方式
[0030]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0031]实施例一
[0032]如图1所示,本专利技术公开了一种基于深度强化学习的智能电网状态恢复方法,该方法对于降低针对电网状态估计的假数据注入攻击对电力系统的影响具有显著作用。本专利技术将电力系统受到假数据注入攻击后的状态恢复过程构建成马尔可夫决策过程模型。其次,设计了一种基于深度强化学习的电网状态恢复策略自适应地学习电力系统受到攻击后的状态恢复过程。该专利技术可以在无需明确构建状态转移概率,优化函数等复杂数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的智能电网状态恢复方法,其特征在于,包括:构建攻击模型及电网状态估计系统,对电网状态估计系统注入攻击模型,基于对电网状态估计系统注入攻击模型的过程,构建马尔可夫决策过程模型;基于马尔可夫决策过程模型,通过深度强化学习方法对电力系统进行策略优化,得到恢复策略。2.根据权利要求1所述方法,其特征在于:所述马尔可夫决策过程模型包括:时刻状态、时刻动作、状态转移方程及瞬时奖励;其中,时刻状态基于电网状态估计系统的状态估计值及测量向量计算获取,时刻动作基于电网状态估计系统的测量向量计算获取,状态转移方程基于时刻状态计算获取,瞬时奖励基于时刻状态及时刻动作计算获取。3.根据权利要求2所述方法,其特征在于:对电力系统进行策略优化的过程包括:基于马尔可夫决策过程模型,构建电力系统与外部环境的交互过程,基于交互过程获取交互状态、交互动作、交互奖励及下一时刻状态;构建深度强化学习模型,其中深度强化学习模型为执行

评估架构的深度强化学习框架,基于交互状态、交互动作、交互奖励及下一时刻状态构建训练集,通过训练集对深度强化学习模型进行训练,通过训练后的深度强化学习模型对电力系统进行策略优化,得到恢复策略。4.根据权利要求3所述方法,其特征在于:构建训练集的过程包括:通过经验回放方法对交互状态、交互动作、交互奖励的采样,并对采样结果进行归一化,得到训练集;其中经验回放方法中的采样概率为时间差分误差。5.根据权利要求3所述方法,其特征在于:对深度强化学习模型进行训练的过程包括:通过训练集对执行网络的梯度及评估网络的误差进行计算,其中,深度强化学习模型包括执行网络及评估网络;基于计算结果对执行网络及评估网络的参数进行更新,将更新结果对执行网络及评估网络进行更新,得到训练好的深度强化学习模型。6.一种基于深度强化学习的智能电网状态恢复系统...

【专利技术属性】
技术研发人员:安豆张斐烨
申请(专利权)人:四川数字经济产业发展研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1