基于离线强化学习的电力系统故障容错控制方法技术方案

技术编号:39713085 阅读:7 留言:0更新日期:2023-12-17 23:21
一种基于离线强化学习的电力系统故障容错控制方法,在训练过程中,无须与环境进行交互,无须专家经验的指导,只需要将不同的故障类型的数据输入进本发明专利技术的算法中,就可以通过训练得到本发明专利技术所需的容错控制器,此容错控制器对于不同的故障类型,能够自动做出最优策略,不需要通过警报

【技术实现步骤摘要】
基于离线强化学习的电力系统故障容错控制方法


[0001]本专利技术属于故障容错控制
,具体涉及一种基于离线强化学习对抗双生成器评论家演员
(Dueling Dual

Generator Adversarial Actor Critic,DDAAC)
算法的电力系统故障容错控制方法


技术介绍

[0002]传统的电力系统故障诊断指通过利用有关电力系统及其保护装置的知识和信息来识别故障的位置和类型,其中故障元件的识别是关键问题

一文献总结了电力系统故障的智能诊断方法,文中的故障只涉及传统意义上的电网故障

而随着计算机技术和网络技术的广泛应用,计算软件和网络传输故障引起电网故障的漏判和错判现象也时有发生

针对这种情况,一文献研究了在电力系统状态估计过程中,可能会出现的计算机硬件故障
(
暂时和永久故障
)
和软件故障
(
缓冲器溢出等
)
引起的错误,提出将容错算法
(Algorithm Based Fault Tolerant,ABFT)
应用于高斯消去法的系数矩阵中,通过误差分析推出舍入误差的上界,校正计算过程中的不变量,避免软件故障引起误报警

一文献将容错算法应用在电力系统潮流计算的
LU
分解算法中,用累加和方法检测潮流计算中出现的软件故障

潮流计算和状态估计是电力系统稳定和控制的重要基础性数据,这类软件故障必须予以考虑,否则后果严重

因此,考虑到系统的复杂性,容错控制研究的故障应该包括硬件故障和软件故障,这扩展了传统电力系统故障的范畴

从这个意义上说,容错控制所研究的故障主要有:传感器故障

操作机构故障

电网故障

计算机故障和软件故障等

[0003]电力系统是一个开放的复杂系统,具有结构上多层

空间上高维及运动方式上层间交互作用的特点

电网中的故障一般始于局部而作用于整体,这使得控制对象不仅仅是局部还必须考虑整个系统

这种复杂性

非线性

时变性和不确定性使得某些机理至今还不能被人们所了解

因此,获得系统全部信息,达到安全稳定控制几乎是不可能的,这也是电力系统同其它独立小系统
(
如飞机

机器人等
)
的显著区别

[0004]目前,容错控制基本形成了两类方法:被动容错控制和主动容错控制

被动容错控制在设计控制器时预先考虑了一些部件故障情况,不需要在线故障诊断信息,主要是利用鲁棒控制技术使得闭环控制系统对某些故障不敏感,不需要在线调整控制律和控制器参数

与被动容错控制系统不同,主动容错控制系统在故障发生后,能够主动对故障做出反应,通过对控制器参数的调整,改变控制器结构等对控制律进行重构,从而维持整个系统的性能

控制律重构的目标是使重构后的系统在性能上尽量接近原系统,其基本要求是原系统本身要具有一定的冗余性

由于主动容错系统比被动容错控制系统更具设计弹性且更有应用价值,因此前者研究较多,后者研究较少

[0005]一文献采用容错控制技术,设计了一个基于故障检测与诊断的容错控制系统,将基于联邦卡尔曼滤波器的故障检测与诊断系统和智能容错控制相结合,实现微机保护电力系统的传感器故障的容错控制

其主要思想是:当电力系统的传感器出现故障时,容错控制器根据检测到的故障类型,采用不同的控制策略进行信号重构,利用重构后的信号代替故
障传感器的测量值,输入给保护部分,从而使电力系统在传感器发生故障时仍能保持一定控制性能

国外学者在继电保护的容错控制方面也取得了一些类似的研究成果

然而,现有的容错控制基数存在智能化水平不均衡

优化算法的应用受到限制

网络化控制策略研究不足等缺陷

[0006]强化学习是一种通过与环境交互来学习最优行为的机器学习方法,它不需要监督信号或者环境模型,只需要根据奖励或者惩罚来调整自身的策略

[0007]强化学习故障容错控制的基本思路是:在建立环境模型和奖罚机制的基础上,针对系统正常运行和故障运行的情况,使用无模型的强化学习算法进行离线训练

然后在实际系统中使用训练好的网络进行在线控制,使得系统能够适应不同的故障情况,并保持一定的性能

[0008]强化学习故障容错控制不需要预先知道故障的类型

位置和程度,也不需要设计复杂的故障检测和诊断模块,只需要根据环境的反馈来调整控制策略,具有较高的自适应性和鲁棒性

强化学习故障容错控制可以直接优化系统的长期性能,而不是仅仅满足一些局部或者短期的目标,具有较高的最优性和效率

强化学习故障容错控制可以利用深度神经网络来处理高维度

非线性

非平稳的系统动态特征,具有较高的通用性和泛化能力

因此,基于强化学习的故障容错控制的研究是有必要的


技术实现思路

[0009]为解决现有技术中具有的缺陷,本专利技术提出一种基于离线强化学习的电力系统故障容错控制方法,其能够实现高度智能化,无须人工经验,并且具有极快的响应速度和识别准确度,能够实时对故障进行检测并处理

[0010]本专利技术运用如下的技术方案

[0011]一种基于离线强化学习的电力系统故障容错控制方法,该方法中的
DDAAC
算法包括:
[0012]步骤1:设定目标函数;
[0013]步骤2:
Critic
更新;
[0014]步骤3:
Actor
更新;
[0015]步骤4:附加生成器和辨别器更新;
[0016]步骤5:目标网络的更新

[0017]优选地,采用
GAN
对抗思想设定目标函数:
[0018][0019]其中,
min
为求取最小值的运算符,
max
为求取最大值的运算符,
G
为生成器,
G
aux
为辅助生成器,
D
为辨别器,
D(x)
为对
x
执行辨别的辨别器,
S
为给定的离线数据集,为
log(D(x))
的数学期望,
p
S
表示本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于离线强化学习的电力系统故障容错控制方法,其特征在于,该方法中的
DDAAC
算法包括:步骤1:设定目标函数;步骤2:
Critic
更新
。2.
根据权利要求1所述的基于离线强化学习的电力系统故障容错控制方法,其特征在于,步骤2之后,还包括:步骤3:
Actor
更新
。3.
根据权利要求2所述的基于离线强化学习的电力系统故障容错控制方法,其特征在于,步骤3之后,还包括:步骤4:附加生成器和辨别器更新
。4.
根据权利要求2所述的基于离线强化学习的电力系统故障容错控制方法,其特征在于,步骤4之后,还包括:步骤5:目标网络的更新
。5.
根据权利要求4所述的基于离线强化学习的电力系统故障容错控制方法,其特征在于,采用
GAN
对抗思想设定目标函数:其中,
min
为求取最小值的运算符,
max
为求取最大值的运算符,
G
为生成器,
G
aux
为辅助生成器,
D
为辨别器,
D(x)
为对
x
执行辨别的辨别器,
S
为给定的离线数据集,为
log(D(x))
的数学期望,
p
S
表示真实数据的概率分布,
x:p
S
代表
x
服从
p
S
分布,为
f(x)
的数学期望,
p
g
为生成器产生的概率分布,分布
x:p
g
代表
x
服从
p
g
分布,
f(x)
为从生成器输出到标量值的映射,
p
aux
是辅助生成器的分布,是生成器与辅助生成器的混合分布,为
log(1

D(x))
的数学期望,
x:p
mix
代表
x
服从
p
mix
分布
。6.
根据权利要求4所述的基于离线强化学习的电力系统故障容错控制方法,其特征在于,步骤2中,对
Critic
中的初始生成器的
Q
函数用如下更新方式:其中,
Q
函数是主网络的动作价值函数,表示使达到最小值时变量的取值,
k
为迭代
Q
k+1
表示策略的第
k+1
次迭代中的
Q
函数,
Q
k
表示策略的第
k
次迭代中的
Q
函数,
R(s,a)
表示在状态
s
做动作
a
后的奖励函数,
γ
为超参数,
s
表示状态空间的一个状态,
a
表示动作空
间的一个动作,
s

表示状态空间的另一个状态,
a

表示动作空间的另一个动作,表示
[Q
k
(s

,a

)]
的数学期望,
a

:
π
k
(a

|s

)
表示
a

服从
π
k
(a

|s

)
分布,
Q
target
表示目标函数,
s,a,s

:S
表示
s,a,s

服从
S
分布
...

【专利技术属性】
技术研发人员:王堃陈志刚裴丹赵志鹏雷惊鸿阳予晋
申请(专利权)人:中南大学国网宁夏电力有限公司信息通信公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1