当前位置: 首页 > 专利查询>中南大学国网宁夏电力有限公司信息通信公司专利>正文

基于离线强化学习的电力系统故障容错控制方法技术方案

技术编号：39713085 阅读：7 留言：0更新日期：2023-12-17 23:21

一种基于离线强化学习的电力系统故障容错控制方法，在训练过程中，无须与环境进行交互，无须专家经验的指导，只需要将不同的故障类型的数据输入进本发明专利技术的算法中，就可以通过训练得到本发明专利技术所需的容错控制器，此容错控制器对于不同的故障类型，能够自动做出最优策略，不需要通过警报

全部详细技术资料下载

【技术实现步骤摘要】
基于离线强化学习的电力系统故障容错控制方法

[0001]本专利技术属于故障容错控制
，具体涉及一种基于离线强化学习对抗双生成器评论家演员
(Dueling Dual
‑
Generator Adversarial Actor Critic,DDAAC)
算法的电力系统故障容错控制方法
。

技术介绍

[0002]传统的电力系统故障诊断指通过利用有关电力系统及其保护装置的知识和信息来识别故障的位置和类型，其中故障元件的识别是关键问题
。
一文献总结了电力系统故障的智能诊断方法，文中的故障只涉及传统意义上的电网故障
。
而随着计算机技术和网络技术的广泛应用，计算软件和网络传输故障引起电网故障的漏判和错判现象也时有发生
。
针对这种情况，一文献研究了在电力系统状态估计过程中，可能会出现的计算机硬件故障
(
暂时和永久故障
)
和软件故障
(
缓冲器溢出等
)
引起的错误，提出将容错算法
(Algorithm Based Fault Tolerant,ABFT)
应用于高斯消去法的系数矩阵中，通过误差分析推出舍入误差的上界，校正计算过程中的不变量，避免软件故障引起误报警
。
一文献将容错算法应用在电力系统潮流计算的
LU
分解算法中，用累加和方法检测潮流计算中出现的软件故障
。
潮流计算和状态估计是电力系统稳...

【技术保护点】

【技术特征摘要】
1.
一种基于离线强化学习的电力系统故障容错控制方法，其特征在于，该方法中的
DDAAC
算法包括：步骤1：设定目标函数；步骤2：
Critic
更新
。2.
根据权利要求1所述的基于离线强化学习的电力系统故障容错控制方法，其特征在于，步骤2之后，还包括：步骤3：
Actor
更新
。3.
根据权利要求2所述的基于离线强化学习的电力系统故障容错控制方法，其特征在于，步骤3之后，还包括：步骤4：附加生成器和辨别器更新
。4.
根据权利要求2所述的基于离线强化学习的电力系统故障容错控制方法，其特征在于，步骤4之后，还包括：步骤5：目标网络的更新
。5.
根据权利要求4所述的基于离线强化学习的电力系统故障容错控制方法，其特征在于，采用
GAN
对抗思想设定目标函数：其中，
min
为求取最小值的运算符，
max
为求取最大值的运算符，
G
为生成器，
G
aux
为辅助生成器，
D
为辨别器，
D(x)
为对
x
执行辨别的辨别器，
S
为给定的离线数据集，为
log(D(x))
的数学期望，
p
S
表示真实数据的概率分布，
x:p
S
代表
x
服从
p
S
分布，为
f(x)
的数学期望，
p
g
为生成器产生的概率分布，分布
x:p
g
代表
x
服从
p
g
分布，
f(x)
为从生成器输出到标量值的映射，
p
aux
是辅助生成器的分布，是生成器与辅助生成器的混合分布，为
log(1
‑
D(x))
的数学期望，
x:p
mix
代表
x
服从
p
mix
分布
。6.
根据权利要求4所述的基于离线强化学习的电力系统故障容错控制方法，其特征在于，步骤2中，对
Critic
中的初始生成器的
Q
函数用如下更新方式：其中，
Q
函数是主网络的动作价值函数，表示使达到最小值时变量的取值，
k
为迭代
Q
k+1
表示策略的第
k+1
次迭代中的
Q
函数，
Q
k
表示策略的第
k
次迭代中的
Q
函数，
R(s,a)
表示在状态
s
做动作
a
后的奖励函数，
γ
为超参数，
s
表示状态空间的一个状态，
a
表示动作空
间的一个动作，
s
′
表示状态空间的另一个状态，
a
′
表示动作空间的另一个动作，表示
[Q
k
(s
′
,a
′
)]
的数学期望，
a
′
:
π
k
(a
′
|s
′
)
表示
a
′
服从
π
k
(a
′
|s
′
)
分布，
Q
target
表示目标函数，
s,a,s
′
:S
表示
s,a,s
′
服从
S
分布
...

【专利技术属性】
技术研发人员：王堃，陈志刚，裴丹，赵志鹏，雷惊鸿，阳予晋，
申请(专利权)人：中南大学国网宁夏电力有限公司信息通信公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人