一种电力CPS广义虚假数据注入攻击识别方法技术

技术编号:28211096 阅读:64 留言:0更新日期:2021-04-24 14:47
本发明专利技术的一种电力CPS广义虚假数据注入攻击的识别方法。其特点是,包括:信息物理融合数据平衡化处理方法、GFDIA识别最优特征子集确定方法、GFDIA识别器构建方法和得到电力CPS广义虚假数据注入攻击识别模型的内容,该方法能够克服传统的深度森林算法在电力信息物理融合系统的GFDIA识别中存在的如下问题:数据不平衡时识别误报率高的问题,数据维度过高引起的模型复杂度上升的问题,模型构建不合理引起的GFDIA识别精度不足,易过拟合的问题,进而提供一种稳定、高效的GFDIA识别方案。该方法科学合理,可适用于电力CPS领域中的广义虚假数据注入攻击的识别问题。注入攻击的识别问题。注入攻击的识别问题。

【技术实现步骤摘要】
一种电力CPS广义虚假数据注入攻击识别方法


[0001]本专利技术涉及电网安全领域,是一种电力CPS广义虚假数据注入攻击识别方法。

技术介绍

[0002]随着智能电网建设的不断发展,电力系统自动化程度的提高,电网传感器数量、信息网络规模和决策单元数量都大幅度增加。现代电力系统已不是单一电力设备组成的物理网络,而是发展成为信息物理高度融合的电力信息物理融合系统(Cyber

Physical

System,CPS)。电力CPS通过引入传感设备,通信网络以及计算设备完成对物理电网的状态感知和动态控制,使电力系统变得更加稳定化、智能化。然而,由于网络空间存在的漏洞以及复杂的信息物理耦合交互过程,使得信息安全成为影响电力系统安全稳定运行的重要因素,电力系统面临着严重的网络攻击威胁。
[0003]虚假数据注入攻击(False Data Injection Attack,FDIA)通过破坏电力CPS的数据完整性干扰信息层对物理层的控制决策,其主要攻击手段是利用通信网络存在的漏洞对信息空间的量测数据或控制信号进行恶意篡改,使控制中心对物理设备的运行失去控制,严重时可能造成电力系统崩溃,导致大范围停电。随着新攻击方式的不断被发现,当前FDIA的涵义已经进一步扩充。从广义上讲,以破坏电力系统稳定性或者获取经济利益为目的,对电力系统量测数据、控制信号以及设备信息等关键数据的篡改都属于FDIA的范畴,广义虚假数据注入攻击(Generalized False Data Injection Attack,GFDIA)的防范成为电网安全的又一难题。如何针对广义虚假数据注入攻击进行有效辨识,已经成为目前电力系统安全、稳定运行亟待解决的问题。
[0004]广域测量系统的大规模部署为基于机器学习的虚假数据注入攻击识别方法提供了大数据支持,使基于机器学习的FDIA识别方案逐渐走向成熟。然而对于GFDIA的识别方法仍然处于摸索阶段,传统的深度森林算法在解决GFDIA识别问题时还面临如下问题:
[0005]1)GFDIA发生后电力系统发生大范围波动,甚至发生大规模停电事故。暂态过程发生十分迅速,使得量测系统难以获取充足的数据表征不同GFDIA发生时电力系统状态。因此数据的平衡性成了制约GFDIA识别的关键问题。
[0006]2)大规模电力系统产生的数据呈现高维的特点,对于机器学习算法来说可能存在过多无关和冗余特征,使分类器对GFDIA的识别精度过低,同时数据维度过高也提升了模型复杂度。
[0007]3)深度森林算法受级联层结构配置的影响,级联层结构配置不当不仅会降低GFDIA的识别精度,同时易引起过拟合问题,使模型的泛化能力变差。

技术实现思路

[0008]本专利技术的目的是解决电力CPS广义虚假数据注入攻击识别过程中数据不平衡、数据维度过高以及模型配置不当易过拟合等问题,从物理侧数据挖掘的角度,提出一种科学合理,高效,适用性强的电力CPS广义虚假数据注入攻击识别方法。
[0009]本专利技术的目的由以下技术方案实现:一种电力CPS广义虚假数据注入攻击识别方法,其特征是,它包括的内容有:
[0010]1)信息物理融合数据平衡化处理方法
[0011]信息物理融合数据的平衡化处理由提出的中心化KMeans

Smote过采样算法实现,首先计算数据集的不平衡率,当不平衡率低于50%时,执行过采样操作;然后明确各个待过采样类别生成的伪样本数量,求取各个类别样本平均数,将样本数量低于平均值的类别过采样至和平均值持平,不断循环上述过程,直至少数类样本数量和样本数量最多的类别的样本数量相等,从而明确各过采样阶段各少数类别生成的伪样本数量;最后执行过采样操作,过采样过程共分为聚类、过滤和线性插值三个阶段;
[0012](1)聚类阶段,基于KMeans聚类算法将少数类样本在样本空间内聚类成n个簇,并为各个簇分配权重,分派原则为簇内样本数量多的簇的权重低,反之权重高,分配的权重决定该簇内生成的伪样本数量,权重越高,生成的伪样本数量越多,各簇在过采样过后包含的总样本数量大致相等,从而实现了类内的离散度平衡;
[0013](2)过滤阶段,对于少数类样本,在样本空间内将孤立的、且和其他类别样本分类边界混淆不清的样本过滤掉,过滤掉的样本在过采样阶段不参与线性插值操作,即算法不会依据噪声样本生成伪样本,从而实现降噪处理;
[0014](3)采样阶段,针对聚类所生成的各个簇,依次随机选择一个簇心,选取和簇心距离最近的k个近邻样本,在这些近邻样本中随机选择一个样本和所属的簇的簇心之间进行线性插值,生成一个伪样本,循环上述步骤,直到所有簇中的伪样本和步骤(1)中确定的权重约束相符,结束过采样操作,将所有过采样得到的伪样本以及步骤(2)中过滤掉的样本加入到原始数据集,得到平衡数据集,实现数据集的平衡化处理;
[0015]2)GFDIA识别最优特征子集确定方法
[0016]GFDIA识别最优特征子集的确定由最大化联合互信息(Joint Mutual Information Maximization,JMIM)特征选择算法实现,算法的输入是原始信息物理融合特征集F={f1,f2,...,f
N
},数据维数为N,输出为算法迭代选择的k个特征构成的GFDIA识别最优特征子集,其中k≤N,算法原理如:公式(1)

公式(7)所示,
[0017]定义变量X和变量C之间的互信息I(X,C)如公式(1)所示:
[0018]I(X,C)=H(C)

H(C|X)
ꢀꢀꢀ
(1)
[0019]其中代表变量x的熵,p(x)代表概率密度函数,运算代表变量x和变量y的条件熵,则定义变量X,Y,C之间的联合互信息定义如公式(2)、(3)所示:
[0020]I(X,C|Y)=H(X|C)

H(X|C,Y)
ꢀꢀꢀ
(2)
[0021]I(X,Y;C)=I(X;C|Y)+I(Y|C)
ꢀꢀꢀ
(3)
[0022]假设S是算法迭代过程中当前已经选择的特征集,特征f
i
∈F

S,特征f
S
∈S,如果特征f
i
和S中的一个特征f
S
高度相关,则
[0023]当待选特征f
i
、当前已选特征f
S
以及数据标签L满足公式(4)、(5)的约束条件时,
[0024]I(f
i
,f
S
;L)=I(f
S
;L)+I(f
i
;L/f
S
)
ꢀꢀꢀ
(4)
[0025]I(f
i
,f
S
;L)=H(L)

H(L/f
i
,f...

【技术保护点】

【技术特征摘要】
1.一种电力CPS广义虚假数据注入攻击识别方法,其特征是,它包括的内容有:1)信息物理融合数据平衡化处理方法信息物理融合数据的平衡化处理由提出的中心化KMeans

Smote过采样算法实现,首先计算数据集的不平衡率,当不平衡率低于50%时,执行过采样操作;然后明确各个待过采样类别生成的伪样本数量,求取各个类别样本平均数,将样本数量低于平均值的类别过采样至和平均值持平,不断循环上述过程,直至少数类样本数量和样本数量最多的类别的样本数量相等,从而明确各过采样阶段各少数类别生成的伪样本数量;最后执行过采样操作,过采样过程共分为聚类、过滤和线性插值三个阶段;(1)聚类阶段,基于KMeans聚类算法将少数类样本在样本空间内聚类成n个簇,并为各个簇分配权重,分派原则为簇内样本数量多的簇的权重低,反之权重高,分配的权重决定该簇内生成的伪样本数量,权重越高,生成的伪样本数量越多,各簇在过采样过后包含的总样本数量大致相等,从而实现了类内的离散度平衡;(2)过滤阶段,对于少数类样本,在样本空间内将孤立的、且和其他类别样本分类边界混淆不清的样本过滤掉,过滤掉的样本在过采样阶段不参与线性插值操作,即算法不会依据噪声样本生成伪样本,从而实现降噪处理;(3)采样阶段,针对聚类所生成的各个簇,依次随机选择一个簇心,选取和簇心距离最近的k个近邻样本,在这些近邻样本中随机选择一个样本和所属的簇的簇心之间进行线性插值,生成一个伪样本,循环上述步骤,直到所有簇中的伪样本和步骤(1)中确定的权重约束相符,结束过采样操作,将所有过采样得到的伪样本以及步骤(2)中过滤掉的样本加入到原始数据集,得到平衡数据集,实现数据集的平衡化处理;2)GFDIA识别最优特征子集确定方法GFDIA识别最优特征子集的确定由最大化联合互信息(Joint Mutual Information Maximization,JMIM)特征选择算法实现,算法的输入是原始信息物理融合特征集F={f1,f2,...,f
N
},数据维数为N,输出为算法迭代选择的k个特征构成的GFDIA识别最优特征子集,其中k≤N,算法原理如:公式(1)

公式(7)所示,定义变量X和变量C之间的互信息I(X,C)如公式(1)所示:I(X,C)=H(C)

H(C|X)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中代表变量x的熵,p(x)代表概率密度函数,运算代表变量x和变量y的条件熵,则定义变量X,Y,C之间的联合互信息定义如公式(2)、(3)所示:I(X,C|Y)=H(X|C)

H(X|C,Y)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)I(X,Y;C)=I(X;C|Y)+I(Y|C)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)假设S是算法迭代过程中当前已经选择的特征集,特征f
i
∈F

S,特征f
S
∈S,如果特征f
i
和S中的一个特征f
S
高度相关,则当待选特征f
i
、当前已选特征f
S
以及数据标签L满足公式(4)、(5)的约束条件时,I(f
i
,f
S
;L)=I(f
S
;L)+I(f
i
;L/f
S...

【专利技术属性】
技术研发人员:曹杰王达曲朝阳郭晓利奚洋王蕾
申请(专利权)人:东北电力大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1