基于改进聚类算法的电力系统运行关键特征选择方法技术方案

技术编号:35525910 阅读:18 留言:0更新日期:2022-11-09 14:47
本发明专利技术公开了一种基于改进聚类算法的电力系统运行关键特征选择方法,包括如下步骤:S1、将高维的电力数据组成的数据集处理成由每一个电气特征组成的数据集;S2、通过部分优先聚类算法产生聚类成员;S3、通过Co

【技术实现步骤摘要】
基于改进聚类算法的电力系统运行关键特征选择方法


[0001]本专利技术涉及电力系统
,具体指一种基于改进聚类算法的电力系统运行关键特征选择方法。

技术介绍

[0002]电力大数据不仅可以辅助电力企业进行各种趋势预测和决策分析。而且还可以带动电力行业的发展,同时保证了人民群众的生产和生活的安全用电,也为经济快速发展增添活力。所以合理利用电力大数据对人们生产生活是十分有价值的。但是随着智能电网的发展,电力大数据的维度呈现明显增长趋势,不仅增加了算法运算的开销,而且增加了模型的复杂度和模型训练的时间。同时高维数据容易出现维度灾难和信息稀疏等问题。因此,研究数据降维技术不仅可以优化模型,降低模型复杂度,而且能降低计算复杂度,突出关键特征,使得数据变得可视化,有助于发挥算法的最大效率。
[0003]近些年来,国内外研究者们针对降维技术,提出了一些模型和方法。最经典的降维方法有主成分析法、判别分析法,以及在这些方法的基础上做出了进一步的优化的算法,如同度分布算法等,但这些算法计算复杂度都很高。一些研究者也提出了通过聚类的方式对数据进行降维,如基于特征聚类的特征选择算法等,随着聚类算法的不断优化,聚类精确度越来越高,最终的聚类效果也越来越好,为最终的特征选择做出了铺垫。
[0004]总的来说,已有的研究成果虽也能进行特征选择,但是计算复杂度高,而且不少算法受到数据分布的影响。在基于聚类算法进行特征选择的过程中,时间复杂度和计算复杂度之间没有做到很好的兼顾。这就需要一些新的研究方法,在保证最终聚类精确度的同时,能够尽可能地减少计算复杂度并降低算法的运行时间。

技术实现思路

[0005]基于现有特征选择技术的不足,为了解决
技术介绍
中存在的问题,本专利技术提出一种基于改进聚类算法的电力系统运行关键特征选择的方法,在保证最终聚类精确度的同时,能够减少计算复杂度并降低算法的运行时间。
[0006]为了解决上述技术问题,本专利技术的技术方案为:
[0007]一种基于改进聚类算法的电力系统运行关键特征选择方法,包括如下步骤:
[0008]S1、将高维的电力数据组成的数据集处理成由每一个电气特征组成的数据集;
[0009]S2、通过部分优先聚类算法产生聚类成员
[0010]S2

1、参数初始化:根据数据集的大小,选择聚类成员个数ρ;设定距离参数r,判断典型样本A的最大迭代次数cs,以及样本点α邻域内最小个数μ;
[0011]S2

2、从数据集中随机选取一个样本A,然后从A中再随机选取一个样本点α;
[0012]S2

3、为样本点α的均值,N为样本点数据的个数;数据X
i
的均值为
若则判定X
i
在样本点α的邻域内,统计α邻域内的数据量Num,若Num>μ时,则判定A为典型样本,否则,则重复步骤S2

2,但是如果超过最大判断次数cs,则结束算法;
[0013]S2

4、若A为典型样本,计算聚类中心,表达式如下:
[0014][0015]其中A为典型样本中数据量,根据C遍历整个数据集,将的数据归到A中,否则就判断下一个数据,此时即得到以C为聚类中心的数据组成的一类,然后将其中的重复数据删除,得到新的一类Cluster,将Cluster从数据集中删除,使Cluster中的数据不得参与下一次分类,从而降低运行时间;
[0016]S2

5、重复步骤S2

2至S2

4得到剩下的ρ

1个聚类成员;
[0017]S3、通过Co

association矩阵进行聚类融合;
[0018]S4、特征选择算法对电气特征进行聚类,并选择出关键特征。
[0019]作为优选,所述步骤S1中将高维的电力数据组成的数据集X
jt
={T
1t
,T
2t
,

,T
nt
}转换为X
ij
={T
i1
,T
i2
,

,T
in
}的形式,其中,X
jt
是表示第j个区域t时刻的一个高维数据,其中T
nt
表示t时刻的第n个电气特征值,其中X
ij
表示第j个区域第i个特征的一个数据,T
in
表示第n个时刻的第i个电气特征的值。
[0020]作为优选,所述步骤S1中数据集的转换方法为:
[0021]S1

1、统一数据集维度,删除与数据集中大多数样本维度不一致的样本;
[0022]S1

2、对数据集中剩余的数据样本进行观察,若所有样本中均是某些特征存在数值上的重复,则只保留其中的一个特征;
[0023]S1

3、对数据集进行归一化处理。
[0024]作为优选,所述步骤S3中,Co

association矩阵CM的定义为:
[0025][0026]其中,K表示聚类成员的个数,V表示基簇中的数据的个数,CC
kv
表示在第k个类中的第v个基簇,其中δ(i,j,CC
kv
)函数的定义如下:
[0027][0028]作为优选,所述步骤S3中聚类融合的方法如下:
[0029]S3

1、通过Co

association矩阵计算CM值;
[0030]S3

2、若CM的值大于0.5,则将这一基簇的数据记为聚类融合后新一类中的数据成员,所有的基簇通过CM值的判定后,即可形成新的一类C1;
[0031]S3

3、将C1中的数据经过处理,删除重复的数据,即可得到有效的一类C2;
[0032]S3

4、计算其聚类中心,遍历整个数据集,并实时更新聚类中心,得到最终聚类的第一类C3,然后将C3从数据集中删除,使得C3中的数据不参与下一次的聚类;
[0033]S3

5、重复上述部分优先聚类和聚类融合的步骤。
[0034]作为优选,所述步骤S4的具体方法如下:
[0035]S4

1、数据经过S2和S3处理后,即可得到最终的聚类结果,选择数据量满足设定条件的类;
[0036]S4

2、将选择后类中的数据与电气特征进行匹配,统计每一个类中每一个特征的数据量;
[0037]S4

3、通过计算每一个电气特征的平均数据量占比,根据占比情况将电气特征进行分类,分类后从每一类中挑选出一个电气特征组成最终的关键特征。
[0038]作为优选,所述步本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改进聚类算法的电力系统运行关键特征选择方法,其特征在于,包括如下步骤:S1、将高维的电力数据组成的数据集处理成由每一个电气特征组成的数据集;S2、通过部分优先聚类算法产生聚类成员S2

1、参数初始化:根据数据集的大小,选择聚类成员个数ρ;设定距离参数r,判断典型样本A的最大迭代次数cs,以及样本点α邻域内最小个数μ;S2

2、从数据集中随机选取一个样本A,然后从A中再随机选取一个样本点α;S2

3、3、为样本点α的均值,N为样本点数据的个数;数据X
i
的均值为的均值为若则判定X
i
在样本点α的邻域内,统计α邻域内的数据量Num,若Num>μ时,则判定A为典型样本,否则,则重复步骤S2

2,但是如果超过最大判断次数cs,则结束算法;S2

4、若A为典型样本,计算聚类中心,表达式如下:其中|A|为典型样本中数据量,根据C遍历整个数据集,将的数据归到A中,否则就判断下一个数据,此时即得到以C为聚类中心的数据组成的一类,然后将其中的重复数据删除,得到新的一类Cluster,将Cluster从数据集中删除,使Cluster中的数据不得参与下一次分类,从而降低运行时间;S2

5、重复步骤S2

2至S2

4得到剩下的ρ

1个聚类成员;S3、通过Co

association矩阵进行聚类融合;S4、特征选择算法对电气特征进行聚类,并选择出关键特征。2.根据权利要求1所述的基于改进聚类算法的电力系统运行关键特征选择方法,其特征在于,所述步骤S1中将高维的电力数据组成的数据集X
jt
={T
1t
,T
2t
,

,T
nt
}转换为X
ij
={T
i1
,T
i2
,

,T
in
}的形式,其中,X
jt
是表示第j个区域t时刻的一个高维数据,其中T
nt
表示t时刻的第n个电气特征值,其中X
ij
表示第j个区域第i个特征的一个数据,T
in
表示第n个时刻的第i个电气特征的值。3...

【专利技术属性】
技术研发人员:左一帆涂海程夏永祥刘春山
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1