一种基于共享近邻与吸引度的密度峰值聚类的用户用电行为分析方法技术

技术编号:33283081 阅读:9 留言:0更新日期:2022-04-30 23:44
本发明专利技术公开了一种基于共享近邻与吸引度的密度峰值聚类的用户用电行为分析方法,对用户的用电负荷数据进行预处理,对缺失数据进行插补,剔除无效数据;采用PCA技术对负荷数据进行降维,计算特征矩阵,提取其主成分;以降维后的数据作为输入,利用DPC

【技术实现步骤摘要】
一种基于共享近邻与吸引度的密度峰值聚类的用户用电行为分析方法


[0001]本专利技术属于电力数据检测领域,具体涉及一种基于共享近邻与吸引度的密度峰值聚类的用户用电行为分析方法。

技术介绍

[0002]近年来,随着智能电网的建设与发展,电力系统各环节安装和部署了众多的数据采集传感器,获取了大量的电力数据。这些数据随着采集和监控范围的不断扩大、监测指标的不断增加而呈指数量级的增长态势,是电力大数据的主要来源。如何挖掘电力大数据中的有效信息和隐含规律,并将其运用到实践指导中,对智能电网的管理运营和电力用户的可持续发展均具有深远意义。
[0003]目前,电力大数据在电力负荷预测、电力异常值检测和用电行为分析等方面有着广泛应用。电力负荷预测是指根据系统运行特性、负荷的历史数据及其他影响因子,在一定预测精度的要求下,以未来气象、经济等因素的发展趋势为依据,估计和推测未来某一时刻的电力负荷。电力异常值检测是根据用户历史用电数据挖掘出的用电规律,通过数据相似性比较,寻找出异常的用电行为。作为电力负荷预测和电力异常值检测的基础,用电行为分析是对用户用电负荷曲线所反映的信息进行分析,挖掘出用户用电行为特征,为智能电网的规划运行、电力设备的检修以及用户服务的优化等提供多方面支持。本文以用户的日负荷数据作为其用电行为特征的研究和分析对象。
[0004]用户用电行为分析的相关研究中,很多学者通过聚类算法对用户的用电特征进行提取。用电行为分析中常用的聚类算法主要包括K

means等基于划分的聚类、 Chameleon等基于层次的聚类、GMM等基于模型的聚类和DBSCAN等基于密度的聚类。然而,这些聚类算法存在初始参数敏感、噪声鲁棒性差、聚类精度不佳等缺陷。
[0005]Alex Rodriguez和Alessandro Laio于2014年在Science发表了快速搜索和寻找密度峰值的聚类(Clustering by fast search and find of density peaks)算法,简称密度峰值聚类(Density Peaks Clustering,DPC)算法。该算法基于两点假设:类簇中密度较高的样本分布在类簇中心附近;不同类簇中心之间的距离相对较远。基于上述两个假设条件,DPC算法只需要预先设定一个参数,便能寻找到类簇中心,快速完成样本分配。然而,DPC算法在聚类过程中存在如下缺陷:局部密度的定义依赖于截断距离阈值的选取,且阈值的选取对局部密度较敏感; DPC算法的分配策略易导致样本分配错误。

技术实现思路

[0006]本专利技术的目的在于提供一种基于共享近邻与吸引度的密度峰值聚类的用户用电行为分析方法,可以针对用电负荷数据的高维度、含噪声和多冗余等特点,引入主成分分析PCA)方法对数据进行降维;对降维后的数据采用DPC

SNA 算法进行聚类,得到用户用电负荷曲线聚类结果;最后,对用电负荷曲线结果进行分析,归纳出5种典型的用电行为特征,从
而对不同用户用电行为特征给出了合理的智能电网规划建议。
[0007]为实现上述目的,本专利技术采取的技术方案为:一种基于共享近邻与吸引度的密度峰值聚类的用户用电行为分析方法,步骤如下:
[0008]步骤1:对用户的用电负荷数据进行预处理,对缺失数据进行插补,剔除无效数据;
[0009]步骤2:采用PCA技术对负荷数据进行降维,计算特征矩阵,提取其主成分;
[0010]步骤3:以降维后的数据作为输入,利用DPC

SNA算法的共享近邻的局部密度和吸引度的分配策略进行聚类;
[0011]步骤4:对聚类结果进行分析,重构用户的用电负荷曲线,并进行用户用电行为分析。
[0012]进一步的,步骤3中DPC

SNA算法的流程如下:
[0013](1)输入降维后的数据集data,样本近邻个数K。
[0014](2)将数据归一化处理;
[0015](3)计算样本间的欧氏距离d
ij

[0016](4)以共享近邻的局部密度的方式,将样本X
i
的共享近邻相似度S(i,j)累加,得到样本X
i
的局部密度ρ
i
值,依据局部密度ρ
i
,取局部密度大于样本i的ρ
i
且距其最近点的距离,作为样本X
i
的相对距离δ
i
;再将全体样本的密度降序排列后,把密度最高样本的相对距离设定为最大值,即样本的δ
i
值;
[0017](5)计算出所有样本的ρ
i
和δ
i
值后,以ρ
i
作为横坐标,δ
i
作为纵坐标,建立决策图,选取ρ
i
和δ
i
都较大的点作为密度峰值即类簇中心或者通过γ
i
选取密度峰值;
[0018](6)将样本视作质点,数据集内的样本间均具有吸引力将样本间的共享近邻相似度引入样本的吸引度计算,得到样本的吸引度矩阵;
[0019](7)在吸引度矩阵中找到与已分配样本吸引度最大的核心样本,将其分配给已分配样本所在类簇;
[0020](8)当所有已分配样本与未分配样本吸引度达到零时,转至步骤(9),否则,转至步骤(7)再次寻找吸引度最大的样本,继续进行分配;
[0021](9)剩余样本使用DPC算法的分配策略进行分配;
[0022](10)输出最终聚类结果。
[0023]进一步的,ρ
i
的计算公式为式中S(i,j)为样本X
i
的共享近邻相似度,样本X
i
的共享近邻相似度越大,表示有越多的样本围绕在X
i
附近,即 X
i
的局部密度越高。
[0024]进一步的,S(i,j)共享近邻相似度计算方法为,将样本i的K个最近样本组成集合KNN(i),样本j的K个最近样本组成集合KNN(j),KNN(i)与KNN(j)的交集为样本i与样本j的共享近邻SNN(i,j);再根据样本i的K近邻集合KNN(i)分布特征与样本j的K近邻集合KNN(j)分布特征,对样本i与样本j的共享近邻 SNN(i,j)进行加权,得到样本i与样本j的共享近邻相似度S(i,j)。
[0025]进一步的,数据集中每一个样本的共享近邻SNN(i,j)的计算公式为 SNN(i,j)=KNN(i)∩KNN(j);共享近邻相似度S(i,j)的计算公式为
式中表征样本i 的K近邻样本对样本j的隶属度,表征样本j的K近邻样本对样本i 的隶属度,将两隶属度之和为权值对共享近邻SNN(i,j)进行加权,得到两样本的共享近邻相似度。
[0026]进一步的,步骤4中用户用电行为分析根据每日用电时间节点和淡旺季进行归纳分类,根据不同类型用户的用电负荷曲线峰值建议分配配电额。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于共享近邻与吸引度的密度峰值聚类的用户用电行为分析方法,其特征是,步骤如下:步骤1:对用户的用电负荷数据进行预处理,对缺失数据进行插补,剔除无效数据;步骤2:采用PCA技术对负荷数据进行降维,计算特征矩阵,提取其主成分;步骤3:以降维后的数据作为输入,利用DPC

SNA算法的共享近邻的局部密度和吸引度的分配策略进行聚类;步骤4:对聚类结果进行分析,重构用户的用电负荷曲线,并进行用户用电行为分析。2.根据权利要求1所述的一种基于共享近邻与吸引度的密度峰值聚类的用户用电行为分析方法,其特征是:步骤3中DPC

SNA算法的流程如下:(1)输入降维后的数据集data,样本近邻个数K;(2)将数据归一化处理;(3)计算样本间的欧氏距离d
ij
;(4)以共享近邻的局部密度的方式,将样本X
i
的共享近邻相似度S(i,j)累加,得到样本X
i
的局部密度ρ
i
值,依据局部密度ρ
i
,取局部密度大于样本i的ρ
i
且距其最近点的距离,作为样本X
i
的相对距离δ
i
;再将全体样本的密度降序排列后,把密度最高样本的相对距离设定为最大值,即样本的δ
i
值;(5)计算出所有样本的ρ
i
和δ
i
值后,以ρ
i
作为横坐标,δ
i
作为纵坐标,建立决策图,选取ρ
i
和δ
i
都较大的点作为密度峰值即类簇中心或者通过γ
i
选取密度峰值;(6)将样本视作质点,数据集内的样本间均具有吸引力将样本间的共享近邻相似度引入样本的吸引度计算,得到样本的吸引度矩阵;(7)在吸引度矩阵中找到与已分配样本吸引度最大的核心样本,将其分配给已分配样本所在类簇;(8)当所有已分配样本与未分配样本吸引度达到零时,转至步骤(9),否则,转至步骤(7)再次寻找...

【专利技术属性】
技术研发人员:李卿鹏杨琴李勇平陈真王煜晗刘宝宏王刚傅丽丽
申请(专利权)人:国家电网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1