当前位置: 首页 > 专利查询>重庆大学专利>正文

一种基于特征指标降维的分布式双层聚类分析方法技术

技术编号:23051083 阅读:97 留言:0更新日期:2020-01-07 14:56
本发明专利技术涉及一种基于特征指标降维的分布式双层聚类分析方法,属于电力系统用户响应聚类算法领域,包括以下步骤:S1:收集智能电表数据并传输到最近的局部站点,将大量负荷曲线按照所属站点分解为若干个规模较小、相互独立的子数据,对于本身负荷曲线较多的站点,可以进行进一步划分;S2:对分解到各站点的负荷数据进行数据降维,并采用复杂度较低的聚类算法进行一次聚类,对区域内不同客户进行聚类,得到聚类结果;S3:将从不同局部站点获得的聚类结果(仅上传聚类中心,而无需上传全部数据),转发给全局数据中心进行二次聚类,并获得最终的聚类结果;S4:全局数据中心将全局聚类结果反馈给每个本地站点,并进行用户用电行为分析。

A distributed bi level clustering analysis method based on feature index dimension reduction

【技术实现步骤摘要】
一种基于特征指标降维的分布式双层聚类分析方法
本专利技术属于电力系统用户响应聚类算法领域,涉及通过设计分布式双层聚类框架及改进相应算法快速精准实现用户响应聚类。
技术介绍
随着科学技术的进步和电网信息化水平的提高,用户侧积累了大量用电数据。挖掘海量数据隐含的宝贵信息,有利于电网公司了解用户用电习惯,有针对性地提供服务,提高能源利用效率。然而由于电力系统数据量庞大,冗余特征增多,计算效率大幅度降低。对电力负荷大数据聚类的研究尚在起步阶段,未有统一标准。现阶段主要采取分布式运算解决大数据处理问题,如利用云端分布式计算平台将数据集分解为任务包进行聚类,该类大数据框架有hadoop、spark、storm等。而分治法的基本思路是在局部聚类中提取准确的特征能快速上传聚类中心,全局应用高质量的聚类算法对局部的“代表”进一步聚类,常用的典型聚类算法包括Kmeans-Kmeans、AP-AP、Kmeans-CFSFDP(ClusteringbyFastSearchandFindofDensityPeaks)等。该方法在进行局部聚类之后,仅将结果送到全局进行二次聚类,不需要上传整个数据。与分布式运算相比,分治法能够解决并行聚类需要把数据传送到一个中心进行处理的难题,为处理电力大数据提供了新的思路。然而,现有分治法框架或是不能实现完全自适应,或是不适用于电力负荷大数据聚类,对电力数据分治法框架的搭建需要进一步完善。
技术实现思路
有鉴于此,本专利技术的目的在于提高用户响应聚类的高效性与准确性,实现对用户行为的有效分析,提供一种基于特征指标降维的分布式双层聚类分析方法。为达到上述目的,本专利技术提供如下技术方案:一种基于特征指标降维的分布式双层聚类分析方法,包括以下步骤:S1:收集智能电表数据并传输到最近的局部站点,将大量负荷曲线按照所属站点分解为若干个规模较小、相互独立的子数据,对于本身负荷曲线较多的站点,可以进行进一步划分;S2:对分解到各站点的负荷数据进行数据降维,并采用复杂度较低的聚类算法进行一次聚类,即局部聚类,对区域内不同客户进行聚类,得到聚类结果;S3:将从不同局部站点获得的聚类结果(仅上传聚类中心,而无需上传全部数据),转发给全局数据中心进行二次聚类,并获得最终的聚类结果;S4:全局数据中心将全局聚类结果反馈给每个本地站点,并进行用户用电行为分析。进一步,步骤S2中,通过提取负荷曲线的时域特征和频域特征指标对数据进行降维处理,进而采用自适应kmeans聚类算法实现局部聚类。更进一步,采用的时域特征指标包括五个典型负荷特性指标,即峰时耗电率、谷电系数、平段用电百分比、日负荷率和日平均负荷,分别从不同时段、用电水平和变动情况等方面全面表征负荷曲线,其中:峰时耗电率用于衡量用户在高峰时段的用电倾向,谷电系数用于衡量用户在低谷时段的用电倾向,平段用电百分比用于衡量用户在平峰时段的用电倾向,日负荷率用于衡量在规定时间内负荷变动情况,以及考核电气设备的利用程度,日平均负荷用于衡量在规定时间内负荷的平均水平,其中,Lp为高峰时段用电量,Lv为谷用电量,Lf为平段用电量,Lz为总用电量,Pav为日平均负荷,Pmax为日最大负荷;为避免负荷特性指标设置的主观性,采用熵权法评价各特性指标对聚类结果的贡献,客观确定负荷特性的指标权重。其基本思路是根据指标变异性的大小来确定客观权重,通过评价各负荷特性指标对聚类的区分度大小,从而确定各指标的权重;评价规则如下:1)根据经验或者专家打分对负荷特性指标设定初始权重λ=[λ1λ2...λz],z为负荷曲线特征指标总数;2)在每次生成新的聚类中心后,利用下式评价函数计算第i个特征指标对聚类中心的贡献度:vij=λi(Xrandij-Cij)2,j=1,2,...,c(1)其中,c为聚类中心数,Cij是第j个聚类中心的第i个负荷特性指标值,Xrandij代表在第j类中随机选择的负荷曲线对应的第i个负荷特性指标值,由于贡献度采用距离衡量,因此所述贡献度越小越好,所述贡献度形成的矩阵,即为针对c个评价对象的z个评价指标值的指标矩阵V=(vij)c×z;3)通过式(2)-(4)计算第i个指标的客观权重,实现客观赋权:对于权重有0≤λi′≤1,且另外还引入两个能够对负荷曲线进行有效降维的频域指标,频率-幅度对和谐波畸变程度;频率-幅度对是指将典型日负荷曲线经过快速傅里叶变换FFT变换后得到的第i个频率和对应幅值视为一组特征[fi,ci],根据幅值对“频率-幅度对”进行排序,得到经过排序后的“频率-幅度对”特征集为Ff=[{f1,c1},{f2,c2},...,{fn,cn}];取前n个“频率-幅度对”作为频域特征,进行聚类分析;谐波畸变程度是参考总谐波畸变率的定义并能够反映负荷曲线的最简特征集,其定义式如式(5):其中,cm为前n个幅值的平均值。更进一步,在对负荷曲线数据进行特征指标降维后采用自适应Kmeans算法对其进行局部聚类,算法原理是:首先随机选取c个中心作为初始聚类中心,再遍历所有数据,将每条数据划分到最近的中心中,然后计算每个聚类的平均值,并作为新的中心点,直至聚类中心不再变化(收敛),或达到最大迭代次数;自适应Kmeans聚类算法流程如下:S21:输入负荷曲线d、初始权重μi0=[μ10μ20…μl0]以及聚类数范围[cmin,cmax];S22:计算特征指标;S23:令c=cmin;S24:i=1;S25:执行Kmeans算法;S26:判断是否存在以下情况:聚类中心不变或i>imax;若否,使i=i+1,返回步骤S25重新执行Kmeans算法;若是,则执行步骤S27;S27:利用熵权法计算新特征权重μ′i=[μ′1μ′2…μ′n];S28:计算SSE指标;S29:判断SSE是否满足阈值,若是,输出最佳聚类数c下的聚类结果,结束算法;若否,执行步骤S210;S210:判断c是否大于cmax,若是,输出最佳聚类数c下的聚类结果,结束算法;若否,令c=c+1,返回步骤S24。更进一步,由于在聚类前进行了特征提取,因此改进距离公式如下:其中,Ft和Fk′分别为时域特征集和频域特征集,Cj和Cj′为聚类中心对应的特征集;λk为特征指标权重;同时,对于Kmeans算法,SSE指标随聚类中心数的增加而收敛,因此,将SSE指标作为Kmeans算法的收敛准则,计算公式如下:SSE=∑(x-Cj)2(7)且聚类数c的取值在区间[cmin,cmax]里,cmin,cmax是根据决策者的意愿或负荷曲线的特征而定;设置阈值为SSE值达到拐点或变化较小,如式(8)所示,当满足该条件时视为此时得到最佳聚类数目:SSE-SSEnew<ε(8)其中精度ε的取值取决于决策者的意愿或聚类的要求。进一步,步骤S本文档来自技高网...

【技术保护点】
1.一种基于特征指标降维的分布式双层聚类分析方法,其特征在于:包括以下步骤:/nS1:收集智能电表数据并传输到最近的局部站点,将大量负荷曲线按照所属站点分解为若干个规模较小、相互独立的子数据,对于本身负荷曲线较多的站点,可以进行进一步划分;/nS2:对分解到各站点的负荷数据进行数据降维,并采用复杂度较低的聚类算法进行一次聚类,即局部聚类,对区域内不同客户进行聚类,得到聚类结果;/nS3:将从不同局部站点获得的聚类结果,转发给全局数据中心进行二次聚类,并获得最终的聚类结果,其中转发的数据仅为聚类中心,而无需上传全部数据;/nS4:全局数据中心将全局聚类结果反馈给每个本地站点,并进行用户用电行为分析。/n

【技术特征摘要】
1.一种基于特征指标降维的分布式双层聚类分析方法,其特征在于:包括以下步骤:
S1:收集智能电表数据并传输到最近的局部站点,将大量负荷曲线按照所属站点分解为若干个规模较小、相互独立的子数据,对于本身负荷曲线较多的站点,可以进行进一步划分;
S2:对分解到各站点的负荷数据进行数据降维,并采用复杂度较低的聚类算法进行一次聚类,即局部聚类,对区域内不同客户进行聚类,得到聚类结果;
S3:将从不同局部站点获得的聚类结果,转发给全局数据中心进行二次聚类,并获得最终的聚类结果,其中转发的数据仅为聚类中心,而无需上传全部数据;
S4:全局数据中心将全局聚类结果反馈给每个本地站点,并进行用户用电行为分析。


2.根据权利要求1所述的基于特征指标降维的分布式双层聚类分析方法,其特征在于:步骤S2中,通过提取负荷曲线的时域特征和频域特征指标对数据进行降维处理,进而采用自适应kmeans聚类算法实现局部聚类。


3.根据权利要求2所述的基于特征指标降维的分布式双层聚类分析方法,其特征在于:采用的时域特征指标包括五个典型负荷特性指标,即峰时耗电率、谷电系数、平段用电百分比、日负荷率和日平均负荷,分别从不同时段、用电水平和变动情况等方面全面表征负荷曲线,其中:
峰时耗电率用于衡量用户在高峰时段的用电倾向,谷电系数用于衡量用户在低谷时段的用电倾向,平段用电百分比用于衡量用户在平峰时段的用电倾向,日负荷率用于衡量在规定时间内负荷变动情况,以及考核电气设备的利用程度,日平均负荷用于衡量在规定时间内负荷的平均水平,其中,Lp为高峰时段用电量,Lv为谷用电量,Lf为平段用电量,Lz为总用电量,Pav为日平均负荷,Pmax为日最大负荷;
根据指标变异性的大小来确定客观权重,通过评价各负荷特性指标对聚类的区分度大小,从而确定各指标的权重;评价规则如下:
1)根据经验或者专家打分对负荷特性指标设定初始权重λ=[λ1λ2...λz],z为负荷曲线特征指标总数;
2)在每次生成新的聚类中心后,利用下式评价函数计算第i个特征指标对聚类中心的贡献度:
vij=λi(Xrandij-Cij)2,j=1,2,...,c(1)
其中,c为聚类中心数,Cij是第j个聚类中心的第i个负荷特性指标值,Xrandij代表在第j类中随机选择的负荷曲线对应的第i个负荷特性指标值,由于贡献度采用距离衡量,因此所述贡献度越小越好,所述贡献度形成的矩阵,即为针对c个评价对象的z个评价指标值的指标矩阵V=(vij)c×z;
3)通过式(2)-(4)计算第i个指标的客观权重,实现客观赋权:









对于权重有0≤λi′≤1,且
引入两个能够对负荷曲线进行有效降维的频域指标,频率-幅度对和谐波畸变程度;频率-幅度对是指将典型日负荷曲线经过快速傅里叶变换FFT变换后得到的第i个频率和对应幅值视为一组特征[fi,ci],根据幅值对“频率-幅度对”进行排序,得到经过排序后的“频率-幅度对”特征集为Ff=[{f1,c1},{f2,c2},...,{fn,cn}];取前n个“频率-幅度对”作为频域特征,进行聚类分析;谐波畸变程度是参考总谐波畸变率的定义并能够反映负荷曲线的最简特征集,其定义式如式(5):



其中,cm为前n个幅值的平均值。


4.根据权利要求3所述的基于特征指标降维的分布式双层聚类分析方法,其特征在于:在对负荷曲线数据进行特征指标降维后采用自适应Kmeans算法对其进行局部聚类,算法原理是:首先随机选取c个中心作为初始聚类中心,再遍历所有数据,将每条数据划分到最近的中心中,然后计算每个聚类的平均值,并作为新的中心点,直至聚类中心不再变化,或达到最大迭代次数;自适应Kmeans聚类算法流程如下:
S21:输入负荷曲线d、初始权重μi0=[μ10μ20…μl0]以及聚类数范围[cmin,cmax];
S22:计算特征指标;
S23:令c=cmin;
S24:i=1;
S25:执行Kmeans算法;
S26:判断是否存在以下情况:聚类中心不变或i>imax;若否,使i=i+1,返回步骤S25重新执行Kmeans算法;若是,则执行步骤S27;
S27:利用熵权法计算新特征权重μ′i=[μ′1μ′2…μ′n];
S28:计算SSE指标;
S29:判断SSE是否满足阈值,...

【专利技术属性】
技术研发人员:李春燕谢开贵胡博牛涛张谦王鑫蔡文悦
申请(专利权)人:重庆大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1