一种基于最大相关最小冗余判据的用户用电特征选择方法技术

技术编号:26172851 阅读:24 留言:0更新日期:2020-10-31 13:52
本发明专利技术公开了一种基于最大相关最小冗余判据的电力用户用电特征选择方法,包括以下步骤:将智能量测终端采集的用户用电数据进行预处理,包括缺失数据与失真数据的填补与剔除;给出聚类类别数k值的选取方法,通过构造聚合回报指标,兼具集聚度与分离度,得到最优k值并完成聚类;给出综合考虑特征的有效性与精简性的特征选取方法,采用最大相关最小冗余准则为判据,通过遍历法求解得到最优特征集。相比现有技术,本发明专利技术的方法可为优选出兼顾有效性与精简性的最优特征集,面对大数据环境下用电数据快速增长的情况,所选取的优质用电特征集,不仅能大大减少分析时所需计算的数据,降低计算量,同时能有效地提高分析性能。

【技术实现步骤摘要】
一种基于最大相关最小冗余判据的用户用电特征选择方法
本专利技术涉及电力用户用电特性研究领域,具体涉及一种基于最大相关最小冗余判据的电力用户用电特征选择方法,适用于已投用智能量测终端的电网。
技术介绍
近年来,新能源高比例接入电力系统,由于风、光的资源特性,新能源出力存在随机性和波动性,因此增加了系统调节的负担。负荷资源调度是应对新能源波动性的重要手段,挖掘用户的用电特性是评估负荷可调控性的基础。此外,电力市场运行机制的精细化发展也依赖于对负荷信息的掌控。目前用户用电特性研究中缺乏对用电特征选取的研究,而选取优质的特征集,一方面可以快速有效地实现样本分类,另一方面可以降低用电行为分析的计算复杂度,对于用户用电行为分析、用电量预测、需求响应策略制定等具有参考意义。与此同时,电网的智能化与自动化发展在不断推进,用电智能化是其中的关键环节。在智能用电领域,智能量测终端的大量投用,使得用户数据得以实时采集,为深度了解用户用电信息提供了有力支撑。挖掘这些数据中的相似性与关联性有助于电网公司掌握用户用电习惯与行为特性,从而针对用户用电特点,为用户制定个性化服务。在各类用户中,居民用户用电具有个体小但总量大的特点。根据长尾效应可知集聚大量居民用户可以具备规模化的调控潜力。因此研究居民用户用电行为特性对评估整体负荷可调动性具有重要意义。目前,基于数据驱动的居民用户用电行为分析的研究主要有两类:一类是针对电力用户负荷模型构建以及需求响应技术的研究;另一类是通过数据挖掘的手段开展用户用电模式分类、异常行为的辨识与应对措施等的研究。文献一《基于差量特征提取与模糊聚类的非侵入式负荷监测方法》(电力系统自动化,2017,第41卷第4期第86页)采用差量特征提取方法提取特征值,基于模糊聚类算法完成电器负荷数量与种类的识别,能够有效识别低功率电器,满足精细化智能用电的需求。但该方法着眼于电器级负荷类别的识别,没有涉及对用户整体用电情况的研究。文献二《分时电价下用户响应行为的模型与算法》(电网技术,2013,第37卷第10期第2973页)提出了一种电力用户需求响应行为的模型与算法,通过寻求用户每天峰、平、谷时段电价比率及总负荷量与用户用电安排的映射关系,描述需求响应机制中用户的用电规律,未涉及对居民用电模式的分类分析。文献三《基于云计算的居民用电行为分析模型研究》(电网技术,2013,第37卷第6期第1542页)基于云计算平台和并行k-means聚类算法,以峰时耗电率、负荷率等时间序列为特征量,实现居民用户分类,但未对特征的选取做出具体分析。文献四《基于云计算和改进K-means算法的海量用电数据分析方法》(计算机应用,2018,第38卷第1期第159页)通过最大权值积法确定聚类中心,提高了聚类的准确率,基于MapReduce模型实现算法并行化,提高了聚类的效率,聚类所选的特征量依然通过经验确定,采用的是文献三中的特征量。目前关于用电特征的选取的研究较少,特征的选取多为经验所得,所选特征的有效性与精简性并未得到系统的验证,因此本专利技术提出了一种综合计及特征自身有效性与特征间冗余性的特征选取方法,首先采用簇内集聚度、类间离散度、样本集密度为参考指标,分析k值的选取以及初始聚类中心的选择,对传统k-means算法做出改进,继而结合聚类结果,统计全体特征集,最后基于最大相关最小冗余判据(maximalrelevanceandminimalredundancy,mRMR)采用遍历法提取兼顾精简性与有效性的优质特征集。
技术实现思路
专利技术目的:基于最大相关最小冗余判据实现居民用户的用电特征选取,有效实现居民用户样本的快速分类和用户用电优质特征的准确提取,降低用电行为分析的计算复杂度,从而为用户用电行为分析、用电量预测、需求响应策略制定等提供参考价值。技术方案:为实现上述专利技术目的,本专利技术采用的技术方案为一种含基于最大相关最小冗余判据判据的居民用户用电特征选择方法,包括以下步骤:步骤A、对负荷数据进行预处理,预处理主要包括缺失数据与失真数据的填补与剔除以及用电数据归一化处理;步骤B、综合计算预处理后的负荷数据的簇内集聚度、类间离散度,构造聚合回报指标,选取合适k值,并在此基础上完成k-means聚类;步骤C、结合有效性与冗余性指标,基于最大相关最小冗余判据,采用遍历法提取优质用电特征集。进一步地,步骤A所述对负荷数据进行预处理,预处理主要包括缺失数据与失真数据的填补与剔除以及用电数据归一化处理,具体按照以下方法:步骤A1、滤除样本集中的不合理数据,包括有部分缺失、数据过大以及日用电均为零的用户数据;步骤A2、将滤除后得到的样本数据进行归一化处理,其表达式如下:式中:xmtn为第m个用户第t时刻的归一化值;xmt为第m个用户第t时刻的用电量;xmmin和xmmax分别为第m个用户日用电的最大值和最小值。进一步地,步骤B所述综合计算簇内集聚度、类间离散度,构造聚合回报指标,选取合适k值,并在此基础上完成k-means聚类,具体按照以下方法:步骤B1、误差平方和(sumofsquarederror,SSE)的定义如下:式中,Ci为第i个类别;x为Ci中的样本点;mi为Ci的质心,即所有样本的均值;当k值小于最佳聚类数时,k值的增加会大幅增加每个簇的集聚程度,故SSE值的下降幅度会陡增,而当k值达到最佳聚类数时,再增加k值所得到的集聚程度回报会迅速变小,SSE值下降幅度会骤减;步骤B2、为量化集聚程度回报大小,定义误差降低系数βSSE为:步骤B3、针对样本点xi,假设其被聚类到簇A,则其轮廓系数如下:式中,a(xi)为样本xi到簇A其他样本点的平均欧式距离;对于簇B而言,令:D(xi,B)为样本xi与簇B中所有样本的平均欧氏距离,则即为样本xi到其他簇的平均距离的最小值;求出所有样本的轮廓系数后取平均值即可得到样本集的平均轮廓系数:式中,为平均轮廓系数;C为总样本集;n为总样本数;步骤B4、误差降低系数反映的是簇内集聚度,平均轮廓系数则体现了簇间分离度,因此,综合两个系数定义了聚合回报指标Re:给定一个最大聚类数kmax,取[2,kmax]的范围内每个整数作为聚类数,分别进行一次聚类,当聚合回报指标值最大时,聚类结果最优,通过定义聚合回报指标,实现最佳聚类数k值的自动确定;确定最佳k值后,采用k-means算法对样本进行聚类分析。进一步地,步骤C所述结合有效性与冗余性指标,基于最大相关最小冗余判据,采用遍历法提取优质用电特征集的步骤中,具体按照以下方法:步骤C1、构建初始特征集;采用源于用电曲线的用电特征来表征用户用电行为;用电特征分为两大类:一类是直观描述型,包括日用电量,日最大负荷、日最小负荷、日平均负荷,日峰谷差;另一类是比值描述型,包括谷电系数,日负荷率、日峰谷差率,峰时耗电率,平时段用电百分比;原始特征集由上述两类特征组合构成,本文档来自技高网
...

【技术保护点】
1.一种基于最大相关最小冗余判据的电力用户用电特征选择方法,其包括以下步骤:/n步骤A、对负荷数据进行预处理,预处理主要包括缺失数据与失真数据的填补与剔除以及用电数据归一化处理;/n步骤B、综合计算预处理后的负荷数据的簇内集聚度、类间离散度,构造聚合回报指标,选取合适k值,并在此基础上完成k-means聚类;/n步骤C、结合有效性与冗余性指标,基于最大相关最小冗余判据,采用遍历法提取优质用电特征集。/n

【技术特征摘要】
1.一种基于最大相关最小冗余判据的电力用户用电特征选择方法,其包括以下步骤:
步骤A、对负荷数据进行预处理,预处理主要包括缺失数据与失真数据的填补与剔除以及用电数据归一化处理;
步骤B、综合计算预处理后的负荷数据的簇内集聚度、类间离散度,构造聚合回报指标,选取合适k值,并在此基础上完成k-means聚类;
步骤C、结合有效性与冗余性指标,基于最大相关最小冗余判据,采用遍历法提取优质用电特征集。


2.如权利要求1所述的基于最大相关最小冗余判据的电力用户用电特征选择方法,其特征在于,步骤A所述对负荷数据进行预处理,具体按照以下方法:
步骤A1、滤除样本集中的不合理数据,包括有部分缺失、数据过大以及日用电均为零的用户数据;
步骤A2、将滤除后得到的样本数据进行归一化处理,其表达式如下:



式中:xmtn为第m个用户第t时刻的归一化值;xmt为第m个用户第t时刻的用电量;xmmin和xmmax分别为第m个用户日用电的最大值和最小值。


3.如权利要求1所述的基于最大相关最小冗余判据的电力用户用电特征选择方法,其特征在于,步骤B所述综合计算簇内集聚度、类间离散度,构造聚合回报指标,选取合适k值,并在此基础上完成k-means聚类,具体按照以下方法:
步骤B1、误差平方和(sumofsquarederror,SSE)的定义如下:



式中,Ci为第i个类别;x为Ci中的样本点;mi为Ci的质心,即所有样本的均值;
当k值小于最佳聚类数时,k值的增加会大幅增加每个簇的集聚程度,故SSE值的下降幅度会陡增,而当k值达到最佳聚类数时,再增加k值所得到的集聚程度回报会迅速变小,SSE值下降幅度会骤减;
步骤B2、为量化集聚程度回报大小,定义误差降低系数βSSE为:



步骤B3、针对样本点xi,假设其被聚类到簇A,则其轮廓系数如下:



式中,a(xi)为样本xi到簇A其他样本点的平均欧式距离;对于簇B而言,令:D(xi,B)为样本xi与簇B中所有样本的平均欧氏距离,则即为样本xi到其他簇的平均距离的最小值;
求出所有样本的轮廓系数后取平均值即可得到样本集的平均轮廓系数:



式中,为平均轮廓系数;C为总样本集;n为总样本数;
步骤B4、误差降低系数反映的是簇内集聚度,平均轮廓系数则体现了簇间分离度,因此,综合两个系数定义了聚合回报指标Re:



给定一个最大聚类数kmax,取[2,kmax]的范围内每个整数作为聚类数,分别进行一次聚类,当聚合回报指标值最大时,聚类结果最优,通过定义聚合回报指标,实现最佳聚类数k值的自动确定;
确定最佳k值后,采用k-means算法对样本进行聚类分析。


4.如权利要求1所述的基于最大相关最小冗余判据的电力用户用电特征选择方法,其特征在于,步骤C所述结合有效性与冗余性指...

【专利技术属性】
技术研发人员:许洪强赵晋泉夏雪苏大威
申请(专利权)人:国家电网有限公司河海大学国网江苏省电力有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1