一种海量负荷曲线的分布式聚类方法技术

技术编号:13075204 阅读:36 留言:0更新日期:2016-03-30 10:49
本发明专利技术公开了一种海量负荷曲线的分布式聚类方法,其通过将受聚类区域内所有用户划分为M个用户子集,并对应每一个用户子集设置一个局部数据中心,用各个局部数据中心分别对各自处理得到的归一化日负荷曲线进行自适应局部聚类,以减少待分析的用电数据,再对应所述受聚类区域设置一个全局数据中心,并全局数据中心对接收到的所有局部典型曲线进行全局的聚类分析,从而使得每一个局部数据中心的每一条原始日负荷曲线能够归属到相应的全局聚类。本发明专利技术能够在确保预定聚类精度的情况下,有效提高体量大、分布广的海量日负荷曲线用电数据的聚类效率、减少数据处理时间、减少对计算内存的需求、降低数据的通讯开销和存储成本。

【技术实现步骤摘要】

本专利技术设及,属于电力行业的用电大数据处 理领域。
技术介绍
随着智能电表的普及,电力系统对用户的用电信息采集能力越来越强,有别于传 统的每月抄表,智能电表能够对用户的用电数据进行更高频率的采集与存储。每小时甚至 更细粒度的用电数据为分析用户用电行为提供了丰富的信息来源。对用户用电数据的挖 掘、有效识别用户用电模式在评估需求响应潜力、提高负荷预测精度、指导电价制定等方面 具有重要意义。 通过聚类分析,获取典型的负荷曲线,把纷繁复杂的负荷曲线根据各自的特点分 为不同的类别是用户用电行为分析的重要一步。然而,用户用电数据一方面随时间不断更 新,增长迅速,呈海量态势;另一方面,数据采集点分布在不同地区,具有极强的分散性。用 电数据的体量大、分布广等特性为传统的用电曲线聚类带来了极大的挑战,需要寻求适用 于海量的分布于不同地区的负荷曲线的高效聚类算法。 传统的负荷曲线聚类方法存在的不足之处至少体现在Ξ个方面:1)传统的聚类算 法需要对数据进行集中处理,提高了数据的通讯和存储成本;2)对所有的数据直接统一同 时处理会极大增加计算时间;3)大规模的运算也需要开辟较大的计算机内存。
技术实现思路
[000引本专利技术所要解决的技术问题是:提供,W解 决现有负荷曲线聚类方法效率低、处理时间长、耗费计算资源大、数据通讯和存储成本的问 题。 解决上述技术问题,本专利技术所采用的技术方案如下: -种海量负荷曲线的分布式聚类方法,包括: 步骤S1,将受聚类区域内所有用户划分为Μ个用户子集,并对应每一个用户子集设 置一个局部数据中屯、,用各个局部数据中屯、分别采集对应用户子集中每一个用户在预设天 数内的原始日负荷曲线,其中,Μ为大于1的正整数,每一个用户子集中至少包含一个用户, 每一条原始日负荷曲线包含的负荷采集点数量均为Τ; 步骤S2,用所述各个局部数据中屯、分别对各自采集到的每一条原始日负荷曲线进 行校验和归一化处理,得到归一化日负荷曲线; 步骤S3,在所有的所述局部数据中屯、设置相同的最小聚类数量Kmin、最大聚类数 量Kmax和聚类误差指标B,并用所述各个局部数据中屯、分别对各自处理得到的归一化日负 荷曲线进行自适应局部聚类,得到每一个局部数据中屯、的局部聚类和局部典型曲线,其中, 任意一个所述局部数据中屯、进行自适应局部聚类的步骤包括: 步骤S31,对该局部数据中屯、处理得到的所有归一化日负荷曲线进行k取值为Kmin 的k-means聚类分析,得到Kmin个聚类,并将该Kmin个聚类标记为未检验聚类; 步骤S32,对该局部数据中屯、的未检验聚类进行检验,判断其是否满足所述聚类误 差指标B,其中,判断步骤S31得到的第j个聚类是否满足所述聚类误差指标B即判断该第j个 聚类是否满足W下条件式(2)的约束:式中,j为正整数且非min,E康示第j聚类的总代表误差,N表示属于第j聚类 的归一化日负荷曲线的数量,巧为第j聚类的聚类中屯、的第t个负荷采集点,城.为属于第j 聚类的第i条归一化日负荷曲线的第t个负荷采集点,i为正整数且1含i含N,t为正整数且1 < t<T; 步骤S33,当步骤S32中对一个未检验聚类进行检验的判断结果为是时,将满足所 述聚类误差指标B的未检验聚类标记为已检验聚类; 当步骤S32中对一个未检验聚类进行检验的判断结果为否时,对该不满足所述聚 类误差指标B的未检验聚类进行k取值为2的k-means聚类分析,使得该不满足所述聚类误差 指标B的未检验聚类再次聚类划分为两个新的聚类并将该两个新的聚类标记为未检验聚 类; 步骤S34,重复步骤S32和步骤S33,直至该局部数据中屯、的所有未检验聚类均已标 记为已检验聚类或者该局部数据中屯、的包含未检验聚类和已检验聚类的聚类总数量达到 最大聚类数量Kmax,并将此时该局部数据中屯、的所有聚类均标记为该局部数据中屯、的局部 聚类,将局部聚类的聚类中屯、标记为局部典型曲线; 步骤S4,对应所述受聚类区域设置一个全局数据中屯、,用该全局数据中屯、接收所 述Μ个局部数据中屯、得到的局部典型曲线; 步骤S5,在所述全局数据中屯、设置全局聚类数量X,用该全局数据中屯、对接收到的 所有局部典型曲线进行k取值为X的k-means聚类分析,得到X个全局聚类; 步骤S6,根据所述局部典型曲线和全局聚类之间的聚类归属关系,用所述全局数 据中屯、分别向所述各个局部数据中屯、发送相应的聚类分配指令,使得每一个所述局部数据 中屯、能够根据接收到的聚类分配指令、所述归一化日负荷曲线和局部聚类之间聚类归属关 系W及所述原始日负荷曲线与归一化日负荷曲线之间的对应关系,将该局部数据中屯、的每 一条原始日负荷曲线归属到相应的全局聚类。 其中,所述步骤S2中,用所述各个局部数据中屯、分别对各自采集到的每一条原始 日负荷曲线进行校验和归一化处理的具体步骤包括:删除包含有空缺值负荷采集点的原始 日负荷曲线,并按W下公式(1)对每一条无空缺值负荷采集点的原始日负荷曲线进行归一 化处理: 式中,t为正整数且1 < t ^,Xt、Xmin、Xmax和X/分别为一条原始日负荷曲线中的第t 个负荷采集点、最小负荷采集点、最大负荷采集点和该条原始日负荷曲线所对应归一化日 负荷曲线的的第t个负荷采集点。 与现有技术相比,本专利技术具有W下有益效果: 本专利技术面对目前用电数据(原始日负荷曲线)采集量大、采集面广给传统聚类方法 带来的挑战,通过将受聚类区域内所有用户划分为Μ个用户子集,并对应每一个用户子集设 置一个局部数据中屯、,用各个局部数据中屯、分别对各自处理得到的归一化日负荷曲线进行 自适应局部聚类,W减少待分析的用电数据,再对应所述受聚类区域设置一个全局数据中 屯、,并全局数据中屯、对接收到的所有局部典型曲线进行全局的聚类分析,从而使得每一个 局部数据中屯、的每一条原始日负荷曲线能够归属到相应的全局聚类; 由于本专利技术将受聚类区域内所有用户在预设天数内的海量的原始日负荷曲线通 过Μ个局部数据中屯、和一个全局数据中屯、的计算和通信来实现它们的全局聚类,因此,本发 明能够在确保预定聚类精度的情况下,有效提高体量大、分布广的海量日负荷曲线用电数 据的聚类效率、减少数据处理时间、减少对计算内存的需求、降低数据的通讯开销和存储成 本。 另外,在实际应用过程中,本专利技术能够通过设定可容忍的聚类误差指标Β,灵活的 对实际需求中对聚类精度和聚类通讯、计算等成本进行权衡和取舍。 而本专利技术获取得到的典型用电曲线还能够为后期评估需求响应潜力、提高负荷预 测精度、指导电价制定等方面提供了重要的基础。【附图说明】 下面结合附图和具体实施例对本专利技术作进一步的详细说明: 图1为本专利技术的分布式聚类方法的流程框图;图2为本专利技术的分布式聚类方法的效果示意图; 图3为本专利技术中步骤S3的流程框图。【具体实施方式】 如图1至图3所示,本专利技术的海量负荷曲线的分布式聚类方法,包括: 步骤S1,将受聚类区域内所有用户划分为Μ个用户子集,并对应每一个用户子集设 置一个局部数据中屯、,用各个局部数据中屯、分别采集对应用户子集中每一个用户在预设天 数内的原始日负荷曲线,其中,Μ为大于1的正整数,每一个用户子集中至少包含一个用户, 每一条原始日负荷本文档来自技高网...

【技术保护点】
一种海量负荷曲线的分布式聚类方法,包括:步骤S1,将受聚类区域内所有用户划分为M个用户子集,并对应每一个用户子集设置一个局部数据中心,用各个局部数据中心分别采集对应用户子集中每一个用户在预设天数内的原始日负荷曲线,其中,M为大于1的正整数,每一个用户子集中至少包含一个用户,每一条原始日负荷曲线包含的负荷采集点数量均为T;步骤S2,用所述各个局部数据中心分别对各自采集到的每一条原始日负荷曲线进行校验和归一化处理,得到归一化日负荷曲线;步骤S3,在所有的所述局部数据中心设置相同的最小聚类数量Kmin、最大聚类数量Kmax和聚类误差指标B,并用所述各个局部数据中心分别对各自处理得到的归一化日负荷曲线进行自适应局部聚类,得到每一个局部数据中心的局部聚类和局部典型曲线,其中,任意一个所述局部数据中心进行自适应局部聚类的步骤包括:步骤S31,对该局部数据中心处理得到的所有归一化日负荷曲线进行k取值为Kmin的k‑means聚类分析,得到Kmin个聚类,并将该Kmin个聚类标记为未检验聚类;步骤S32,对该局部数据中心的未检验聚类进行检验,判断其是否满足所述聚类误差指标B,其中,判断步骤S31得到的第j个聚类是否满足所述聚类误差指标B即判断该第j个聚类是否满足以下条件式(2)的约束:Ej=Σt=1TΣi=1N(pjit-Cjt)2≤B---(2)]]>式中,j为正整数且1≤j≤Kmin,Ej表示第j聚类的总代表误差,N表示属于第j聚类的归一化日负荷曲线的数量,为第j聚类的聚类中心的第t个负荷采集点,为属于第j聚类的第i条归一化日负荷曲线的第t个负荷采集点,i为正整数且1≤i≤N,t为正整数且1≤t≤T;步骤S33,当步骤S32中对一个未检验聚类进行检验的判断结果为是时,将满足所述聚类误差指标B的未检验聚类标记为已检验聚类;当步骤S32中对一个未检验聚类进行检验的判断结果为否时,对该不满足所述聚类误差指标B的未检验聚类进行k取值为2的k‑means聚类分析,使得该不满足所述聚类误差指标B的未检验聚类再次聚类划分为两个新的聚类并将该两个新的聚类标记为未检验聚类;步骤S34,重复步骤S32和步骤S33,直至该局部数据中心的所有未检验聚类均已标记为已检验聚类或者该局部数据中心的包含未检验聚类和已检验聚类的聚类总数量达到最大聚类数量Kmax,并将此时该局部数据中心的所有聚类均标记为该局部数据中心的局部聚类,将局部聚类的聚类中心标记为局部典型曲线;步骤S4,对应所述受聚类区域设置一个全局数据中心,用该全局数据中心接收所述M个局部数据中心得到的局部典型曲线;步骤S5,在所述全局数据中心设置全局聚类数量X,用该全局数据中心对接收到的所有局部典型曲线进行k取值为X的k‑means聚类分析,得到X个全局聚类;步骤S6,根据所述局部典型曲线和全局聚类之间的聚类归属关系,用所述全局数据中心分别向所述各个局部数据中心发送相应的聚类分配指令,使得每一个所述局部数据中心能够根据接收到的聚类分配指令、所述归一化日负荷曲线和局部聚类之间聚类归属关系以及所述原始日负荷曲线与归一化日负荷曲线之间的对应关系,将该局部数据中心的每一条原始日负荷曲线归属到相应的全局聚类。...

【技术特征摘要】

【专利技术属性】
技术研发人员:林国营杨骏伟谭跃凯曾智健朱文俊罗敏阙华坤谭伟聪王毅
申请(专利权)人:广东电网有限责任公司电力科学研究院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1