一种海量负荷曲线的分布式聚类方法技术

技术编号：13075204 阅读：36 留言：0更新日期：2016-03-30 10:49

本发明专利技术公开了一种海量负荷曲线的分布式聚类方法，其通过将受聚类区域内所有用户划分为M个用户子集，并对应每一个用户子集设置一个局部数据中心，用各个局部数据中心分别对各自处理得到的归一化日负荷曲线进行自适应局部聚类，以减少待分析的用电数据，再对应所述受聚类区域设置一个全局数据中心，并全局数据中心对接收到的所有局部典型曲线进行全局的聚类分析，从而使得每一个局部数据中心的每一条原始日负荷曲线能够归属到相应的全局聚类。本发明专利技术能够在确保预定聚类精度的情况下，有效提高体量大、分布广的海量日负荷曲线用电数据的聚类效率、减少数据处理时间、减少对计算内存的需求、降低数据的通讯开销和存储成本。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术设及，属于电力行业的用电大数据处理领域。
技术介绍
随着智能电表的普及，电力系统对用户的用电信息采集能力越来越强，有别于传统的每月抄表，智能电表能够对用户的用电数据进行更高频率的采集与存储。每小时甚至更细粒度的用电数据为分析用户用电行为提供了丰富的信息来源。对用户用电数据的挖掘、有效识别用户用电模式在评估需求响应潜力、提高负荷预测精度、指导电价制定等方面具有重要意义。通过聚类分析，获取典型的负荷曲线，把纷繁复杂的负荷曲线根据各自的特点分为不同的类别是用户用电行为分析的重要一步。然而，用户用电数据一方面随时间不断更新，增长迅速，呈海量态势；另一方面，数据采集点分布在不同地区，具有极强的分散性。用电数据的体量大、分布广等特性为传统的用电曲线聚类带来了极大的挑战，需要寻求适用于海量的分布于不同地区的负荷曲线的高效聚类算法。传统的负荷曲线聚类方法存在的不足之处至少体现在Ξ个方面:1)传统的聚类算法需要对数据进行集中处理，提高了数据的通讯和存储成本;2)对所有的数据直接统一同时处理会极大增加计算时间；3)大规模的运算也需要开辟较大的计算机内存。
技术实现思路
[000引本专利技术所要解决的技术问题是:提供，W解决现有负荷曲线聚类方法效率低、处理时间长、耗费计算资源大、数据通讯和存储成本的问题。解决上述技术问题，本专利技术所采用的技术方案如下： -种海量负荷曲线的分布式聚类方法，包括：步骤S1，将受聚类区域内所有用户划分为Μ个用户子集，并对应每一个用户子集设置一个局部数据中屯、，用各个局部数据中屯、分别采集对...

【技术保护点】
一种海量负荷曲线的分布式聚类方法，包括：步骤S1，将受聚类区域内所有用户划分为M个用户子集，并对应每一个用户子集设置一个局部数据中心，用各个局部数据中心分别采集对应用户子集中每一个用户在预设天数内的原始日负荷曲线，其中，M为大于1的正整数，每一个用户子集中至少包含一个用户，每一条原始日负荷曲线包含的负荷采集点数量均为T；步骤S2，用所述各个局部数据中心分别对各自采集到的每一条原始日负荷曲线进行校验和归一化处理，得到归一化日负荷曲线；步骤S3，在所有的所述局部数据中心设置相同的最小聚类数量Kmin、最大聚类数量Kmax和聚类误差指标B，并用所述各个局部数据中心分别对各自处理得到的归一化日负荷曲线进行自适应局部聚类，得到每一个局部数据中心的局部聚类和局部典型曲线，其中，任意一个所述局部数据中心进行自适应局部聚类的步骤包括：步骤S31，对该局部数据中心处理得到的所有归一化日负荷曲线进行k取值为Kmin的k‑means聚类分析，得到Kmin个聚类，并将该Kmin个聚类标记为未检验聚类；步骤S32，对该局部数据中心的未检验聚类进行检验，判断其是否满足所述聚类误差指标B，其中，判断步骤S31得到的...

【技术特征摘要】

【专利技术属性】
技术研发人员：林国营，杨骏伟，谭跃凯，曾智健，朱文俊，罗敏，阙华坤，谭伟聪，王毅，
申请(专利权)人：广东电网有限责任公司电力科学研究院，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人