一种基于数据分析系统下的海量用电数据挖掘方法技术方案

技术编号：24010518 阅读：24 留言：0更新日期：2020-05-02 01:35

本发明专利技术公开了一种基于数据分析系统下的海量用电数据挖掘方法，具体包括以下步骤：S1、用电信息采集：用电信息采集单元实现电能数据的采集、数据管理，S2、数据转存，S3、数据清洗，S4、分布式计算，S5、数据的挖掘，S6、系统后处理，本发明专利技术涉及电力数据处理技术领域。该基于数据分析系统下的海量用电数据挖掘方法，可实现通过采用关联性算法，来对多数据进行挖掘处理，很好的达到了将每个类型的数据进行关联挖掘的目的，大大扩展了电力数据挖掘信息利用的范围，丰富了数据挖掘的信息，不仅适用于一些较为常规的挖掘信息，而且对于一些多类关联性数据挖掘也适用，从而大大方便了电力监控人员的电力数据管理工作。

A data mining method for massive power consumption based on data analysis system

全部详细技术资料下载

【技术实现步骤摘要】
一种基于数据分析系统下的海量用电数据挖掘方法
本专利技术涉及电力数据处理
，具体为一种基于数据分析系统下的海量用电数据挖掘方法。
技术介绍
随着智能电表的普及应用，用户用电信息采集频率更加频繁，15min甚至5min就需要采集一次数据，且数据呈现双向流动特征，规模和频率呈指数级增长，以天津生态城为例，用电信息采集系统目前已经覆盖1500万用户，数据年增长量约为12TB左右，因此，传统基于单机的分析模式已经无法满足对于海量用电数据的分析需求，对于海量数据进行分布式批处理计算是提高聚类计算效率的关键，批处理计算框架的理论基础是Google的MapReduce计算框架，MapReduce将复杂的并行计算过程高度抽象到两个函数，Map和Re-duce，并可运行于大规模计算集群上，利用MapRe-duce框架，可以将大规模计算任务分解成许多小的子任务由Map步骤处理，由于子任务之间是相互解耦的，因此可以并行处理，Map输出的结果将通过Re-duce函数合并生成最终结果，MapReduce的开源实现的代表就是Hadoop平台，Hadoop广泛被互联网企业用于大规模数据分析。目前的数据挖掘方法大多是直接将采集的数据分类处理后，对每个类型的数据进行一一挖掘，然而，这样的数据挖掘方法较为单一，只能适用于一些较为常规的挖掘信息，而对于一些多类关联性数据挖掘不适用，不能实现通过采用关联性算法，来对多数据进行挖掘处理，无法达到将每个类型的数据进行关联挖掘的目的，大大限制了电力数据挖掘信息利用的范围，从而给电力监控人员的电力数据...

【技术保护点】
1.一种基于数据分析系统下的海量用电数据挖掘方法，其特征在于：具体包括以下步骤：/nS1、用电信息采集：通过用电信息采集单元实现电能数据的采集、数据管理、数据双向传输以及控制命令执行，采集模块从商业用户、专变用户、家庭用户和大用户四种不同类型的用电用户处以相应频率采集用电数据，包括电压电流、功率、电能质量和异常事件，并通过系统后台服务器、无线网络和数据通道保存在用电信息采集系统中，通过用电信息采集系统中的商业用户用电数据存储模块、专变用户用电数据存储模块、家庭用户用电数据存储模块和大用户用电数据存储模块对采集的数据进行分类存储，以作为用电行为分析的基础数据；/nS2、数据转存：系统后台服务器会控制数据转存模块将数据从用电信息采集系统转移至HDFS存储器中，利用基于Hadoop平台的数据传输工具完成转存；/nS3、数据清洗：系统后台服务器控制数据清洗模块对不完整数据、错误数据和重复数据进行补充修正和删除，包括忽略缺失数据、删除负值、用整体均值填充、用最可能值填充和回归方法填充；/nS4、分布式计算：在分布式计算阶段，系统后台服务器控制分布聚类算法处理单元内的分类框架建模模块先创建分类框架...

【技术特征摘要】
1.一种基于数据分析系统下的海量用电数据挖掘方法，其特征在于：具体包括以下步骤：
S1、用电信息采集：通过用电信息采集单元实现电能数据的采集、数据管理、数据双向传输以及控制命令执行，采集模块从商业用户、专变用户、家庭用户和大用户四种不同类型的用电用户处以相应频率采集用电数据，包括电压电流、功率、电能质量和异常事件，并通过系统后台服务器、无线网络和数据通道保存在用电信息采集系统中，通过用电信息采集系统中的商业用户用电数据存储模块、专变用户用电数据存储模块、家庭用户用电数据存储模块和大用户用电数据存储模块对采集的数据进行分类存储，以作为用电行为分析的基础数据；
S2、数据转存：系统后台服务器会控制数据转存模块将数据从用电信息采集系统转移至HDFS存储器中，利用基于Hadoop平台的数据传输工具完成转存；
S3、数据清洗：系统后台服务器控制数据清洗模块对不完整数据、错误数据和重复数据进行补充修正和删除，包括忽略缺失数据、删除负值、用整体均值填充、用最可能值填充和回归方法填充；
S4、分布式计算：在分布式计算阶段，系统后台服务器控制分布聚类算法处理单元内的分类框架建模模块先创建分类框架模型，然后通过数据倒入模块将采集的数据导入至系统内，之后通过FCM聚类算法处理模块内的分布式FCM聚类算法完成对用电行为数据的聚类，从中获得的聚类中心可以用于刻画用电用户群体特征，而每-一个参与聚类的数据对象对于不同聚类的模糊隶属度关系，可用来判断用电用户所属的聚类，在完成聚类过程后，将结果以键值对的形式保存在非关系型数据库NoSQL；
S5、数据的挖掘：系统后台服务器控制数据挖掘单元对分布聚类处理后的数据进行挖掘处理，数据挖掘单元内的索检引导数据库创建模块能可先创建所需检索块，然后通过数据关联性识别模块进行每个聚类数据之间的关联性进行识别，之后通过数据对比分析模块与现有的数据进行对比分析，然后通过挖掘数据整合模块进行挖掘数据的整合处理；

【专利技术属性】
技术研发人员：吕振海，
申请(专利权)人：广东新瑞世纪科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人