一种基于数据分析系统下的海量用电数据挖掘方法技术方案

技术编号:24010518 阅读:24 留言:0更新日期:2020-05-02 01:35
本发明专利技术公开了一种基于数据分析系统下的海量用电数据挖掘方法,具体包括以下步骤:S1、用电信息采集:用电信息采集单元实现电能数据的采集、数据管理,S2、数据转存,S3、数据清洗,S4、分布式计算,S5、数据的挖掘,S6、系统后处理,本发明专利技术涉及电力数据处理技术领域。该基于数据分析系统下的海量用电数据挖掘方法,可实现通过采用关联性算法,来对多数据进行挖掘处理,很好的达到了将每个类型的数据进行关联挖掘的目的,大大扩展了电力数据挖掘信息利用的范围,丰富了数据挖掘的信息,不仅适用于一些较为常规的挖掘信息,而且对于一些多类关联性数据挖掘也适用,从而大大方便了电力监控人员的电力数据管理工作。

A data mining method for massive power consumption based on data analysis system

【技术实现步骤摘要】
一种基于数据分析系统下的海量用电数据挖掘方法
本专利技术涉及电力数据处理
,具体为一种基于数据分析系统下的海量用电数据挖掘方法。
技术介绍
随着智能电表的普及应用,用户用电信息采集频率更加频繁,15min甚至5min就需要采集一次数据,且数据呈现双向流动特征,规模和频率呈指数级增长,以天津生态城为例,用电信息采集系统目前已经覆盖1500万用户,数据年增长量约为12TB左右,因此,传统基于单机的分析模式已经无法满足对于海量用电数据的分析需求,对于海量数据进行分布式批处理计算是提高聚类计算效率的关键,批处理计算框架的理论基础是Google的MapReduce计算框架,MapReduce将复杂的并行计算过程高度抽象到两个函数,Map和Re-duce,并可运行于大规模计算集群上,利用MapRe-duce框架,可以将大规模计算任务分解成许多小的子任务由Map步骤处理,由于子任务之间是相互解耦的,因此可以并行处理,Map输出的结果将通过Re-duce函数合并生成最终结果,MapReduce的开源实现的代表就是Hadoop平台,Hadoop广泛被互联网企业用于大规模数据分析。目前的数据挖掘方法大多是直接将采集的数据分类处理后,对每个类型的数据进行一一挖掘,然而,这样的数据挖掘方法较为单一,只能适用于一些较为常规的挖掘信息,而对于一些多类关联性数据挖掘不适用,不能实现通过采用关联性算法,来对多数据进行挖掘处理,无法达到将每个类型的数据进行关联挖掘的目的,大大限制了电力数据挖掘信息利用的范围,从而给电力监控人员的电力数据管理工作带来极大的不便。
技术实现思路
(一)解决的技术问题针对现有技术的不足,本专利技术提供了一种基于数据分析系统下的海量用电数据挖掘方法,解决了现有的数据挖掘方法较为单一,只能适用于一些较为常规的挖掘信息,而对于一些多类关联性数据挖掘不适用,不能实现通过采用关联性算法,来对多数据进行挖掘处理,无法达到将每个类型的数据进行关联挖掘的目的,大大限制了电力数据挖掘信息利用范围的问题。(二)技术方案为实现以上目的,本专利技术通过以下技术方案予以实现:一种基于数据分析系统下的海量用电数据挖掘方法,具体包括以下步骤:S1、用电信息采集:通过用电信息采集单元实现电能数据的采集、数据管理、数据双向传输以及控制命令执行,采集模块从商业用户、专变用户、家庭用户和大用户四种不同类型的用电用户处以相应频率采集用电数据,包括电压电流、功率、电能质量和异常事件,并通过系统后台服务器、无线网络和数据通道保存在用电信息采集系统中,通过用电信息采集系统中的商业用户用电数据存储模块、专变用户用电数据存储模块、家庭用户用电数据存储模块和大用户用电数据存储模块对采集的数据进行分类存储,以作为用电行为分析的基础数据;S2、数据转存:系统后台服务器会控制数据转存模块将数据从用电信息采集系统转移至HDFS存储器中,利用基于Hadoop平台的数据传输工具完成转存;S3、数据清洗:系统后台服务器控制数据清洗模块对不完整数据、错误数据和重复数据进行补充修正和删除,包括忽略缺失数据、删除负值、用整体均值填充、用最可能值填充和回归方法填充;S4、分布式计算:在分布式计算阶段,系统后台服务器控制分布聚类算法处理单元内的分类框架建模模块先创建分类框架模型,然后通过数据倒入模块将采集的数据导入至系统内,之后通过FCM聚类算法处理模块内的分布式FCM聚类算法完成对用电行为数据的聚类,从中获得的聚类中心可以用于刻画用电用户群体特征,而每-一个参与聚类的数据对象对于不同聚类的模糊隶属度关系,可用来判断用电用户所属的聚类,在完成聚类过程后,将结果以键值对的形式保存在非关系型数据库NoSQL;S5、数据的挖掘:系统后台服务器控制数据挖掘单元对分布聚类处理后的数据进行挖掘处理,数据挖掘单元内的索检引导数据库创建模块能可先创建所需检索块,然后通过数据关联性识别模块进行每个聚类数据之间的关联性进行识别,之后通过数据对比分析模块与现有的数据进行对比分析,然后通过挖掘数据整合模块进行挖掘数据的整合处理;S6、系统后处理:系统后台服务器会控制时间戳服务器对数据进行实时挖掘和传输处理,同时数据挖掘结果传送至系统交互终端进行数据显示,来供人们进行查阅,整个系统在运行时通过系统安全防护模块进行安全防护处理。优选的,所述步骤S1中用电信息采集单元包括双向智能电表、转变采集终端、负荷控制终端和分布式能源监控终端。优选的,所述步骤S2中利用Hadoop平台上的Apache和Sqoop,可用来在Hadoop和关系数据库中传递数据,通过Sqoop,可方便将数据从关系数据库导人到HDFS,或者将数据从HDFS导出到关系数据库。优选的,所述步骤S1中用电信息采集系统包括商业用户用电数据存储模块、专变用户用电数据存储模块、家庭用户用电数据存储模块和大用户用电数据存储模块。优选的,所述步骤S4中分布聚类算法处理单元包括分类框架建模模块、数据导入模块和FCM聚类算法处理模块,所述分类框架建模模块的输出端与数据导入模块的输入端连接,且数据导入模块的输出端与FCM聚类算法处理模块的输入端连接。优选的,所述步骤S5中数据挖掘单元包括索检引导数据块创建模块、数据关联性识别模块、数据对比分析模块和挖掘数据整合模块,所述索检引导数据块创建模块的输出端与数据关联性识别模块的输入端连接,且数据关联性识别模块的输出端与数据对比分析模块的输入端连接,所述数据对比分析模块的输出端与挖掘数据整合模块的输入端连接。(三)有益效果本专利技术提供了一种基于数据分析系统下的海量用电数据挖掘方法。与现有技术相比具备以下有益效果:该基于数据分析系统下的海量用电数据挖掘方法,具体包括以下步骤:S1、用电信息采集:通过用电信息采集单元实现电能数据的采集、数据管理、数据双向传输以及控制命令执行,采集模块从商业用户、专变用户、家庭用户和大用户四种不同类型的用电用户处以相应频率采集用电数据,包括电压电流、功率、电能质量和异常事件,S2、数据转存:系统后台服务器会控制数据转存模块将数据从用电信息采集系统转移至HDFS存储器中,利用基于Hadoop平台的数据传输工具完成转存,S3、数据清洗:系统后台服务器控制数据清洗模块对不完整数据、错误数据和重复数据进行补充修正和删除,包括忽略缺失数据、删除负值、用整体均值填充、用最可能值填充和回归方法填充,S4、分布式计算:在分布式计算阶段,系统后台服务器控制分布聚类算法处理单元内的分类框架建模模块先创建分类框架模型,然后通过数据倒入模块将采集的数据导入至系统内,之后通过FCM聚类算法处理模块内的分布式FCM聚类算法完成对用电行为数据的聚类,从中获得的聚类中心可以用于刻画用电用户群体特征,S5、数据的挖掘:系统后台服务器控制数据挖掘单元对分布聚类处理后的数据进行挖掘处理,数据挖掘单元内的索检引导数据库创建模块能可先创建所需检索块,然后通过数据关联性识别模块进行每个聚类数据之间的关联性进行识别,S6、系统后处理:系统后台服务本文档来自技高网
...

【技术保护点】
1.一种基于数据分析系统下的海量用电数据挖掘方法,其特征在于:具体包括以下步骤:/nS1、用电信息采集:通过用电信息采集单元实现电能数据的采集、数据管理、数据双向传输以及控制命令执行,采集模块从商业用户、专变用户、家庭用户和大用户四种不同类型的用电用户处以相应频率采集用电数据,包括电压电流、功率、电能质量和异常事件,并通过系统后台服务器、无线网络和数据通道保存在用电信息采集系统中,通过用电信息采集系统中的商业用户用电数据存储模块、专变用户用电数据存储模块、家庭用户用电数据存储模块和大用户用电数据存储模块对采集的数据进行分类存储,以作为用电行为分析的基础数据;/nS2、数据转存:系统后台服务器会控制数据转存模块将数据从用电信息采集系统转移至HDFS存储器中,利用基于Hadoop平台的数据传输工具完成转存;/nS3、数据清洗:系统后台服务器控制数据清洗模块对不完整数据、错误数据和重复数据进行补充修正和删除,包括忽略缺失数据、删除负值、用整体均值填充、用最可能值填充和回归方法填充;/nS4、分布式计算:在分布式计算阶段,系统后台服务器控制分布聚类算法处理单元内的分类框架建模模块先创建分类框架模型,然后通过数据倒入模块将采集的数据导入至系统内,之后通过FCM聚类算法处理模块内的分布式FCM聚类算法完成对用电行为数据的聚类,从中获得的聚类中心可以用于刻画用电用户群体特征,而每-一个参与聚类的数据对象对于不同聚类的模糊隶属度关系,可用来判断用电用户所属的聚类,在完成聚类过程后,将结果以键值对的形式保存在非关系型数据库NoSQL;/nS5、数据的挖掘:系统后台服务器控制数据挖掘单元对分布聚类处理后的数据进行挖掘处理,数据挖掘单元内的索检引导数据库创建模块能可先创建所需检索块,然后通过数据关联性识别模块进行每个聚类数据之间的关联性进行识别,之后通过数据对比分析模块与现有的数据进行对比分析,然后通过挖掘数据整合模块进行挖掘数据的整合处理;/nS6、系统后处理:系统后台服务器会控制时间戳服务器对数据进行实时挖掘和传输处理,同时数据挖掘结果传送至系统交互终端进行数据显示,来供人们进行查阅,整个系统在运行时通过系统安全防护模块进行安全防护处理。/n...

【技术特征摘要】
1.一种基于数据分析系统下的海量用电数据挖掘方法,其特征在于:具体包括以下步骤:
S1、用电信息采集:通过用电信息采集单元实现电能数据的采集、数据管理、数据双向传输以及控制命令执行,采集模块从商业用户、专变用户、家庭用户和大用户四种不同类型的用电用户处以相应频率采集用电数据,包括电压电流、功率、电能质量和异常事件,并通过系统后台服务器、无线网络和数据通道保存在用电信息采集系统中,通过用电信息采集系统中的商业用户用电数据存储模块、专变用户用电数据存储模块、家庭用户用电数据存储模块和大用户用电数据存储模块对采集的数据进行分类存储,以作为用电行为分析的基础数据;
S2、数据转存:系统后台服务器会控制数据转存模块将数据从用电信息采集系统转移至HDFS存储器中,利用基于Hadoop平台的数据传输工具完成转存;
S3、数据清洗:系统后台服务器控制数据清洗模块对不完整数据、错误数据和重复数据进行补充修正和删除,包括忽略缺失数据、删除负值、用整体均值填充、用最可能值填充和回归方法填充;
S4、分布式计算:在分布式计算阶段,系统后台服务器控制分布聚类算法处理单元内的分类框架建模模块先创建分类框架模型,然后通过数据倒入模块将采集的数据导入至系统内,之后通过FCM聚类算法处理模块内的分布式FCM聚类算法完成对用电行为数据的聚类,从中获得的聚类中心可以用于刻画用电用户群体特征,而每-一个参与聚类的数据对象对于不同聚类的模糊隶属度关系,可用来判断用电用户所属的聚类,在完成聚类过程后,将结果以键值对的形式保存在非关系型数据库NoSQL;
S5、数据的挖掘:系统后台服务器控制数据挖掘单元对分布聚类处理后的数据进行挖掘处理,数据挖掘单元内的索检引导数据库创建模块能可先创建所需检索块,然后通过数据关联性识别模块进行每个聚类数据之间的关联性进行识别,之后通过数据对比分析模块与现有的数据进行对比分析,然后通过挖掘数据整合模块进行挖掘数据的整合处理;

【专利技术属性】
技术研发人员:吕振海
申请(专利权)人:广东新瑞世纪科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1