基于多周期回归树集成的大数据用户用电行为分析系统技术方案

技术编号:18862694 阅读:31 留言:0更新日期:2018-09-05 15:08
本发明专利技术公开了基于多周期回归树集成的大数据用户用电行为分析系统,所述系统包括:数据抽取模块,用于从电网用电采集系统中并行抽取相关的用电行为数据,并存储在HDFS文件系统中;转换模块,用于基于SPARK计算引擎的数据模型转化算法将HDFS文件系统中的原始数据模型转化为优化后的数据模型;数据清洗模块,用于将优化后的数据模型中的异常数据进行数据清洗;数据分析模块,用于对清洗处理后的用户用电行为数据进行大数据分析;解决了现有的用户用电行为分析存在难度大,难于实现,分析质量和准确性较差的技术问题,实现了对用户用电行为的分析,易于实现,且分析质量和准确性较高的技术效果。

Large data user power consumption analysis system based on multi cycle regression tree ensemble

The invention discloses a large data user behavior analysis system based on Multi-period regression tree integration. The system comprises a data extraction module for parallel extraction of relevant electricity behavior data from a power grid electricity collection system and storage in a HDFS file system, and a conversion module for the number of SPARK-based computing engines. According to the model transformation algorithm, the original data model in HDFS file system is transformed into the optimized data model; the data cleaning module is used to clean the abnormal data in the optimized data model; the data analysis module is used to analyze the large data of user's electricity consumption behavior after cleaning; and the solution is given. The existing user behavior analysis is difficult, difficult to achieve, poor analysis quality and accuracy of technical problems, to achieve the user behavior analysis, easy to achieve, and analysis of high quality and accuracy of technical results.

【技术实现步骤摘要】
基于多周期回归树集成的大数据用户用电行为分析系统
本专利技术涉及电力营销大数据分析领域,具体地,涉及基于多周期回归树集成的大数据用户用电行为分析系统。
技术介绍
从2009年开始,国网公司提出建设信息化、自动化、数字化、互动化的统一坚强智能电网,涉及了发电、输电、变电、配电、用电和调度六个生产环节。其中配用电部分,随着通信技术、传感器技术、智能终端技术的发展,对更多的用户行为数据实现了远程了高频度的采集。目前国网公司统推的用户用电采集系统已经在多数省份实现了用户日冻结电量(包括峰平谷用电量)、日用电量曲线、功率曲线、电流曲线、电压曲线等众多纬度的数据实时采集功能。通过这些数据对用户用电行为进行分析,一方面可以对电网的安全稳定调度和运行提供数据支撑,另一方面在电力改革后也可以用来提高对用电客户的优质化服务,提升公司效益。由此可见用户用电行为分析对提升智能电网的智能化意义重大。但基于目前的用电采集系统进行海量用户用电行为数据分析面临着以下困难:1、原有数据库设计无法满足性能需求。目前用电采集系统中数据库设计及系统功能的设计方式是以存储数据和常规用电数据统计功能为主,再加上该系统主要是服务于电力生产,因此无法在系统上直接进行大规模的数据分析。以四川省电力公司为例,目前四川公司投入约2200万台智能终端表计用于数据采集,因此每一天每一个采集信息相关的数据库表就会新增2200万条数据,从2013年开始使用新用采系统后,平均每一张用电数据采集相关的数据表已经存储了300亿条以上的数据,总共有接近PB级别的数据存储。由于其基于ORACLE的数据库设计的初衷仅是为了满足功能需求,所以对用电采集系统中进行跨天的历史数据关联查询已经需要数十分钟的响应时间,而且会对常规业务功能造成极大的影响。2、原有数据模型设计过于复杂,且数据导入量巨大,即使使用普通分布式计算框架其效率也无法满足需求。如果采用分布式计算框架提高运算性能,首先需要将原有的ORACLE数据库内容进行导入,如果使用SQOOP工具进行数据导入,如何选取数据库查询语句也极为重要。根据实际经验在跨越5天以上的数据内容导入会有极大的概率无法得到ORACLE端的响应。同时,原有数据库模型的设计过于复杂,记录了大量冗余或者和用户行为无关的数据,即使在分布式计算框架下,像获取一个用户所有的历史用电信息(通过SELECT*FROM…WHEREID=“”),或者通过SPARK的FILTER函数,在一个中小规模的大数据平台(10台4路服务器)上也需要15分钟左右的运算时间,如果跨表联合查询,则需要的时间更多。因此必须重新设计数据模型,以为用户用电行为分析服务。3、用户用电数据质量较低,传统的用电分析里,针对数据的缺失,异常值处理,主要通过均值填充、线性回归等方法填写连续性数值,对离散型数值主要通过逻辑回归进行填充。这类数值填充方法主要针对单一的数据特征进行建模,且模型的表达能力是线性的,这就导致了1)模型表达能力不足,2)没有考虑到其他数据特征的影响。而在用户用电分析领域,用户的不同特征存在着联系,而这些联系对缺失值填充、异常值检测、甚至用户用电行为分析都有着重要作用。因此,如果在数据预处理过程中无法合理的解决缺失值和异常值问题,将会对后续的用户用电行为分析产生影响,导致结果存在严重偏差。4.随着智能电网的发展,对用电负荷预测等业务越发重要,对预测精度的要求也不断提高。而预测的基础是对用户用电应为的分析,随着智能电网采集数据的暴增,传统的预测和分析算法无法达到高效精确的预测,并且较少的和外部数据进行关联,因此迫切需要一种新的用电行为分析算法。综上所述,本申请专利技术人在实现本申请专利技术技术方案的过程中,发现上述技术至少存在如下技术问题:在现有技术中,现有的用户用电行为分析存在难度大,难于实现,分析质量和准确性较差的技术问题。
技术实现思路
本专利技术提供了基于多周期回归树集成的大数据用户用电行为分析系统,解决了现有的用户用电行为分析存在难度大,难于实现,分析质量和准确性较差的技术问题,实现了对用户用电行为的分析,易于实现,且分析质量和准确性较高的技术效果。为实现上述专利技术目的,本申请提供了基于多周期回归树集成的大数据用户用电行为分析系统,所述系统包括:数据抽取模块,用于从电网用电采集系统中并行抽取相关的用电行为数据,并存储在HDFS文件系统中;转换模块,用于基于SPARK计算引擎的数据模型转化算法将HDFS文件系统中的原始数据模型转化为优化后的数据模型;数据清洗模块,用于将优化后的数据模型中的异常数据进行数据清洗;数据分析模块,用于对清洗处理后的用户用电行为数据进行大数据分析。进一步的,用户用电行为数据进行大数据分析,包括:通过关联分析,选择出并计算出与用户用电行为相关度符合要求的若干数据特征;抽取气象历史数据;得到多种用户用电特征模型;通过以上用电特征模型训练出对应的回归树;将所有回归树的输出集联,构造多周期回归树;基于多周期回归树对用户的用电量进行预测,以及对历史数据中的缺失值进行填补。进一步的,数据抽取模块具体用于从电网用电采集系统中采用并行方式,以天为单位抽取日测量点能示值曲线表和测量点日冻结电量示值,通过SQOOP2执行SQL语句导入本地HADOOP集群的HDFS上,抽取之后数据格式为:N张以日期为表名,以用户计量点ID作为唯一标示,包括当日冻结电量,尖峰平谷4个时间段的电量的表;商业用户除了日冻结电量外,还抽取电能示值曲线模型,包含每天每一个用户ID,96个计量点的用户数据。进一步的,所述系统还包括数据导入任务分配器,用于SQOOP任务在执行的时,对数据导入任务进行分配。进一步的,数据清洗模块具体用于:根据用电数据的数据异常模式,通过py_spark模块,基于Python的pandas和numpy数值分析包,实现Python代码在spark分布式计算引擎上完成并行化数据清洗。进一步的,数据清洗步骤包括:逐条统计每个用户计量点ID中电量缺失的总天数,缺失率大于30%的数据直接剔除;逐条判断每个用户计量点ID中用电量历史N天的用电量数据是否为递增,若出现非递增的数据,则标记为NaN;逐条判断每个用户计量点ID中用电量历史N天的用电量数据,是否出现陡增和陡降的数据,判断标准为是否超过该用户电压等级下一天可能的最大用电量,若存在则标记为NaN;对不同电压等级的用户分别聚类分析,剔除同一电压等级下中心偏离距离超过阈值的用户。进一步的,转换模块为重新设计为用电行为分析优化的数据模型,并通过SPARK计算引擎批量将原始数据模型转化成新数据模型,包括以下模型:用户日冻结电量模型,包括每一用户每一天的冻结电量;用户日用电电量模型,包括每一用户每一天使用的电量;用户周用电量模型,包括用户每一周使用的电量;用户月用电模型,包括用户每一月使用的电量;用户季用电模型,包括用户每一季度使用的电量;用户年用电模型,包括用户每一年使用的电量。进一步的,若干数据特征包括:峰时耗电率、谷时耗电率、平段耗电率、是否周日、昨日用电量、上周同期用电量、上月同期用电量、日96点用电曲线、是否节假日。进一步的,气象历史数据包括:最高气温、最低气温、降雨量。进一步的,用户用电特征模型包括:用户日用电特征模型、用户周用电特本文档来自技高网
...

【技术保护点】
1.基于多周期回归树集成的大数据用户用电行为分析系统,其特征在于,所述系统包括:数据抽取模块,用于从电网用电采集系统中并行抽取相关的用电行为数据,并存储在HDFS文件系统中;转换模块,用于基于SPARK计算引擎的数据模型转化算法将HDFS文件系统中的原始数据模型转化为优化后的数据模型;数据清洗模块,用于将优化后的数据模型中的异常数据进行数据清洗;数据分析模块,用于对清洗处理后的用户用电行为数据进行大数据分析。

【技术特征摘要】
1.基于多周期回归树集成的大数据用户用电行为分析系统,其特征在于,所述系统包括:数据抽取模块,用于从电网用电采集系统中并行抽取相关的用电行为数据,并存储在HDFS文件系统中;转换模块,用于基于SPARK计算引擎的数据模型转化算法将HDFS文件系统中的原始数据模型转化为优化后的数据模型;数据清洗模块,用于将优化后的数据模型中的异常数据进行数据清洗;数据分析模块,用于对清洗处理后的用户用电行为数据进行大数据分析。2.根据权利要求1所述的基于多周期回归树集成的大数据用户用电行为分析系统,其特征在于,用户用电行为数据进行大数据分析,包括:通过关联分析,选择出并计算出与用户用电行为相关度符合要求的若干数据特征;抽取气象历史数据;得到多种用户用电特征模型;通过以上用电特征模型训练出对应的回归树;将所有回归树的输出集联,构造多周期回归树;基于多周期回归树对用户的用电量进行预测,以及对历史数据中的缺失值进行填补。3.根据权利要求1所述的基于多周期回归树集成的大数据用户用电行为分析系统,其特征在于,数据抽取模块具体用于从电网用电采集系统中采用并行方式,以天为单位抽取日测量点能示值曲线表和测量点日冻结电量示值,通过SQOOP2执行SQL语句导入本地HADOOP集群的HDFS上,抽取之后数据格式为:N张以日期为表名,以用户计量点ID作为唯一标示,包括当日冻结电量,尖峰平谷4个时间段的电量的表;商业用户除了日冻结电量外,还抽取电能示值曲线模型,包含每天每一个用户ID,96个计量点的用户数据。4.根据权利要求1所述的基于多周期回归树集成的大数据用户用电行为分析系统,其特征在于,所述系统还包括数据导入任务分配器,用于SQOOP任务在执行的时,对数据导入任务进行分配。5.根据权利要求1所述的基于多周期回归树集成的大数据用户用电行为分析系统,其特征在于,数据清洗模块具体用于:根据用电数据的数据异常模式,通过py_spark模块,基于Python的pandas和numpy数值分析包,实现Pytho...

【专利技术属性】
技术研发人员:张凌浩胡灿柴继文范松海徐经纬王胜唐超刘益岑苏运钟敏
申请(专利权)人:国网四川省电力公司国网四川省电力公司电力科学研究院国网上海市电力公司国家电网公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1