The invention discloses a large data user behavior analysis system based on Multi-period regression tree integration. The system comprises a data extraction module for parallel extraction of relevant electricity behavior data from a power grid electricity collection system and storage in a HDFS file system, and a conversion module for the number of SPARK-based computing engines. According to the model transformation algorithm, the original data model in HDFS file system is transformed into the optimized data model; the data cleaning module is used to clean the abnormal data in the optimized data model; the data analysis module is used to analyze the large data of user's electricity consumption behavior after cleaning; and the solution is given. The existing user behavior analysis is difficult, difficult to achieve, poor analysis quality and accuracy of technical problems, to achieve the user behavior analysis, easy to achieve, and analysis of high quality and accuracy of technical results.
【技术实现步骤摘要】
基于多周期回归树集成的大数据用户用电行为分析系统
本专利技术涉及电力营销大数据分析领域,具体地,涉及基于多周期回归树集成的大数据用户用电行为分析系统。
技术介绍
从2009年开始,国网公司提出建设信息化、自动化、数字化、互动化的统一坚强智能电网,涉及了发电、输电、变电、配电、用电和调度六个生产环节。其中配用电部分,随着通信技术、传感器技术、智能终端技术的发展,对更多的用户行为数据实现了远程了高频度的采集。目前国网公司统推的用户用电采集系统已经在多数省份实现了用户日冻结电量(包括峰平谷用电量)、日用电量曲线、功率曲线、电流曲线、电压曲线等众多纬度的数据实时采集功能。通过这些数据对用户用电行为进行分析,一方面可以对电网的安全稳定调度和运行提供数据支撑,另一方面在电力改革后也可以用来提高对用电客户的优质化服务,提升公司效益。由此可见用户用电行为分析对提升智能电网的智能化意义重大。但基于目前的用电采集系统进行海量用户用电行为数据分析面临着以下困难:1、原有数据库设计无法满足性能需求。目前用电采集系统中数据库设计及系统功能的设计方式是以存储数据和常规用电数据统计功能为主,再加上该系统主要是服务于电力生产,因此无法在系统上直接进行大规模的数据分析。以四川省电力公司为例,目前四川公司投入约2200万台智能终端表计用于数据采集,因此每一天每一个采集信息相关的数据库表就会新增2200万条数据,从2013年开始使用新用采系统后,平均每一张用电数据采集相关的数据表已经存储了300亿条以上的数据,总共有接近PB级别的数据存储。由于其基于ORACLE的数据库设计的初衷仅是为了满足功 ...
【技术保护点】
1.基于多周期回归树集成的大数据用户用电行为分析系统,其特征在于,所述系统包括:数据抽取模块,用于从电网用电采集系统中并行抽取相关的用电行为数据,并存储在HDFS文件系统中;转换模块,用于基于SPARK计算引擎的数据模型转化算法将HDFS文件系统中的原始数据模型转化为优化后的数据模型;数据清洗模块,用于将优化后的数据模型中的异常数据进行数据清洗;数据分析模块,用于对清洗处理后的用户用电行为数据进行大数据分析。
【技术特征摘要】
1.基于多周期回归树集成的大数据用户用电行为分析系统,其特征在于,所述系统包括:数据抽取模块,用于从电网用电采集系统中并行抽取相关的用电行为数据,并存储在HDFS文件系统中;转换模块,用于基于SPARK计算引擎的数据模型转化算法将HDFS文件系统中的原始数据模型转化为优化后的数据模型;数据清洗模块,用于将优化后的数据模型中的异常数据进行数据清洗;数据分析模块,用于对清洗处理后的用户用电行为数据进行大数据分析。2.根据权利要求1所述的基于多周期回归树集成的大数据用户用电行为分析系统,其特征在于,用户用电行为数据进行大数据分析,包括:通过关联分析,选择出并计算出与用户用电行为相关度符合要求的若干数据特征;抽取气象历史数据;得到多种用户用电特征模型;通过以上用电特征模型训练出对应的回归树;将所有回归树的输出集联,构造多周期回归树;基于多周期回归树对用户的用电量进行预测,以及对历史数据中的缺失值进行填补。3.根据权利要求1所述的基于多周期回归树集成的大数据用户用电行为分析系统,其特征在于,数据抽取模块具体用于从电网用电采集系统中采用并行方式,以天为单位抽取日测量点能示值曲线表和测量点日冻结电量示值,通过SQOOP2执行SQL语句导入本地HADOOP集群的HDFS上,抽取之后数据格式为:N张以日期为表名,以用户计量点ID作为唯一标示,包括当日冻结电量,尖峰平谷4个时间段的电量的表;商业用户除了日冻结电量外,还抽取电能示值曲线模型,包含每天每一个用户ID,96个计量点的用户数据。4.根据权利要求1所述的基于多周期回归树集成的大数据用户用电行为分析系统,其特征在于,所述系统还包括数据导入任务分配器,用于SQOOP任务在执行的时,对数据导入任务进行分配。5.根据权利要求1所述的基于多周期回归树集成的大数据用户用电行为分析系统,其特征在于,数据清洗模块具体用于:根据用电数据的数据异常模式,通过py_spark模块,基于Python的pandas和numpy数值分析包,实现Pytho...
【专利技术属性】
技术研发人员:张凌浩,胡灿,柴继文,范松海,徐经纬,王胜,唐超,刘益岑,苏运,钟敏,
申请(专利权)人:国网四川省电力公司,国网四川省电力公司电力科学研究院,国网上海市电力公司,国家电网公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。