一种实现海量数据离线分析的方法技术

技术编号:13378481 阅读:58 留言:0更新日期:2016-07-21 07:29
本发明专利技术提出一种实现海量数据离线分析的方法,所述方法包括(1)采集海量电力数据;(2)对海量电力数据预处理;(3)离线分析海量电力数据;(4)分析结果展示。通过本发明专利技术海量数据离线分析方法,可实现不同时空、不同业务、不同场景的电力数据资源的集中存储,统一管理,共享共用;通过对所存储的海量历史数据的分析和挖掘为管理层进行电力决策提供科学合理的依据。

【技术实现步骤摘要】

本专利技术涉及一种离线分析的方法,具体讲涉及一种实现海量数据离线分析的方法。
技术介绍
电力信息技术正向数据信息应用的智能融合方向发展,其运行模式将迈向为以服务为中心的新阶段,同时,企业数据资产的价值不断被发掘,信息化条件下的企业生产和决策将更加智能化。大数据正是新形势下技术融合型发展和应用智能化理念的集中体现,具有应对数据体量巨大、数据类型繁多、价值密度低和处理速度快等数据特征的技术架构,及以行业内外高附加值的内容增值服务为目标的应用模式,其核心就是信息资源的开发利用。随着智能电网建设的不断深入和推进,电网运行和设备检/监测产生的数据量呈指数级增长,尤其是配电网规划、运行过程中产生的海量异构、多态的数据,逐渐构成了当今信息学界所关注的大数据。这些数据具有多时空、多来源、混杂和不确定性的特点。这些数据大多都存储在和业务紧密结合的Oracle系统,如何能够有效地分析利用这些数据,增加数据的鲁棒性和洁净度是配电网数据分析面临的问题和挑战。
技术实现思路
针对现有技术的不足,本专利技术提供一种实现海量数据离线分析的方法,包括数据采集部分、数据预处理部分、数据存储部分、离线数据分析处理部分和分析结果展示部分。数据采集部分基于Sqoop数据交换工具和Hadoop文件传输指令实现,并可同时进行初步的数据预处理,数据采集完成后,为进一步的数据预处理提供源数据;数据预处理部分基于ETL工具和自定义数据预处理模块,对数据进行过滤、清洗、转换等处理,为数据存储提供有效的数据;数据存储部分基于HDFS分布式文件存储系统和内存存储,实现海量电力数据进行分布式快速存储,为数据分析处理提供支持;离线数据分析处理部分包括数据统计分析和数据挖掘,基于MapReduce和Spark计算框架,结合R语言挖掘平台,实现海量电力数据的统计分析和数据挖掘处理,并为数据展示提供数据支撑;分析结果展示部分基于基本图表、HTML5和D3控件,实现数据分析结果的交互式展现,为管理层进行电力决策提供直观的数据支持。本专利技术的目的是采用下述技术方案实现的:一种实现海量数据离线分析的方法,其改进之处在于,所述方法包括(1)采集海量电力数据;(2)对海量电力数据预处理;(3)离线分析海量电力数据;(4)分析结果展示。优选的,所述步骤(1)包括采集电力离线数据,其包括Sqoop采集部分和Put采集部分;所述Sqoop采集部分运用Sqoop文件交换技术,采集各种形式的数据库表,直接将数据表存储到HDFS文件系统中,也可以Hive或HBase数据表的形式进行存储;所述Put采集部分直接将各种格式的数据文件或文件目录直接上传到HDFS文件系统中。优选的,所述步骤(1)中对于流式数据,可采用Kafka采集工具,将流式数据汇聚到Kafka集群,由HBase进行存储处理;针对大数据文件,可采用FTP协议或本地化上传的方式导入到Hadoop中。进一步地,所述HDFS以数据块的形式进行存储,每块数据块默认存储三份,设置数据块大小为128M,采用默认的存储份数;内存数据库将数据文件直接存储到内存中。优选的,所述步骤(2)包括通过ETL工具和自定义代码模块进行数据清洗和处理,清除无效数据,过滤异常值和无意义的值,提高离线数据的质量。优选的,所述步骤(3)包括统计分析和数据挖掘;所述统计分析基于Hive和HBase工具,通过Spark和MapReduce计算框架,构建统计分析平台,提供对离线数据的查询检索分析功能;所述数据挖掘是通过集成RStudio页面IDE,提供基于Spark计算框架的R语言运行和开发环境,并集成基本的挖掘算法,支持自定义挖掘算法,提供对离线数据的挖掘分析。优选的,所述步骤(4)包括静态展示和交互式动态展示;所述静态展示主要以图表、文字形式对分析结果进行说明展示;所述交互式动态展示基于动态展示技术,提供与用户间的交互,以动画、3D、动态图形式,实现对离线数据的分析结果的可视化。与现有技术比,本专利技术的有益效果为:数据采集通过Kafka采集工具,很好地解决了流式数据采集的高延时问题以及采集数据量的瓶颈;利用Sqoop工具,基于MapReduce分布式处理框架,极大地提高了数据的采集效率;数据预处理通过数据清洗模块和ETL工具,提高了数据的采集质量。数据存储采用HDFS分布式文件系统,解决了海量数据存储的容量瓶颈,同时保证了数据的安全性;部分数据表采用内存存储,极大地提高了数据的存储和读取速度。数据分析利用MapReduce和Spark计算框架分布式并行计算的优点,分析速度大幅度提高;基于R的数据挖掘模块,简化了数据挖掘的流程,提高了数据挖掘的效率。数据展示以静态和动态结合的形式对数据分析结果加以展示,可与用户进行交互式展示。通过所述海量数据离线分析方法,可实现不同时空、不同业务、不同场景的电力数据资源的集中存储,统一管理,共享共用;通过对所存储的海量历史数据的分析和挖掘为管理层进行电力决策提供科学合理的依据。附图说明图1为本专利技术提供的一种实现海量数据离线分析的方法流程图。具体实施方式下面结合附图对本专利技术的具体实施方式作进一步的详细说明。本专利技术一种实现海量数据离线分析的方法,包括海量电力数据的采集、海量电力数据的预处理、海量电力数据的离线分析、分析结果展示,实现了基于Hadoop和Spark框架的离线数据分析模型。。其中,Hadoop是一个实现了MapReduce计算模型的开源分布式并行编程框架,它用于支持分布式应用程序,能够使用服务器集群分析超大型数据,然后将其转换为更易于这些应用程序使用的形式。程序员可以利用这个框架编写程序,实现对海量数据的计算和处理。此外,Hadoop还提供了分布式文件系统(HDFS)及分布式数据库(HBase)用来管理节点上的分布式数据。利用Hadoop框架及MapReduce编程思想来实现海量数据的计算和存储,并且将HDFS分布式文件系统和HBase分布式数据库很好的融入到分布式计算系统中,从而实现海量数据处理的并行性和高效性,并且得以实现很好的处理大规模数据的能力。HDFS分布式文件系统。HDFS是HadoopDistributedFileSystem的缩写,即:Hadoop分布式文件系统,它为分布式计算存储提供底层支持。HDFS提供了一个高度容错性和高吞吐量的海量数据存储解决方案。HDFS已经在各种大型在线服务和大型存储系统中得到广泛应用,已经成为海量数据存储的事实标准。HDFS能本文档来自技高网...

【技术保护点】
一种实现海量数据离线分析的方法,其特征在于,所述方法包括(1)采集海量电力数据;(2)对海量电力数据预处理;(3)离线分析海量电力数据;(4)分析结果展示。

【技术特征摘要】
1.一种实现海量数据离线分析的方法,其特征在于,所述方法包括
(1)采集海量电力数据;
(2)对海量电力数据预处理;
(3)离线分析海量电力数据;
(4)分析结果展示。
2.如权利要求1所述的一种实现海量数据离线分析的方法,其特征在于,所述步
骤(1)包括采集电力离线数据,其包括Sqoop采集部分和Put采集部分;所述Sqoop
采集部分运用Sqoop文件交换技术,采集各种形式的数据库表,直接将数据表存储到
HDFS文件系统中,也可以Hive或HBase数据表的形式进行存储;所述Put采集部分直
接将各种格式的数据文件或文件目录直接上传到HDFS文件系统中。
3.如权利要求1所述的一种实现海量数据离线分析的方法,其特征在于,所述步
骤(1)中对于流式数据,可采用Kafka采集工具,将流式数据汇聚到Kafka集群,由
HBase进行存储处理;针对大数据文件,可采用FTP协议或本地化上传的方式导入到
Hadoop中。
4.如权利要求2所述的一种实现海量数据离线分析的方法,其特征在于,所述HDFS
以数据块的形式进行存储,每块数据块默认存储三份,设置数据块大小为...

【专利技术属性】
技术研发人员:潘森周爱华朱力鹏饶伟黄进蔡皓
申请(专利权)人:国家电网公司中国电力科学研究院国网山东省电力公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1