一种实现海量数据离线分析的方法技术

技术编号：13378481 阅读：58 留言：0更新日期：2016-07-21 07:29

本发明专利技术提出一种实现海量数据离线分析的方法，所述方法包括(1)采集海量电力数据；(2)对海量电力数据预处理；(3)离线分析海量电力数据；(4)分析结果展示。通过本发明专利技术海量数据离线分析方法，可实现不同时空、不同业务、不同场景的电力数据资源的集中存储，统一管理，共享共用；通过对所存储的海量历史数据的分析和挖掘为管理层进行电力决策提供科学合理的依据。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种离线分析的方法，具体讲涉及一种实现海量数据离线分析的方法。
技术介绍
电力信息技术正向数据信息应用的智能融合方向发展，其运行模式将迈向为以服务为中心的新阶段，同时，企业数据资产的价值不断被发掘，信息化条件下的企业生产和决策将更加智能化。大数据正是新形势下技术融合型发展和应用智能化理念的集中体现，具有应对数据体量巨大、数据类型繁多、价值密度低和处理速度快等数据特征的技术架构，及以行业内外高附加值的内容增值服务为目标的应用模式，其核心就是信息资源的开发利用。随着智能电网建设的不断深入和推进，电网运行和设备检/监测产生的数据量呈指数级增长，尤其是配电网规划、运行过程中产生的海量异构、多态的数据，逐渐构成了当今信息学界所关注的大数据。这些数据具有多时空、多来源、混杂和不确定性的特点。这些数据大多都存储在和业务紧密结合的Oracle系统，如何能够有效地分析利用这些数据，增加数据的鲁棒性和洁净度是配电网数据分析面临的问题和挑战。
技术实现思路
针对现有技术的不足，本专利技术提供一种实现海量数据离线分析的方法，包括数据采集部分、数据预处理部分、数据存储部分、离线数据分析处理部分和分析结果展示部分。数据采集部分基于Sqoop数据交换工具和Hadoop文件传输指令实现，并可同时进行初步的数据预处理，数据采集完成后，为进一步的数据预处理提供源数据；数据预处理部分基于ETL工具和自定义数据预处理模块，对数据进行过...

【技术保护点】
一种实现海量数据离线分析的方法，其特征在于，所述方法包括(1)采集海量电力数据；(2)对海量电力数据预处理；(3)离线分析海量电力数据；(4)分析结果展示。

【技术特征摘要】
1.一种实现海量数据离线分析的方法，其特征在于，所述方法包括
(1)采集海量电力数据；
(2)对海量电力数据预处理；
(3)离线分析海量电力数据；
(4)分析结果展示。
2.如权利要求1所述的一种实现海量数据离线分析的方法，其特征在于，所述步
骤(1)包括采集电力离线数据，其包括Sqoop采集部分和Put采集部分；所述Sqoop
采集部分运用Sqoop文件交换技术，采集各种形式的数据库表，直接将数据表存储到
HDFS文件系统中，也可以Hive或HBase数据表的形式进行存储；所述Put采集部分直
接将各种格式的数据文件或文件目录直接上传到HDFS文件系统中。
3.如权利要求1所述的一种实现海量数据离线分析的方法，其特征在于，所述步
骤(1)中对于流式数据，可采用Kafka采集工具，将流式数据汇聚到Kafka集群，由
HBase进行存储处理；针对大数据文件，可采用FTP协议或本地化上传的方式导入到
Hadoop中。
4.如权利要求2所述的一种实现海量数据离线分析的方法，其特征在于，所述HDFS
以数据块的形式进行存储，每块数据块默认存储三份，设置数据块大小为...

【专利技术属性】
技术研发人员：潘森，周爱华，朱力鹏，饶伟，黄进，蔡皓，
申请(专利权)人：国家电网公司，中国电力科学研究院，国网山东省电力公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人