【技术实现步骤摘要】
一种基于多级异构数据存储的大数据处理方法
本专利技术属于数据处理
,尤其涉及一种基于多级异构数据存储的大数据处理方法。
技术介绍
目前,电力系统仍然存在数据难以有效汇聚、质量低下、标准不统一等问题,大数据处理是一项技术难度大、复杂性高的系统工程。以大数据处理为抓手,以信息化手段为支撑,推进源端数据处理和后端数据融合,提升数据全寿命质量,挖掘数据价值,促进“全业务融合、全流程贯通”。提出的各项数据处理方法论加快了电网数据资源处理和整改,全面提升公司数据质量,实现跨业务、跨系统间数据高效贯通、高效共享。实现了电网企业数据的高效整合、跨专业集成共享、多业务有效融合。
技术实现思路
针对现有技术的不足,本专利技术的目的是提供一种基于多级异构数据存储的大数据处理方法,该方法克服了现有方法跨专业、跨部门数据标准不统一,各业务系统相对独立,存在数据存储应用标准不一致、信息资源难以跨专业贯通、业务集成难度大等问题,解决了数据类型繁多、体量大难以汇聚,数据类型繁多缺少有效的处理方法等问题。构建分级数据集成架构,完成电 ...
【技术保护点】
1.一种基于多级异构数据存储的大数据处理方法,其特征在于包括下述步骤:/n(1)数据接入:根据采集数据的时效性、数据类型等要求,将数据接入分为结构化数据接入、非结构化数据接入和实时数据接入三个部分。具体接入过程如下:/n1)结构化数据接入方面,分为存量数据初始化接入、增量数据接入和数据同步复制三种方式。/n存量数据以及实时性不高的增量数据,采用ETL(Informatica)数据抽取工具。对于存量数据采用全量导入方式将数据存储到指定目的地,以供数据处理、数据装载进数据库、数据核查、数据重用、数据备份等目的。该方式在将存量数据初始化时,可以选择系统闲时的时间窗口,将历史数据全 ...
【技术特征摘要】
1.一种基于多级异构数据存储的大数据处理方法,其特征在于包括下述步骤:
(1)数据接入:根据采集数据的时效性、数据类型等要求,将数据接入分为结构化数据接入、非结构化数据接入和实时数据接入三个部分。具体接入过程如下:
1)结构化数据接入方面,分为存量数据初始化接入、增量数据接入和数据同步复制三种方式。
存量数据以及实时性不高的增量数据,采用ETL(Informatica)数据抽取工具。对于存量数据采用全量导入方式将数据存储到指定目的地,以供数据处理、数据装载进数据库、数据核查、数据重用、数据备份等目的。该方式在将存量数据初始化时,可以选择系统闲时的时间窗口,将历史数据全量导入到落地文件。优点是可以重复进行数据加载,无需重复访问业务系统。对于增量数据根据时间戳进行增量抽取,抽取进程通过比较系统时间与抽取源表的时间戳字段的值来决定抽取哪些数据。这种方式需要在源表上增加一个时间戳字段,系统中更新修改表数据的时候,同时修改时间戳字段的值,采用时间戳方式实现数据增量捕捉机制对源系统性能影响很小,从而保护了源端系统的正常运行。
数据同步复制方面采用OGG软件进行。OGG是一种基于数据库在线日志(Redolog)分析技术的结构化数据复制工具,利用数据库日志在线跟踪、分析技术,将源数据库的交易信息以事务为单位,传递和装载到目标数据库中,以达到源端数据与目标端复制数据保持同步的目的。
2)非结构化数据接入方面,采用分布式任务架构工具,使工具能轻松的进行横向扩展,根据系统数据量大小决定用于迁移的服务器数量,提高迁移速度,同时底层采用开源组件zookeeper做了相应的负载均衡处理,使每台迁移服务器都能在更高效进行历史数据迁移,完成增量数据同步备份功能模块开发,由于数据要在两个数据平台之间传出底层采用异步解耦的方式,不仅使数据能完整的进行备份,还可有效的避开系统忙时进行备份操作,保证了系统的稳定性,采用webservice/http接口方式进行平台间的数据通信。基于大数据平台分布式文件系统与分布式列式数据库分别基于HadoopHDFS、Hbase优化封装。
3)采集量测数据接入方面,...
【专利技术属性】
技术研发人员:胡博,雷振江,王丽霞,李伟,王大维,李钊,刘晓强,胡畔,冉冉,胡楠,顾海林,关宇,靳光辉,潘邈,梁明,曹国强,伏广东,唐立合,
申请(专利权)人:国网辽宁省电力有限公司电力科学研究院,南京南瑞信息通信科技有限公司,国家电网有限公司,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。