一种基于多级异构数据存储的大数据处理方法技术

技术编号:26762474 阅读:18 留言:0更新日期:2020-12-18 23:12
一种基于多级异构数据存储的大数据处理方法属于数据处理技术领域,尤其涉及一种基于多级异构数据存储的大数据处理方法。本发明专利技术提供一种基于多级异构数据存储的大数据处理方法,该方法克服了现有方法跨专业、跨部门数据标准不统一,各业务系统相对独立,存在数据存储应用标准不一致、信息资源难以跨专业贯通、业务集成难度大等问题,解决了数据类型繁多、体量大难以汇聚,数据类型繁多缺少有效的处理方法等问题。构建分级数据集成架构,完成电力行业全过程多级异构数据的高效汇聚,实现数据的横向共享、纵向贯通,消除企业信息分散的壁垒。

【技术实现步骤摘要】
一种基于多级异构数据存储的大数据处理方法
本专利技术属于数据处理
,尤其涉及一种基于多级异构数据存储的大数据处理方法。
技术介绍
目前,电力系统仍然存在数据难以有效汇聚、质量低下、标准不统一等问题,大数据处理是一项技术难度大、复杂性高的系统工程。以大数据处理为抓手,以信息化手段为支撑,推进源端数据处理和后端数据融合,提升数据全寿命质量,挖掘数据价值,促进“全业务融合、全流程贯通”。提出的各项数据处理方法论加快了电网数据资源处理和整改,全面提升公司数据质量,实现跨业务、跨系统间数据高效贯通、高效共享。实现了电网企业数据的高效整合、跨专业集成共享、多业务有效融合。
技术实现思路
针对现有技术的不足,本专利技术的目的是提供一种基于多级异构数据存储的大数据处理方法,该方法克服了现有方法跨专业、跨部门数据标准不统一,各业务系统相对独立,存在数据存储应用标准不一致、信息资源难以跨专业贯通、业务集成难度大等问题,解决了数据类型繁多、体量大难以汇聚,数据类型繁多缺少有效的处理方法等问题。构建分级数据集成架构,完成电力行业全过程多级异构数据的高效汇聚,实现数据的横向共享、纵向贯通,消除企业信息分散的壁垒。为实现上述目的,本专利技术采用如下技术方案,本专利技术包括包括下述步骤:(1)数据接入:根据采集数据的时效性、数据类型等要求,将数据接入分为结构化数据接入、非结构化数据接入和实时数据接入三个部分。具体接入过程如下:1)结构化数据接入方面,分为存量数据初始化接入、增量数据接入和数据同步复制三种方式。存量数据以及实时性不高的增量数据,采用ETL(Informatica)数据抽取工具。对于存量数据采用全量导入方式将数据存储到指定目的地,以供数据处理、数据装载进数据库、数据核查、数据重用、数据备份等目的。该方式在将存量数据初始化时,可以选择系统闲时的时间窗口,将历史数据全量导入到落地文件。优点是可以重复进行数据加载,无需重复访问业务系统。对于增量数据根据时间戳进行增量抽取,抽取进程通过比较系统时间与抽取源表的时间戳字段的值来决定抽取哪些数据。这种方式需要在源表上增加一个时间戳字段,系统中更新修改表数据的时候,同时修改时间戳字段的值,采用时间戳方式实现数据增量捕捉机制对源系统性能影响很小,从而保护了源端系统的正常运行。数据同步复制方面采用OGG软件进行。OGG是一种基于数据库在线日志(Redolog)分析技术的结构化数据复制工具,利用数据库日志在线跟踪、分析技术,将源数据库的交易信息以事务为单位,传递和装载到目标数据库中,以达到源端数据与目标端复制数据保持同步的目的。2)非结构化数据接入方面,采用分布式任务架构工具,使工具能轻松的进行横向扩展,根据系统数据量大小决定用于迁移的服务器数量,提高迁移速度,同时底层采用开源组件zookeeper做了相应的负载均衡处理,使每台迁移服务器都能在更高效进行历史数据迁移,完成增量数据同步备份功能模块开发,由于数据要在两个数据平台之间传出底层采用异步解耦的方式,不仅使数据能完整的进行备份,还可有效的避开系统忙时进行备份操作,保证了系统的稳定性,采用webservice/http接口方式进行平台间的数据通信。基于大数据平台分布式文件系统与分布式列式数据库分别基于HadoopHDFS、Hbase优化封装。3)采集量测数据接入方面,采用E文件解析技术,解析E文件并添加相应的元数据信息后发送到Kafka集群,入库服务器接收Kafka集群发送过来的消息队列并存储到HBase数据库中。(2)数据对比:首先获取数据库源和目标表,分别对源和目标表的数据进行排序;取得源表中最小主键字段W和最大主键字段X,获取目标表中最小主键字段Y和最大主键字段Z;根据W、X、Y、Z的大小,定义若干个区间,根据各条数据主键字段的大小,对源表和目标表中的数据进行区间划分;比较同一区间内源和目标表中的所有数据。区间的划分如下,当W≤Y、X≤Z,则定义的区间为[W,Y]、[Y,X]、[X,Z];根据各条数据主键字段的大小,源表中的数据被划分成[W,Y]和[Y,X]两个区间,目标表中的数据被划分成[X,Z]和[Y,X]两个区间;当W≤Y、X≥Z,则定义的区间为[W,Y]、[Y,Z]、[Z,X];根据各条数据主键字段的大小,源表中的数据被划分成[W,Y]、[Y,Z]和[Z,X]三个区间,目标表中的数据被划分成[Y,Z]一个区间;当W≥Y、X≤Z,则定义的区间为[Y,W]、[W,X]、[X,Z];根据各条数据主键字段的大小,源表中的数据被划分成[W,X]一个区间,目标表中的数据被划分成[Y,W]、[W,X]和[X,Z]三个区间;当W≥Y、X≥Z,则定义的区间为[Y,W]、[W,Z]、[Z,X];根据各条数据主键字段的大小,源表中的数据被划分成[W,Z]和[Z,X]二个区间,目标表中的数据被划分成[Y,W]和[W,Z]二个区间。比较同一区间内源表和目标表中数据的过程为,S1,分别获取源表和目标表中的一条数据;S2,判断两条数据是否全部为空,如果是,则结束;如果不是则转至S3;S3,判断两条数据是否全部不为空,如果是,则依次进行主键字段比较和非主键字段比较,如果从源表获取的数据为空,则判定目标表数据大于源表数据,分别获取源表和目标表中的下一条数据,转至步骤S2,如果从目标表获取的数据为空,则判定源表数据大于目标表数据,分别获取源表和目标表中的下一条数据,转至步骤S2。本专利技术有益效果。本专利技术利用大数据处理技术,建设电力大数据处理管理模块,对电力数据类型繁多、体量大难以汇聚提供了有效的处理方法。(1)利用大数据技术,建立电力数据处理管理方法,对电力数据类型繁多、体量大难以汇聚提供了有效的处理方法。(2)该方法投入使用后不仅能够提高电力行业数据质量,而且提高了数据安全性和可靠性,进一步为各业务系统提供优质的数据。附图说明下面结合附图和具体实施方式对本专利技术做进一步说明。本专利技术保护范围不仅局限于以下内容的表述。图1是本专利技术ETL(Informatica)数据抽取图。图2是本专利技术OGG数据同步复制图。图3是本专利技术非结构化数据接入图。图4是本专利技术采集量测数据接入图。具体实施方式如图所示,本专利技术包括包括下述步骤:(1)数据接入:根据采集数据的时效性、数据类型等要求,将数据接入分为结构化数据接入、非结构化数据接入和实时数据接入三个部分。具体接入过程如下:1)结构化数据接入方面,分为存量数据初始化接入、增量数据接入和数据同步复制三种方式。存量数据以及实时性不高的增量数据,采用ETL(Informatica)数据抽取工具。对于存量数据采用全量导入方式将数据存储到指定目的地,以供数据处理、数据装载进数据库、数据核查、数据重用、数据备份等目的。该方式在将存量数据初始化时,可以选择系统闲时的时间窗口,将历史数据全量导入到本文档来自技高网...

【技术保护点】
1.一种基于多级异构数据存储的大数据处理方法,其特征在于包括下述步骤:/n(1)数据接入:根据采集数据的时效性、数据类型等要求,将数据接入分为结构化数据接入、非结构化数据接入和实时数据接入三个部分。具体接入过程如下:/n1)结构化数据接入方面,分为存量数据初始化接入、增量数据接入和数据同步复制三种方式。/n存量数据以及实时性不高的增量数据,采用ETL(Informatica)数据抽取工具。对于存量数据采用全量导入方式将数据存储到指定目的地,以供数据处理、数据装载进数据库、数据核查、数据重用、数据备份等目的。该方式在将存量数据初始化时,可以选择系统闲时的时间窗口,将历史数据全量导入到落地文件。优点是可以重复进行数据加载,无需重复访问业务系统。对于增量数据根据时间戳进行增量抽取,抽取进程通过比较系统时间与抽取源表的时间戳字段的值来决定抽取哪些数据。这种方式需要在源表上增加一个时间戳字段,系统中更新修改表数据的时候,同时修改时间戳字段的值,采用时间戳方式实现数据增量捕捉机制对源系统性能影响很小,从而保护了源端系统的正常运行。/n数据同步复制方面采用OGG软件进行。OGG是一种基于数据库在线日志(Redolog)分析技术的结构化数据复制工具,利用数据库日志在线跟踪、分析技术,将源数据库的交易信息以事务为单位,传递和装载到目标数据库中,以达到源端数据与目标端复制数据保持同步的目的。/n2)非结构化数据接入方面,采用分布式任务架构工具,使工具能轻松的进行横向扩展,根据系统数据量大小决定用于迁移的服务器数量,提高迁移速度,同时底层采用开源组件zookeeper做了相应的负载均衡处理,使每台迁移服务器都能在更高效进行历史数据迁移,完成增量数据同步备份功能模块开发,由于数据要在两个数据平台之间传出底层采用异步解耦的方式,不仅使数据能完整的进行备份,还可有效的避开系统忙时进行备份操作,保证了系统的稳定性,采用webservice/http接口方式进行平台间的数据通信。基于大数据平台分布式文件系统与分布式列式数据库分别基于Hadoop HDFS、Hbase优化封装。/n3)采集量测数据接入方面,采用E文件解析技术,解析E文件并添加相应的元数据信息后发送到Kafka集群,入库服务器接收Kafka集群发送过来的消息队列并存储到HBase数据库中。/n(2)数据对比:首先获取数据库源和目标表,分别对源和目标表的数据进行排序;/n取得源表中最小主键字段W和最大主键字段X,获取目标表中最小主键字段Y和最大主键字段Z;/n根据W、X、Y、Z的大小,定义若干个区间,根据各条数据主键字段的大小,对源表和目标表中的数据进行区间划分;/n比较同一区间内源和目标表中的所有数据。/n区间的划分如下,/n当W≤Y、X≤Z,则定义的区间为[W,Y]、[Y,X]、[X,Z];根据各条数据主键字段的大小,源表中的数据被划分成[W,Y]和[Y,X]两个区间,目标表中的数据被划分成[X,Z]和[Y,X]两个区间;/n当W≤Y、X≥Z,则定义的区间为[W,Y]、[Y,Z]、[Z,X];根据各条数据主键字段的大小,源表中的数据被划分成[W,Y]、[Y,Z]和[Z,X]三个区间,目标表中的数据被划分成[Y,Z]一个区间;/n当W≥Y、X≤Z,则定义的区间为[Y,W]、[W,X]、[X,Z];根据各条数据主键字段的大小,源表中的数据被划分成[W,X]一个区间,目标表中的数据被划分成[Y,W]、[W,X]和[X,Z]三个区间;/n当W≥Y、X≥Z,则定义的区间为[Y,W]、[W,Z]、[Z,X];根据各条数据主键字段的大小,源表中的数据被划分成[W,Z]和[Z,X]二个区间,目标表中的数据被划分成[Y,W]和[W,Z]二个区间。/n比较同一区间内源表和目标表中数据的过程为,/nS1,分别获取源表和目标表中的一条数据;/nS2,判断两条数据是否全部为空,如果是,则结束;如果不是则转至S3;/nS3,判断两条数据是否全部不为空,如果是,则依次进行主键字段比较和非主键字段比较,如果从源表获取的数据为空,则判定目标表数据大于源表数据,分别获取源表和目标表中的下一条数据,转至步骤S2,如果从目标表获取的数据为空,则判定源表数据大于目标表数据,分别获取源表和目标表中的下一条数据,转至步骤S2。/n...

【技术特征摘要】
1.一种基于多级异构数据存储的大数据处理方法,其特征在于包括下述步骤:
(1)数据接入:根据采集数据的时效性、数据类型等要求,将数据接入分为结构化数据接入、非结构化数据接入和实时数据接入三个部分。具体接入过程如下:
1)结构化数据接入方面,分为存量数据初始化接入、增量数据接入和数据同步复制三种方式。
存量数据以及实时性不高的增量数据,采用ETL(Informatica)数据抽取工具。对于存量数据采用全量导入方式将数据存储到指定目的地,以供数据处理、数据装载进数据库、数据核查、数据重用、数据备份等目的。该方式在将存量数据初始化时,可以选择系统闲时的时间窗口,将历史数据全量导入到落地文件。优点是可以重复进行数据加载,无需重复访问业务系统。对于增量数据根据时间戳进行增量抽取,抽取进程通过比较系统时间与抽取源表的时间戳字段的值来决定抽取哪些数据。这种方式需要在源表上增加一个时间戳字段,系统中更新修改表数据的时候,同时修改时间戳字段的值,采用时间戳方式实现数据增量捕捉机制对源系统性能影响很小,从而保护了源端系统的正常运行。
数据同步复制方面采用OGG软件进行。OGG是一种基于数据库在线日志(Redolog)分析技术的结构化数据复制工具,利用数据库日志在线跟踪、分析技术,将源数据库的交易信息以事务为单位,传递和装载到目标数据库中,以达到源端数据与目标端复制数据保持同步的目的。
2)非结构化数据接入方面,采用分布式任务架构工具,使工具能轻松的进行横向扩展,根据系统数据量大小决定用于迁移的服务器数量,提高迁移速度,同时底层采用开源组件zookeeper做了相应的负载均衡处理,使每台迁移服务器都能在更高效进行历史数据迁移,完成增量数据同步备份功能模块开发,由于数据要在两个数据平台之间传出底层采用异步解耦的方式,不仅使数据能完整的进行备份,还可有效的避开系统忙时进行备份操作,保证了系统的稳定性,采用webservice/http接口方式进行平台间的数据通信。基于大数据平台分布式文件系统与分布式列式数据库分别基于HadoopHDFS、Hbase优化封装。
3)采集量测数据接入方面,...

【专利技术属性】
技术研发人员:胡博雷振江王丽霞李伟王大维李钊刘晓强胡畔冉冉胡楠顾海林关宇靳光辉潘邈梁明曹国强伏广东唐立合
申请(专利权)人:国网辽宁省电力有限公司电力科学研究院南京南瑞信息通信科技有限公司国家电网有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1