异构数据的整合方法以及装置制造方法及图纸

技术编号:13913519 阅读:142 留言:0更新日期:2016-10-27 09:43
本发明专利技术公开了一种异构数据的整合方法以及装置。其中方法包括:分别预先建立至少一个目标表与多源表之间的二维关系;根据二维关系生成至少一个目标表的订阅规则,其中,订阅规则用于指示目标表中目标数据的来源;实时从多源表中采集针对目标事物的源数据,并基于至少一个目标表的订阅规则对实时采集到的源数据进行汇总并缓存;按照预设策略将汇总并缓存后的源数据装载至对应的至少一个目标表中。实现了源数据的一次抽取、多次写入的效果,避免同一张表的相同数据被重复抽取多次的情况,提高了数据同步效率,并提高了数据实时性。

【技术实现步骤摘要】

本专利技术涉及计算机
,尤其涉及一种异构数据的整合方法以及装置
技术介绍
在数据整合过程中,需要经过数据抽取、数据转换清洗以及数据装载三个过程,即简称为ETL(数据仓库技术)。目前,在处理多表对多表,即目标表数据来源于源端多张表,源端数据表被多个目标表所依赖的情况下,通常采用先将源端数据表中的数据导入目标前置库中,之后再通过存储过程或者其他工具将该目标前置库中的源端数据写入该多个目标表中。但是,目前存在的问题是,通过上述数据整合方法在写入不同的目标表时,需要按照目标表依赖的源表进行数据抽取、转换清洗和装载,因此存在同一张表的相同数据被重复抽取多次的问题,影响数据同步效率,从而影响数据实时效果。
技术实现思路
本专利技术的目的旨在至少在一定程度上解决上述的技术问题之一。为此,本专利技术的第一个目的在于提出一种异构数据的整合方法。该方法实现了源数据的一次抽取、多次写入的效果,避免同一张表的相同数据被重复抽取多次的情况,提高了数据同步效率,并提高了数据实时性。本专利技术的第二个目的在于提出一种异构数据的整合装置。为了实现上述目的,本专利技术第一方面实施例的异构数据的整合方法,包括:分别预先建立至少一个目标表与多源表之间的二维关系;根据所述二维关系生成所述至少一个目标表的订阅规则,其中,所述订阅规则用于指示目标表中目标数据的来源;实时从所述多源表中采集针对目标事物的源数据,并基于所述至少一个目标表的订阅规则对实时采集到的源数据进行汇总并缓存;按照预设策略将汇总并缓存后的源数据装载至对应的所述至少一个目标表中。根据本专利技术实施例的异构数据的整合方法,可预先分别建立至少一个目标表与多源表之间的二维关系,并根据二维关系生成至少一个目标表的订阅规则,在数据同步的过程中,可实时从多源表中采集针对目标事物的源数据,之后,基于至少一个目标表的订阅规则对实时采集到的源数据进行汇总并缓存,最后,按照预设策略将汇总并缓存后的源数据装载至对应的至少一个目标表中。即通过目标表的订阅规则,并基于该目标表的订阅规则对实时采集到的源数据进行汇总并缓存,实现了源数据的一次抽取、多次写入的效果,避免同一张表的相同数据被重复抽取多次的情况,提高了数据同步效率,并提高了数据实时性。为了实现上述目的,本专利技术第二方面实施例的异构数据的整合装置,包括:建立模块,用于分别预先建立至少一个目标表与多源表之间的二维关系;生成模块,用于根据所述二维关系生成所述至少一个目标表的订阅规则,其中,所述订阅规则用于指示目标表中目标数据的来源;采集模块,用于实时从所述多源表中采集针对目标事物的源数据;数据汇总模块,用于基于所述至少一个目标表的订阅规则对实时采集到的源数据进行汇总并缓存;装载模块,用于按照预设策略将汇总并缓存后的源数据装载至对应的所述至少一个目标表中。根据本专利技术实施例的异构数据的整合装置,可通过建立模块分别预先建立至少一个目标表与多源表之间的二维关系,生成模块根据二维关系生成至少一个目标表的订阅规则,采集模块可实时从多源表中采集针对目标事物的源数据,数据汇总模块基于至少一个目标表的订阅规则对实时采集到的源数据进行汇总并缓存,装载模块按照预设策略将汇总并缓存后的源数据装载至对应的至少一个目标表中。即通过目标表的订阅规则,并基于该目标表的订阅规则对实时采集到的源数据进行汇总并缓存,实现了源数据的一次抽取、多次写入的效果,避免同一张表的相同数据被重复抽取多次的情况,提高了数据同步效率,并提高了数据实时性。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中,图1是根据本专利技术一个实施例的异构数据的整合方法的流程图;图2(a)和(b)是根据本专利技术一个实施例的异构数据的整合方法的示例图;图3是根据本专利技术一个实施例的异构数据的整合装置的结构框图;图4是根据本专利技术一个具体实施例的异构数据的整合装置的结构框图;图5是根据本专利技术另一个具体实施例的异构数据的整合装置的结构框图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。下面参考附图描述根据本专利技术实施例的异构数据的整合方法以及装置。图1是根据本专利技术一个实施例的异构数据的整合方法的流程图。如图1所示,该异构数据的整合方法可以包括:S110,分别预先建立至少一个目标表与多源表之间的二维关系。其中,在本专利技术的实施例中,“至少一个”可理解为一个或多个。需要说明的是,在本专利技术的实施例中,在预先建立目标表与多源表之间的二维关系的前提是:目标表已与源表进行过数据同步,即,确保目标表中的所有目标数据都来源于源表。具体而言,在本专利技术的一个实施例中,分别确定至少一个目标表中各个目标数据所对应的数据组合来源并根据至少一个目标表中各个目标数据所对应的数据组合来源以建立至少一个目标表与多源表之间的二维关系。可以理解,上述二维关系可理解为目标表与源表之间的关系,也就是说目标表中的目标数据都来源于哪些源表。更具体地,可先获取目标表中的所有目标数据,并针对每个目标数据,确定每个目标数据所对应的数据组合来源,即该目标数据是由哪个或哪些源表中的数据组合而成的,之后,可根据该目标数据的数据组合来源建立该目标表与多源表之间的二维关系,即该目标表与哪个或哪些源表之间存在对应关系可以理解,在本专利技术的实施例中,该源表的个数为多个。其中,在本专利技术的实施例中,该二维关系可包括目标表中目标数据的来源于哪些源表、以及目标表中各个字段与该源表中各个字段的转换关系。举例而言,假设目标表1中包含数据列A1,确定该目标表1中数据列A1是由数据列A11和数据列A12组合而成,并确定该数据列A11来源源表A、数据列A12来源源表B。之后,可根据该数据列A1的数据组合来源以建立该目标表1与多源表之间的二维关系,即目标表1与源表A、与源表B存在二维关系。S120,根据二维关系生成至少一个目标表的订阅规则,其中,该订阅规则用于指示目标表中目标数据的来源。具体地,针对各个目标表,在建立该目标表与多源表之间的二维关系之后,可根据该二维关系确定该目标表中的目标数据依赖于哪个或哪些源表的哪个或哪些源数据,并根据该依赖关系来生成该目标表的订阅规则。例如,假设目标表1中包含数据列A1、A2和C1,确定数据列A1是由源数据A11和源数据A12组合而成,并确定该源数据A11来源源表A、源数据A12来源源表B,数据列C1由源表C的源数据C11组合而成的,之后,可将所依赖的属于同一个源表的源数据集合在一起,并以源表为维度,可以生成该目标表1的订阅规则为:目标表1=源表A(A11)+源表B(A12)+源表C(C11)。S130,实时从多源表中采集针对目标事物的源数据,并基于至少一个目标表的订阅规则对实时采集到的源数据进行汇总并缓存。具体而言,在本专利技术的实施例中,可先确定多源表的类型信息,并根据类型信息确定多源表对应的采集方式,之后,可根据采集方式实时从多源表中采集针对目标事物的源数据。其本文档来自技高网...

【技术保护点】
一种异构数据的整合方法,其特征在于,包括以下步骤:分别预先建立至少一个目标表与多源表之间的二维关系;根据所述二维关系生成所述至少一个目标表的订阅规则,其中,所述订阅规则用于指示目标表中目标数据的来源;实时从所述多源表中采集针对目标事物的源数据,并基于所述至少一个目标表的订阅规则对实时采集到的源数据进行汇总并缓存;按照预设策略将汇总并缓存后的源数据装载至对应的所述至少一个目标表中。

【技术特征摘要】
1.一种异构数据的整合方法,其特征在于,包括以下步骤:分别预先建立至少一个目标表与多源表之间的二维关系;根据所述二维关系生成所述至少一个目标表的订阅规则,其中,所述订阅规则用于指示目标表中目标数据的来源;实时从所述多源表中采集针对目标事物的源数据,并基于所述至少一个目标表的订阅规则对实时采集到的源数据进行汇总并缓存;按照预设策略将汇总并缓存后的源数据装载至对应的所述至少一个目标表中。2.如权利要求1所述的异构数据的整合方法,其特征在于,所述分别预先建立至少一个目标表与多源表之间的二维关系,包括:分别确定所述至少一个目标表中各个目标数据所对应的数据组合来源;根据所述至少一个目标表中各个目标数据所对应的数据组合来源以建立所述至少一个目标表与所述多源表之间的二维关系。3.如权利要求1所述的异构数据的整合方法,其特征在于,所述实时从所述多源表中采集针对目标事物的源数据,包括:确定所述多源表的类型信息,并根据所述类型信息确定所述多源表对应的采集方式;根据所述采集方式实时从所述多源表中采集针对所述目标事物的源数据。4.如权利要求3所述的异构数据的整合方法,其特征在于,所述根据所述采集方式实时从所述多源表中采集针对所述目标事物的源数据,包括:针对所述目标事物,根据所述多源表所对应的数据库日志判断是否存在有变更动作的源表;如果存在有变更动作的源表,则根据所述采集方式从所述有变更动作的源表中采集所述变更动作对应的源数据。5.如权利要求1至4中任一项所述的异构数据的整合方法,其特征在于,在所述按照预设策略将汇总并缓存后的源数据装载至对应的所述至少一个目标表中之后,所述方法还包括:将缓存后的源数据从缓存池中...

【专利技术属性】
技术研发人员:井玉成牟晓光
申请(专利权)人:东软集团股份有限公司国家信息中心
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1