应用于ETL的数据处理方法和装置及电子设备制造方法及图纸

技术编号:31749312 阅读:21 留言:0更新日期:2022-01-05 16:30
公开了一种应用于ETL的数据处理方法和装置及电子设备。包括:对ODS层的新表中数据执行数据治理,生成STD层的新表;将STD层的新表与旧表进行比较,以识别所述STD层的新表中的增量数据;对所述STD层的新表中数据执行数据开发,生成DWD层的新表;将所述DWD层的新表与旧表进行比较,以识别所述DWD层的新表中的增量数据;将所述STD层和/或DWD层中的增量数据写入到目标服务库中。入到目标服务库中。入到目标服务库中。

【技术实现步骤摘要】
应用于ETL的数据处理方法和装置及电子设备


[0001]本申请实施例涉及数据处理
,尤其涉及一种应用于ETL的数据处理方法和装置及电子设备。

技术介绍

[0002]ETL(Extract

Transform

Load)是一种集合了数据抽取(extract)、数据转换(transform)和数据加载(load)的技术。
[0003]在采用ETL技术的大数据项目中,通常包含以下几个数据处理阶段:
[0004]1、数据接入阶段,用于通过ETL的数据抽取技术,将数据从前置库中抽取到综合库。其中,所述前置库是原始数据所在的数据库,所述综合库是大数据平台的数据库。
[0005]2、数据开发阶段,用于通过ETL的数据转换技术,对抽取到综合库中的数据进行处理。所述处理可以包括例如数据清洗、数据融合等数据治理方式。
[0006]3、数据推送阶段,用于通过ETL的数据加载技术,将数据转换后综合库中的待加载数据同步到服务库。
[0007]4、数据服务阶段,用于通过ETL的数据传输技术,将服务库中的数据提供给应用。例如,数据服务系统基于服务库中的数据,以预设的网络接口如REST API,对应用提供数据服务。
[0008]其中,在数据推送阶段中,将数据转换后输出的待加载数据同步到服务库时,由于服务库的目的表(写入待加载数据的表)中数据和待加载数据可能存在主键冲突的情况,为了确保数据写入的正常执行,需要先清空服务库中的目的表,然后再将待加载数据全量写入到清空后的目的表中。
[0009]但是,清空目的表不仅需要消耗额外的时间,而且目的表中原本存储的数据被清空后也无法恢复。

技术实现思路

[0010]本说明书实施例提供的一种应用于ETL的数据处理方法及装置、电子设备。
[0011]根据本说明书实施例的第一方面,提供一种应用于ETL的数据处理方法,所述方法包括:
[0012]对ODS层的新表中数据执行数据治理,生成STD层的新表;其中,所述ODS层的新表用于存储本轮ETL执行数据抽取后获取的待处理数据;所述STD层的新表用于存储本轮ETL执行数据治理后获取的标准化数据;
[0013]将STD层的新表与旧表进行比较,以识别所述STD层的新表中的增量数据;其中,所述STD层的旧表用于存储上一轮ETL执行数据治理后获取的标准化数据;
[0014]对所述STD层的新表中数据执行数据开发,生成DWD层的新表;其中,所述DWD层的新表用于存储本轮ETL执行数据开发后获取的待加载数据;
[0015]将所述DWD层的新表与旧表进行比较,以识别所述DWD层的新表中的增量数据;其
中,所述DWD层的旧表用于存储上一轮ETL执行数据开发后获取的待加载数据;
[0016]将所述STD层和/或DWD层中的增量数据写入到目标服务库中。
[0017]根据本说明书实施例的第二方面,提供一种应用于ETL的数据处理装置,所述装置包括:
[0018]第一生成模块,用于对ODS层的新表中数据执行数据治理,生成STD层的新表;其中,所述ODS层的新表用于存储本轮ETL执行数据抽取后获取的待处理数据;所述STD层的新表用于存储本轮ETL执行数据治理后获取的标准化数据;
[0019]第一识别模块,用于将STD层的新表与旧表进行比较,以识别所述STD层的新表中的增量数据;其中,所述STD层的旧表用于存储上一轮ETL执行数据治理后获取的标准化数据;
[0020]第二生成模块,用于对所述STD层的新表中数据执行数据开发,生成DWD层的新表;其中,所述DWD层的新表用于存储本轮ETL执行数据开发后获取的待加载数据;
[0021]第二识别模块,用于将所述DWD层的新表与旧表进行比较,以识别所述DWD层的新表中的增量数据;其中,所述DWD层的旧表用于存储上一轮ETL执行数据开发后获取的待加载数据;
[0022]数据加载模块,用于将所述STD层和/或DWD层中的增量数据写入到目标服务库中。
[0023]根据本说明书实施例的第三方面,提供一种电子设备,包括:
[0024]处理器;
[0025]用于存储处理器可执行指令的存储器;
[0026]其中,所述处理器被配置为本说明书中任一项应用于ETL的数据处理方法。
[0027]本说明书实施例提供了应用于ETL的数据处理方案,通过识别待加载数据中的增量数据,仅将该增量数据同步到服务库。由于增量数据与目标服务库中的数据不存在主键冲突,因此即使不清空服务库的目的表,也可以正常写入数据。如此,由于无需清空服务库的目的表,因此提高了数据加载的效率。
附图说明
[0028]图1是本说明书一实施例提供的采用现有ETL技术的大数据项目的示意图;
[0029]图2是本说明书一实施例提供的应用于ETL的数据处理方法的流程图;
[0030]图3是本说明书一实施例提供的采用改进ETL技术的大数据项目的示意图;
[0031]图4是本说明书一实施例提供的应用于ETL的数据处理装置的硬件结构图;
[0032]图5是本说明书一实施例提供的应用于ETL的数据处理装置的模块示意图。
具体实施方式
[0033]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
[0034]在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包
括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0035]应当理解,尽管在本说明书可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
[0036]在采用现有ETL技术的大数据项目中,如图1所示ETL通常包含以下几个数据处理阶段:
[0037]1、数据接入阶段。ETL的控制端通过ETL的数据抽取技术,将数据从前置库中抽取到综合库。其中,所述前置库是原始数据所在的数据库,所述综合库是大数据平台的数据库。
[0038]2、数据开发阶段。ETL的控制端通过ETL的数据转换技术,对抽取到综合库中的数据进行处理。所述处理可以包括例如本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种应用于ETL的数据处理方法,其特征在于,所述方法包括:对ODS层的新表中数据执行数据治理,生成STD层的新表;其中,所述ODS层的新表用于存储本轮ETL执行数据抽取后获取的待处理数据;所述STD层的新表用于存储本轮ETL执行数据治理后获取的标准化数据;将STD层的新表与旧表进行比较,以识别所述STD层的新表中的增量数据;其中,所述STD层的旧表用于存储上一轮ETL执行数据治理后获取的标准化数据;对所述STD层的新表中数据执行数据开发,生成DWD层的新表;其中,所述DWD层的新表用于存储本轮ETL执行数据开发后获取的待加载数据;将所述DWD层的新表与旧表进行比较,以识别所述DWD层的新表中的增量数据;其中,所述DWD层的旧表用于存储上一轮ETL执行数据开发后获取的待加载数据;将所述STD层和/或DWD层中的增量数据写入到目标服务库中。2.根据权利要求1所述的方法,其特征在于,所述STD层和DWD层的新表中数据还配置有时间字段和状态字段;其中,所述时间字段用于记录数据的更新时刻,所述状态字段用于记录数据是否是新增数据。3.根据权利要求2所述的方法,其特征在于,所述将STD层的新表与旧表进行比较,包括:针对STD层的新表中存在,而STD层的旧表中不存在的数据,将所述STD层的新表中该数据的状态字段设为第一状态,并更新该数据的时间字段;其中,第一状态表示数据为新增数据。4.根据权利要求3所述的方法,其特征在于,还包括:针对STD层的新表中存在,而STD层的旧表中也存在的数据,进一步比对该数据在新表和旧表中的数据内容;如果数据内容不一致,则更新所述STD层的新表中该数据的时间字段。5.根据权利要求3所述的方法,其特征在于,还包括:针对STD层的新表中不存在,而STD层的旧表中存在的数据,在STD层的新表中新增该数据,并对该数据进行标记,以指示该数据已被删除。6.根据权利要求2所述的方法,其特征在于,所述将所述DWD层的新表与旧表进行比较,包括:针对DWD层的新表中存在,而DWD层的旧表中不存在的数据,将所述DWD层的新表中该数据的状态字段设为第一状态,并更新该数据的时间字段;其中,第一状态表示数据为新增数据。7.根据权利要求6所述的方法,其特征...

【专利技术属性】
技术研发人员:查金祥
申请(专利权)人:杭州数梦工场科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1