数据处理方法、装置以及电子设备制造方法及图纸

技术编号:20160330 阅读:16 留言:0更新日期:2019-01-19 00:13
本发明专利技术提供了一种数据处理方法、装置以及电子设备,涉及数据处理技术领域,数据处理方法应用于抽取‑转换‑装载ETL处理工具,方法包括:调度对待处理数据进行ETL处理的ETL作业;执行ETL作业,得到目标数据并存储至数据仓库,其中,目标数据包括采用ETL作业对待处理数据进行ETL处理后得到的第一数据和用于唯一标识第一数据的标记信息;在根据ETL处理日志确定ETL作业失败时,根据ETL处理日志和标记信息从数据仓库中确定出目标数据,并对目标数据进行清理。采用上述方法,实现了对数据仓库中脏数据的准确定位和快速清理,解决了现有技术中存在的由于脏数据清理不及时而导致数据仓库中数据质量降低的问题。

【技术实现步骤摘要】
数据处理方法、装置以及电子设备
本专利技术涉及数据处理
,尤其是涉及一种数据处理方法、装置以及电子设备。
技术介绍
随着大数据和人工智能的发展,数据成为了重要的资源,数据分析、机器学习等技术都依靠于海量的数据。目前,数据通常存在于数据库、文件、流量日志等存储媒介中,通过抽取-转换-装载(Extract-Transform-Load,简称ETL)处理工具可以将分散的数据采集到数据仓库中或者数据管理平台中。其中,常见的ETL处理工具有Sqoop、Kettle等。但是,在ETL处理过程中会发生处理失败的情况,导致数据仓库中出现脏数据,从而降低了数据仓库中的数据质量。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种数据处理方法、装置以及电子设备,以解决现有技术中存在的脏数据导致数据仓库中数据质量降低的技术问题。第一方面,本专利技术实施例提供了一种数据处理方法,应用于抽取-转换-装载ETL处理工具,所述方法包括:调度对待处理数据进行ETL处理的ETL作业;执行所述ETL作业,得到目标数据并存储至数据仓库,其中,所述目标数据包括采用所述ETL作业对所述待处理数据进行ETL处理后得到的第一数据和用于唯一标识所述第一数据的标记信息;在根据ETL处理日志确定所述ETL作业失败时,根据所述ETL处理日志和所述标记信息从所述数据仓库中确定出所述目标数据,并对所述目标数据进行清理。第二方面,本专利技术实施例还提供一种数据处理装置,应用于ETL处理工具,包括:调度单元,用于调度对待处理数据进行ETL处理的ETL作业;执行单元,用于执行所述ETL作业,得到目标数据并存储至数据仓库,其中,所述目标数据包括采用所述ETL作业对所述待处理数据进行ETL处理后得到的第一数据和用于唯一标识所述第一数据的标记信息;清理单元,用于在根据ETL处理日志确定所述ETL作业失败时,根据所述ETL处理日志和所述标记信息从所述数据仓库中确定出所述目标数据,并对所述目标数据进行清理。第三方面,本专利技术实施例还提供一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述如第一方面所述的方法的步骤。第四方面,本专利技术实施例还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行如第一方面所述的方法。本专利技术实施例提供的技术方案带来了以下有益效果:本专利技术实施例提供的数据处理方法、装置以及电子设备中,数据处理方法应用于抽取-转换-装载ETL处理工具,该方法包括:调度对待处理数据进行ETL处理的ETL作业;执行所述ETL作业,得到目标数据并存储至数据仓库,其中,所述目标数据包括采用所述ETL作业对所述待处理数据进行ETL处理后得到的第一数据和用于唯一标识所述第一数据的标记信息;在根据ETL处理日志确定所述ETL作业失败时,根据所述ETL处理日志和所述标记信息从所述数据仓库中确定出所述目标数据,并对所述目标数据进行清理。采用上述方法,存储至数据仓库中的各目标数据均包含有用于唯一标识相应一个目标数据的标记信息,这样,就可以根据ETL处理日志和数据仓库中各目标数据的标记信息从数据仓库中确定出由于ETL作业执行失败而产生的脏数据并清理,从而实现了对数据仓库中脏数据的准确定位和快速清理,解决了现有技术中存在的由于脏数据清理不及时而导致数据仓库中数据质量降低的问题。本专利技术的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出了本专利技术实施例一所提供的数据处理方法的流程图;图2示出了本专利技术实施例一所提供的调度的ETL作业对源数据进行ETL处理过程的流程图;图3示出了本专利技术实施例一所提供的未针对第二数据设置新增列的数据结构示意图;图4示出了本专利技术实施例一所提供的针对第二数据设置有新增列的数据结构示意图;图5示出了本专利技术实施例二所提供的一种数据处理装置的结构示意图;图6示出了本专利技术实施例三所提供的一种电子设备的结构示意图。图标:3-数据处理装置;31-调度单元;32-执行单元;33-清理单元;4-电子设备;41-存储器;42-处理器;43-总线;44-通信接口。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。目前,在使用ETL处理工具对数据进行ETL处理的过程中,通常会由于各种原因发生ETL处理失败的情况,导致数据仓库中出现脏数据,从而降低了数据仓库中的数据质量,这便会影响到数据分析的结果和机器学习的效果,造成下游数据应用的连锁不良反应。因此,数据仓库中由于ETL处理的某个过程失败导致的脏数据,很可能会造成无法预估的损失。而目前业内的ETL处理工具都无法自动处理这种ETL处理失败导致的脏数据,只能通过人为的形式将这些脏数据找出进而删除。在数据量小的情况下,通过人为参与脏数据的寻找以及处理,可以临时性的解决这个问题,但是随着数据量的增加,这种方法便会愈发困难,并且很容易出错,导致严重后果。因此,目前数据仓库中出现脏数据导致数据仓库中数据质量降低的问题难以解决。基于此,本专利技术实施例提供的一种数据处理方法、装置以及电子设备,可以解决现有技术中存在的脏数据导致数据仓库中数据质量降低的技术问题。为便于对本专利技术实施例进行理解,首先对本专利技术实施例所公开的一种数据处理方法、装置以及电子设备进行详细介绍。实施例一:本专利技术实施例提供的一种数据处理方法,应用于ETL处理工具,如图1所示,该方法包括:S11:调度对待处理数据进行ETL处理的ETL作业。具体的,所谓ETL处理过程,指的是对数据抽取、转换、装载的过程。本专利技术实施例中,一个ETL处理过程可以定义为:调度一次ETL作业对待处理数据进行ETL处理的过程。实际应用中,一个ETL作业可以包括一个或多个ETL任务,一个ETL作业中预先定义了各ETL任务之间的处理逻辑关系,一个ETL作业可以被重复调度。ETL任务是ETL作业中能够对数据进行抽取、转换、装载处理的子单元,一个ETL任务可以单独对输入数据执行抽取、转换、装载处理,得到ETL处理后的数据。具体的,根据预设的ETL处理规则,在确定有源数据需要进行ETL处理时,需要具体调度一个ETL作业,并使用该一个ETL作业中包含的各ETL任务对待处理数据进行ETL处理。示例性的,参阅图2所示,ETL作业一(以下简称为作业一)由ETL任务A和ETL任务B组成,且ETL任务A和ETL任务B相本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,应用于抽取‑转换‑装载ETL处理工具,所述方法包括:调度对待处理数据进行ETL处理的ETL作业;执行所述ETL作业,得到目标数据并存储至数据仓库,其中,所述目标数据包括采用所述ETL作业对所述待处理数据进行ETL处理后得到的第一数据和用于唯一标识所述第一数据的标记信息;在根据ETL处理日志确定所述ETL作业失败时,根据所述ETL处理日志和所述标记信息从所述数据仓库中确定出所述目标数据,并对所述目标数据进行清理。

【技术特征摘要】
1.一种数据处理方法,其特征在于,应用于抽取-转换-装载ETL处理工具,所述方法包括:调度对待处理数据进行ETL处理的ETL作业;执行所述ETL作业,得到目标数据并存储至数据仓库,其中,所述目标数据包括采用所述ETL作业对所述待处理数据进行ETL处理后得到的第一数据和用于唯一标识所述第一数据的标记信息;在根据ETL处理日志确定所述ETL作业失败时,根据所述ETL处理日志和所述标记信息从所述数据仓库中确定出所述目标数据,并对所述目标数据进行清理。2.根据权利要求1所述的数据处理方法,其特征在于,所述ETL作业包括n个ETL任务,所述n为大于等于1的整数,当n大于1时,n个ETL任务之间存在任务执行的逻辑关系;所述标记信息包括第一标记信息,所述第一标记信息包括所述调度对待处理数据进行ETL处理的ETL作业的调度ID和所述ETL作业的作业ID;所述执行所述ETL作业,得到目标数据包括:根据所述ETL作业中各ETL任务之间的逻辑关系,执行所述ETL作业中的各ETL任务,当所述ETL作业中的第m个ETL任务执行完成后,针对产生的第二数据设置所述第一标记信息,将所述第二数据和所述第一标记信息作为执行第m+1个ETL任务的输入数据;针对所述输入数据中的第二数据执行所述第m+1个ETL任务,并将执行第m+1个ETL任务产生的第二数据和所述第一标记信息作为执行第m+2个ETL任务的输入数据,直至执行完第n个ETL任务后,将执行所述第n个ETL任务产生的第二数据作为所述目标数据的第一数据。3.根据权利要求2所述的数据处理方法,其特征在于,所述标记信息还包括第二标记信息,所述第二标记信息包括ETL任务的任务ID;所述执行所述ETL作业,得到目标数据还包括:在所述ETL作业中每个ETL任务执行完成后,针对产生的第二数据设置对应的第二标记信息,其中,在第m个ETL任务对应的第二标记信息中增加第m+1个ETL任务的任务ID,得到第m+1个任务对应的第二标记信息。4.根据权利要求1-3任一项所述的数据处理方法,其特征在于,所述在根据ETL处理日志确定所述ETL作业失败时,根据所述ETL处理日志和所述标记信息从所述数据仓库中确定出所述目标数据,并对所述目标数据进行清理,包括:遍历ETL处理日志,若所述ETL处理日志中作业状态标识指示所述ETL作业执行失败时,从所述ETL处理日志中获取所述标记信息;将与获取到的所述标记信息相匹配的数据仓库中的标记信息对应的目标数据确定为脏数据并清理。5.根据权利要求3所述的数据处理方法,其特征在于,针对产生的第二数据设置所述第一标记信息,包括:在所述第二数据中增加一列以存储所述第一标记信息;针对产生的第二数据设置所述第二标记信息,包括:在所述第二数据中增加一列以存储所述第二标记信息;用于存储所述第一标记信息的列和用于存储所述第二标记信息的列为相同的列或为不同的列。6.一种数据处理装置,其特征在于,应用于ETL处理工具,包括:调度单元,用于调度对待处理数据进行ETL处理的ETL作业;执行单元,用于执...

【专利技术属性】
技术研发人员:楼浩盛
申请(专利权)人:新华三大数据技术有限公司
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1