【技术实现步骤摘要】
数据处理方法、装置以及电子设备
本专利技术涉及数据处理
,尤其是涉及一种数据处理方法、装置以及电子设备。
技术介绍
随着大数据和人工智能的发展,数据成为了重要的资源,数据分析、机器学习等技术都依靠于海量的数据。目前,数据通常存在于数据库、文件、流量日志等存储媒介中,通过抽取-转换-装载(Extract-Transform-Load,简称ETL)处理工具可以将分散的数据采集到数据仓库中或者数据管理平台中。其中,常见的ETL处理工具有Sqoop、Kettle等。但是,在ETL处理过程中会发生处理失败的情况,导致数据仓库中出现脏数据,从而降低了数据仓库中的数据质量。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种数据处理方法、装置以及电子设备,以解决现有技术中存在的脏数据导致数据仓库中数据质量降低的技术问题。第一方面,本专利技术实施例提供了一种数据处理方法,应用于抽取-转换-装载ETL处理工具,所述方法包括:调度对待处理数据进行ETL处理的ETL作业;执行所述ETL作业,得到目标数据并存储至数据仓库,其中,所述目标数据包括采用所述ETL作业对所述待处理数据进行ETL处理后得到的第一数据和用于唯一标识所述第一数据的标记信息;在根据ETL处理日志确定所述ETL作业失败时,根据所述ETL处理日志和所述标记信息从所述数据仓库中确定出所述目标数据,并对所述目标数据进行清理。第二方面,本专利技术实施例还提供一种数据处理装置,应用于ETL处理工具,包括:调度单元,用于调度对待处理数据进行ETL处理的ETL作业;执行单元,用于执行所述ETL作业,得到目标数据并存储至数据 ...
【技术保护点】
1.一种数据处理方法,其特征在于,应用于抽取‑转换‑装载ETL处理工具,所述方法包括:调度对待处理数据进行ETL处理的ETL作业;执行所述ETL作业,得到目标数据并存储至数据仓库,其中,所述目标数据包括采用所述ETL作业对所述待处理数据进行ETL处理后得到的第一数据和用于唯一标识所述第一数据的标记信息;在根据ETL处理日志确定所述ETL作业失败时,根据所述ETL处理日志和所述标记信息从所述数据仓库中确定出所述目标数据,并对所述目标数据进行清理。
【技术特征摘要】
1.一种数据处理方法,其特征在于,应用于抽取-转换-装载ETL处理工具,所述方法包括:调度对待处理数据进行ETL处理的ETL作业;执行所述ETL作业,得到目标数据并存储至数据仓库,其中,所述目标数据包括采用所述ETL作业对所述待处理数据进行ETL处理后得到的第一数据和用于唯一标识所述第一数据的标记信息;在根据ETL处理日志确定所述ETL作业失败时,根据所述ETL处理日志和所述标记信息从所述数据仓库中确定出所述目标数据,并对所述目标数据进行清理。2.根据权利要求1所述的数据处理方法,其特征在于,所述ETL作业包括n个ETL任务,所述n为大于等于1的整数,当n大于1时,n个ETL任务之间存在任务执行的逻辑关系;所述标记信息包括第一标记信息,所述第一标记信息包括所述调度对待处理数据进行ETL处理的ETL作业的调度ID和所述ETL作业的作业ID;所述执行所述ETL作业,得到目标数据包括:根据所述ETL作业中各ETL任务之间的逻辑关系,执行所述ETL作业中的各ETL任务,当所述ETL作业中的第m个ETL任务执行完成后,针对产生的第二数据设置所述第一标记信息,将所述第二数据和所述第一标记信息作为执行第m+1个ETL任务的输入数据;针对所述输入数据中的第二数据执行所述第m+1个ETL任务,并将执行第m+1个ETL任务产生的第二数据和所述第一标记信息作为执行第m+2个ETL任务的输入数据,直至执行完第n个ETL任务后,将执行所述第n个ETL任务产生的第二数据作为所述目标数据的第一数据。3.根据权利要求2所述的数据处理方法,其特征在于,所述标记信息还包括第二标记信息,所述第二标记信息包括ETL任务的任务ID;所述执行所述ETL作业,得到目标数据还包括:在所述ETL作业中每个ETL任务执行完成后,针对产生的第二数据设置对应的第二标记信息,其中,在第m个ETL任务对应的第二标记信息中增加第m+1个ETL任务的任务ID,得到第m+1个任务对应的第二标记信息。4.根据权利要求1-3任一项所述的数据处理方法,其特征在于,所述在根据ETL处理日志确定所述ETL作业失败时,根据所述ETL处理日志和所述标记信息从所述数据仓库中确定出所述目标数据,并对所述目标数据进行清理,包括:遍历ETL处理日志,若所述ETL处理日志中作业状态标识指示所述ETL作业执行失败时,从所述ETL处理日志中获取所述标记信息;将与获取到的所述标记信息相匹配的数据仓库中的标记信息对应的目标数据确定为脏数据并清理。5.根据权利要求3所述的数据处理方法,其特征在于,针对产生的第二数据设置所述第一标记信息,包括:在所述第二数据中增加一列以存储所述第一标记信息;针对产生的第二数据设置所述第二标记信息,包括:在所述第二数据中增加一列以存储所述第二标记信息;用于存储所述第一标记信息的列和用于存储所述第二标记信息的列为相同的列或为不同的列。6.一种数据处理装置,其特征在于,应用于ETL处理工具,包括:调度单元,用于调度对待处理数据进行ETL处理的ETL作业;执行单元,用于执...
【专利技术属性】
技术研发人员:楼浩盛,
申请(专利权)人:新华三大数据技术有限公司,
类型:发明
国别省市:河南,41
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。