一种数据回填中处理异常数据的方法和装置制造方法及图纸

技术编号:24251440 阅读:35 留言:0更新日期:2020-05-22 23:31
本发明专利技术公开了一种数据回填中处理异常数据的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:在存在异常数据的情况下,确定所述异常数据的元数据和时间字段信息;基于存储的血缘关系数据,根据所述异常数据的元数据,确定目标任务流以及所述目标任务流的执行顺序;其中,所述血缘关系数据至少用于表述数据之间的关联关系;根据所述执行顺序和所述异常数据的时间字段信息,执行所述目标任务流。该方法在数据回填的场景中,基于数据与任务之间的血缘关系,自动化处理异常数据问题,无需人为干预,大大提高了处理效率和降低人工成本。

A method and device for dealing with abnormal data in data backfilling

【技术实现步骤摘要】
一种数据回填中处理异常数据的方法和装置
本专利技术涉及计算机
,尤其涉及一种数据回填中处理异常数据的方法和装置。
技术介绍
Airflow是一个可编程,调度和监控的工作流平台,基于有向无环图dag,airflow可以定义一组有依赖的任务,按照依赖依次执行。airflow提供了丰富的命令行工具用于系统管控,而其web管理界面同样也可以方便的管控调度任务,并且对任务运行状态进行实时监控,方便了系统的运维和管理。不同于其它调度器使用XML或者text文件方式定义工作流,airflow通过python文件作流,用户可以通过代码完全自定义自己的工作流。airflow的主要功能:工作流定义、任务调度、任务依赖、变量、池、分布式执行任务等。Backfill功能是airflow可以根据时间段对dag中的多个任务根据依赖关系进行数据回填。Clear功能是airflow可以根据时间段清除一些任务的状态,使得可对dag中的某个任务进行重运行。Aiflow作为任务调度系统无法知晓数据的采集的异常情况,只能等数据开发工程师发现异常情况之后自主编写脚本触发backfill和clear功能才能重新运行数据。从发现问题到解决问题耗时。以及,Backfill以及Clear功能的作用范围都在一个dag范围内,无法根据依赖关系进行跨dag的任务重运行。在实际的数据采集场景下,一旦数据出现异常,数据回填的场景下,需要依赖数据开发人员的经验进行人工编译脚本处理,浪费人力资源,完全可以根据元数据获取数据的血缘关系来进行自动化。
技术实现思路
有鉴于此,本专利技术实施例提供一种数据回填中处理异常数据的方法和装置,能够在数据回填的场景中,自动化处理异常数据问题,无需人为干预,大大提高了处理效率和降低人工成本。为实现上述目的,根据本专利技术实施例的一个方面,提供了一种数据回填中处理异常数据的方法。本专利技术实施例的数据回填中处理异常数据的方法包括:在存在异常数据的情况下,确定所述异常数据的元数据和时间字段信息;基于存储的血缘关系数据,根据所述异常数据的元数据,确定目标任务流以及所述目标任务流的执行顺序;其中,所述血缘关系数据至少用于表述数据之间的关联关系;根据所述执行顺序和所述异常数据的时间字段信息,执行所述目标任务流。可选地,在存在异常数据的情况下,确定所述异常数据的元数据和时间字段信息之前,还包括:对存储在分布式文件系统中的原始数据进行解析,得到所述原始数据的时间字段信息;判断所述原始数据的时间字段信息是否符合正常范围条件;在所述原始数据的时间字段信息不符合正常范围条件时,确定所述原始数据中存在异常数据。可选地,基于存储的血缘关系数据,根据所述异常数据的元数据,确定目标任务流以及所述目标任务流的执行顺序的步骤包括:根据所述原始数据的时间字段信息,将所述历史数据回洗到相应的时间分区表中,以及根据所述异常数据的时间字段信息,确定所述异常数据的时间分区表的目标表名;其中,所述元数据至少包括表名;基于存储的血缘关系数据,根据所述异常数据的目标表名,确定目标任务流以及所述目标任务流的执行顺序。可选地,所述时间分区表为hive表;和/或,在根据所述执行顺序和所述异常数据的时间字段信息,执行所述目标任务流之后,还包括:将所述hive表中的数据更新至对应的数据库。可选地,在根据所述执行顺序和所述异常数据的时间字段信息,执行所述目标任务流之后,还包括:确定所述目标任务流中不存在未执行成功的任务,判断是否存在后续延迟数据;如果存在,则确认存在异常数据的情况。可选地,还包括:确定所述异常数据为重复数据;对所述重复数据进行过滤。为实现上述目的,根据本专利技术实施例的另一个方面,提供了一种数据回填中处理异常数据的装置。本专利技术实施例的数据回填中处理异常数据的装置包括:元数据确定模块,用于在存在异常数据的情况下,确定所述异常数据的元数据和时间字段信息;任务流确定模块,用于基于存储的血缘关系数据,根据所述异常数据的元数据,确定目标任务流以及所述目标任务流的执行顺序;其中,所述血缘关系数据至少用于表述数据之间的关联关系;执行模块,用于根据所述执行顺序和所述异常数据的时间字段信息,执行所述目标任务流。可选地,还包括异常检测模块,用于对存储在分布式文件系统中的原始数据进行解析,得到所述原始数据的时间字段信息;判断所述原始数据的时间字段信息是否符合正常范围条件;在所述原始数据的时间字段信息不符合正常范围条件时,确定所述原始数据中存在异常数据。可选地,所述任务流确定模块还用于,根据所述原始数据的时间字段信息,将所述历史数据回洗到相应的时间分区表中,以及根据所述异常数据的时间字段信息,确定所述异常数据的时间分区表的目标表名;其中,所述元数据至少包括表名;基于存储的血缘关系数据,根据所述异常数据的目标表名,确定目标任务流以及所述目标任务流的执行顺序。可选地,还包括执行结果确定模块,用于确定所述目标任务流中不存在未执行成功的任务,判断是否存在后续延迟数据;如果存在,则确认存在异常数据的情况。可选地,还包括重复异常处理模块,用于确定所述异常数据为重复数据;对所述重复数据进行过滤。为实现上述目的,根据本专利技术实施例的再一个方面,提供了一种电子设备。本专利技术实施例的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一项的数据回填中处理异常数据的方法。为实现上述目的,根据本专利技术实施例的再一个方面,提供了一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现上述任一项的数据回填中处理异常数据的方法。上述专利技术中的一个实施例具有如下优点或有益效果:在数据回填的场景中,基于数据与任务之间的血缘关系,确定出任务流的执行顺序并跟踪任务的运行状态,自动化处理异常数据问题,无需人为干预,大大提高了处理效率和降低人工成本。上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。附图说明附图用于更好地理解本专利技术,不构成对本专利技术的不当限定。其中:图1是根据本专利技术实施例的数据回填中处理异常数据的方法的主要流程的示意图;图2是根据本专利技术实施例的数据回填中处理异常数据的方法的示意图;图3是根据本专利技术实施例的数据回填中处理异常数据的装置的主要模块的示意图;图4是本专利技术实施例可以应用于其中的示例性系统架构图;图5是适于用来实现本专利技术实施例的终端设备或服务器的计算机系统的结构示意图。具体实施方式以下结合附图对本专利技术的示范性实施例做出说明,其中包括本专利技术实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本专利技术的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。图1是根据本专利技术实本文档来自技高网...

【技术保护点】
1.一种数据回填中处理异常数据的方法,其特征在于,包括:/n在存在异常数据的情况下,确定所述异常数据的元数据和时间字段信息;/n基于存储的血缘关系数据,根据所述异常数据的元数据,确定目标任务流以及所述目标任务流的执行顺序;其中,所述血缘关系数据至少用于表述数据之间的关联关系;/n根据所述执行顺序和所述异常数据的时间字段信息,执行所述目标任务流。/n

【技术特征摘要】
1.一种数据回填中处理异常数据的方法,其特征在于,包括:
在存在异常数据的情况下,确定所述异常数据的元数据和时间字段信息;
基于存储的血缘关系数据,根据所述异常数据的元数据,确定目标任务流以及所述目标任务流的执行顺序;其中,所述血缘关系数据至少用于表述数据之间的关联关系;
根据所述执行顺序和所述异常数据的时间字段信息,执行所述目标任务流。


2.根据权利要求1所述的方法,其特征在于,在存在异常数据的情况下,确定所述异常数据的元数据和时间字段信息之前,还包括:
对存储在分布式文件系统中的原始数据进行解析,得到所述原始数据的时间字段信息;
判断所述原始数据的时间字段信息是否符合正常范围条件;在所述原始数据的时间字段信息不符合正常范围条件时,确定所述原始数据中存在异常数据。


3.根据权利要求2所述的方法,其特征在于,基于存储的血缘关系数据,根据所述异常数据的元数据,确定目标任务流以及所述目标任务流的执行顺序的步骤包括:
根据所述原始数据的时间字段信息,将所述历史数据回洗到相应的时间分区表中,以及根据所述异常数据的时间字段信息,确定所述异常数据的时间分区表的目标表名;其中,所述元数据至少包括表名;
基于存储的血缘关系数据,根据所述异常数据的目标表名,确定目标任务流以及所述目标任务流的执行顺序。


4.根据权利要求3所述的方法,其特征在于,所述时间分区表为hive表;和/或,
在根据所述执行顺序和所述异常数据的时间字段信息,执行所述目标任务流之后,还包括:将所述hive表中的数据更新至对应的数据库。


5.一种数据回填中处理异常数据的装置,其特征在于,包括:
元数据确定模块,用于在存在异常数据的情况下,确定...

【专利技术属性】
技术研发人员:陈琪瑶
申请(专利权)人:苏州思必驰信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1