System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数据处理,尤其涉及一种数据质量检测方法、装置、终端设备以及存储介质。
技术介绍
1、在大数据时代,高质量的数据是进行数据价值挖掘的重要前提,甚至影响到业务的决策。抽取、转换、加载(extraction transformation loading,etl)任务是将数据从源端进行抽取、转换和加载到目标数据仓库的过程,在做数据仓库任务时发挥着至关重要的作用。目前,行业内有两种etl关联数据质量检测的方案。
2、第一种方案是etl和数据质量检测是独立分开的功能,即etl负责数据抽取、转换等,检测模块完成数据源的数据质量校验;但是,由于etl与数据质量检测是两个完全独立功能模块,在etl任务执行完成后,需要额外的人为工作控制质量检测执行时机,导致没有及时进行数据质量检测,从而难以及时获取数据质量状况;
3、第二种方案是将数据质量检测流程集成在etl任务中,对数据实时进行质量检测;但是,将数据质量检测固定集成在etl数据处理过程中,两者耦合严重,流程固定化,使得在对中间数据进行实时检测时,对于不需要数据质量检测的流程,此方案难以支持;此外,固化流程中,实时检测数据质量的方式会导致系统在进行数据处理并行数据质量检测时,服务器峰值压力增大,资源占用较高。
技术实现思路
1、本申请的主要目的在于提供一种数据质量检测方法、装置、终端设备以及存储介质,旨在解决在进行etl任务的数据质量检测时,效率低、服务器运行压力大的技术问题。
2、为实现上述目的,本申请
3、基于预先创建的有向无环图,获取目标数据质量检测节点所依赖的目标数据处理节点的第一执行状态,以及集群的第一资源情况;
4、在所述第一执行状态为所述目标数据处理节点得到执行结果且所述资源情况满足预设的运行条件的情况下,提交所述目标数据质量检测节点的任务到所述集群中执行,得到所述执行结果的检测结果。
5、可选地,所述有向无环图的创建过程包括:
6、获取若干数据处理流程,以及所述若干数据处理流程的执行顺序;
7、创建所述若干数据流程各自对应的数据处理节点及数据质量检测节点;
8、根据所述执行顺序,为所述若干数据流程各自对应的数据处理节点及数据质量检测节点之间设置依赖关系,得到所述有向无环图。
9、可选地,所述创建所述若干数据流程各自对应的数据处理节点及数据质量检测节点的步骤包括:
10、根据所述若干数据流程,在若干维度的检测规则中进行匹配,确定至少一个目标检测规则;
11、结合所述目标检测规则和预设的通用模板,生成所述若干数据流程各自对应的数据处理节点及数据质量检测节点。
12、可选地,所述基于预先创建的有向无环图,获取目标数据质量检测节点所依赖的目标数据处理节点的第一执行状态的步骤包括:
13、响应于所述目标数据质量检测节点的任务提交请求,通过预设调度器将所述任务提交请求置入预设拦截器中进行数据库扫描,所述数据库中存储有所述有向无环图;
14、根据所述有向无环图,确定所述目标质量检测节点的目标依赖关系;
15、根据所述目标依赖关系,确定所依赖的所述目标数据处理节点,并从所述数据库中获取所述目标数据处理节点的第一执行状态。
16、可选地,所述在所述第一执行状态为所述目标数据处理节点得到执行结果且所述资源情况满足预设的运行条件的情况下,提交所述目标数据质量检测节点的任务到所述集群中执行,得到所述执行结果的检测结果的步骤包括:
17、在所述第一执行状态为所述目标数据处理节点得到执行结果且所述资源情况满足预设第一阈值的情况下,通过预设第一线程提交所述目标数据质量检测节点的任务到所述集群中执行,得到所述检测结果。
18、可选地,所述基于预先创建的有向无环图,获取目标数据质量检测节点所依赖的目标数据处理节点的第一执行状态,以及集群的第一资源情况之前,还包括:
19、基于所述有向无环图,获取所述目标数据处理节点所依赖的上一任务节点的第二执行状态,以及,所述集群的第二资源情况;
20、在所述第二执行状态为所述上一任务节点执行成功且所述第二资源情况满足预设第二阈值的情况下,通过预设第二线程提交所述目标数据处理节点的任务,得到所述执行结果。
21、可选地,所述提交所述目标数据质量检测节点的任务到所述集群中执行,得到所述执行结果的检测结果的步骤之后,还包括:
22、在所述检测结果超过预设告警阈值时,执行告警通知;
23、在所述检测结果未超过所述告警阈值时,根据所述检测结果,生成并展示数据质量分析表。
24、本申请实施例还提出一种数据质量检测装置,所述数据质量检测装置包括:
25、获取模块,用于基于预先创建的有向无环图,获取目标数据质量检测节点所依赖的目标数据处理节点的第一执行状态,以及集群的第一资源情况;
26、执行模块,用于在所述第一执行状态为所述目标数据处理节点得到执行结果且所述资源情况满足预设的运行条件的情况下,提交所述目标数据质量检测节点的任务到所述集群中执行,得到所述执行结果的检测结果。
27、本申请实施例还提出一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据质量检测程序,所述数据质量检测程序被所述处理器执行时实现如上所述的数据质量检测方法的步骤。
28、本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有数据质量检测程序,所述数据质量检测程序被处理器执行时实现如上所述的数据质量检测方法的步骤。
29、本申请实施例提出的数据质量检测方法、装置、终端设备以及存储介质,通过基于预先创建的有向无环图,获取目标数据质量检测节点所依赖的目标数据处理节点的第一执行状态,以及集群的第一资源情况;在所述第一执行状态为所述目标数据处理节点得到执行结果且所述资源情况满足预设的运行条件的情况下,提交所述目标数据质量检测节点的任务到所述集群中执行,得到所述执行结果的检测结果。通过利用有向无环图表示数据处理和数据质量检测任务之间的依赖关系,在数据质量检测节点所依赖的数据处理节点得到执行结果且集群资源满足运行条件的情况下,提交数据质量检测任务到集群中执行,可以解决在进行etl任务的数据质量检测时,效率低、服务器运行压力大的技术问题,提升整体效率,减轻服务器的运行压力。
本文档来自技高网...【技术保护点】
1.一种数据质量检测方法,其特征在于,所述数据质量检测方法包括以下步骤:
2.如权利要求1所述的数据质量检测方法,其特征在于,所述有向无环图的创建过程包括:
3.如权利要求2所述的数据质量检测方法,其特征在于,所述创建所述若干数据流程各自对应的数据处理节点及数据质量检测节点的步骤包括:
4.如权利要求1所述的数据质量检测方法,其特征在于,所述基于预先创建的有向无环图,获取目标数据质量检测节点所依赖的目标数据处理节点的第一执行状态的步骤包括:
5.如权利要求1所述的数据质量检测方法,其特征在于,所述在所述第一执行状态为所述目标数据处理节点得到执行结果且所述资源情况满足预设的运行条件的情况下,提交所述目标数据质量检测节点的任务到所述集群中执行,得到所述执行结果的检测结果的步骤包括:
6.如权利要求1所述的数据质量检测方法,其特征在于,所述基于预先创建的有向无环图,获取目标数据质量检测节点所依赖的目标数据处理节点的第一执行状态,以及集群的第一资源情况之前,还包括:
7.如权利要求1所述的数据质量检测方法,其特征在于
8.一种数据质量检测装置,其特征在于,所述数据质量检测装置包括:
9.一种终端设备,其特征在于,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据质量检测程序,所述数据质量检测程序被所述处理器执行时实现如权利要求1-7中任一项所述的数据质量检测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有数据质量检测程序,所述数据质量检测程序被处理器执行时实现如权利要求1-7中任一项所述的数据质量检测方法的步骤。
...【技术特征摘要】
1.一种数据质量检测方法,其特征在于,所述数据质量检测方法包括以下步骤:
2.如权利要求1所述的数据质量检测方法,其特征在于,所述有向无环图的创建过程包括:
3.如权利要求2所述的数据质量检测方法,其特征在于,所述创建所述若干数据流程各自对应的数据处理节点及数据质量检测节点的步骤包括:
4.如权利要求1所述的数据质量检测方法,其特征在于,所述基于预先创建的有向无环图,获取目标数据质量检测节点所依赖的目标数据处理节点的第一执行状态的步骤包括:
5.如权利要求1所述的数据质量检测方法,其特征在于,所述在所述第一执行状态为所述目标数据处理节点得到执行结果且所述资源情况满足预设的运行条件的情况下,提交所述目标数据质量检测节点的任务到所述集群中执行,得到所述执行结果的检测结果的步骤包括:
6.如权利要求1所述的数据质量检测方法,其特征在于,所...
【专利技术属性】
技术研发人员:王林,艾营,
申请(专利权)人:招商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。