一种应用于制造技术

技术编号:39782742 阅读:7 留言:0更新日期:2023-12-22 02:25
本申请提供了一种应用于

【技术实现步骤摘要】
一种应用于ETL系统的任务流动态配置方法及系统


[0001]本申请涉及
ETL
系统的
,尤其涉及一种应用于
ETL
系统的任务流动态配置方法及系统


技术介绍

[0002]ETL
系统一般负责将分布的

异构数据源中的数据如关系数据

平面数据文件等抽取到临时中间层后进行清洗

转换

集成,最后加载到数据仓库或者数据集市中,成为联机分析处理

数据挖掘的基础

[0003]分布的

异构数据源来源于不同的数据源表,在
ETL
系统的实际应用过程中,某些数据源表在某些时间可能为空,在这种情况下,针对这些空的数据源表的抽取数据源的任务将变的毫无意义,这个问题不仅影响到改任务本身,还会传播到任务流中所有直接或间接依赖于这些数据源表的数据处理任务,导致任务流中大量的任务在无数据的情况下无意义的执行,浪费了计算资源,创建了无用的数据连接,并对数据源表造成了不必要的负载


技术实现思路

[0004]本申请提供了一种应用于
ETL
系统的任务流动态配置方法及系统,其能够提高
ETL
系统的效率

[0005]第一方面,本申请提供了一种应用于
ETL
系统的任务流动态配置方法

该方法包括:获取
ETL
系统的任务流信息以及数据源表的数据情况信息,所述任务流信息包括任务节点的依赖关系以及根任务节点连接的数据源表,所述数据情况信息反映数据源表为空或者有业务数据;确定连接空的数据源表的根任务节点以及仅依赖于连接空的数据源表的根任务节点的任务节点为无意义节点;在任务节点的依赖关系中去除无意义节点,形成任务节点的第一依赖关系,第一依赖关系的任务流供
ETL
系统执行

[0006]通过采用上述技术方案,在
ETL
系统应用时,能够实现任务节点的依赖关系的自动配置,去除依赖关系中无意义节点,得到第一依赖关系供
ETL
系统执行,避免了
ETL
系统执行无意义节点造成的资源浪费,有利于提高
ETL
系统的效率

[0007]进一步地,所述第一依赖关系每隔预设的更新间隔时长更新一次

[0008]进一步地,还包括:获取所有数据源表的情况变动记录,所述情况变动记录为数据源表由空变为有业务数据或者由有业务数据变为空;确定同一数据源表两次情况变动记录之间的时间差值;判断所有时间差值中的最小值是否小于预设的更新时长阈值;若是,则以更新时长阈值为所述更新间隔时长;
若否,则以时间差值中的最小值为所述更新间隔时长

[0009]进一步地,还包括:根据所述情况变动记录分析数据源表的数据情况变动趋势;在识别无意义节点时,根据数据情况变动趋势判断空的数据源表的数据情况信息是否会在所述更新间隔时长内变化;若是,则在空的数据源表中增加持续时间不大于更新间隔时间的标识数据,使数据源表的数据情况信息被改变为有业务数据

[0010]第二方面,本申请提供了一种应用于
ETL
系统的任务流动态配置系统,该系统包括:数据获取模块,用于获取
ETL
系统的任务流信息以及数据源表的数据情况信息,所述任务流信息包括任务节点的依赖关系以及根任务节点连接的数据源表,所述数据情况信息反映数据源表为空或者有业务数据;节点识别模块,用于确定连接空的数据源表的根任务节点以及仅依赖于连接空的数据源表的根任务节点的任务节点为无意义节点;以及依赖配置模块,用于在任务节点的依赖关系中去除无意义节点,形成任务节点的第一依赖关系,第一依赖关系的任务流供
ETL
系统执行

[0011]进一步地,所述第一依赖关系每隔预设的更新间隔时长更新一次

[0012]进一步地,还包括时长确定模块;所述时长确定模块被配置为:获取所有数据源表的情况变动记录,所述情况变动记录为数据源表由空变为有业务数据或者由有业务数据变为空;确定同一数据源表两次情况变动记录之间的时间差值;判断所有时间差值中的最小值是否小于预设的更新时长阈值;若是,则以更新时长阈值为所述更新间隔时长;若否,则以时间差值中的最小值为所述更新间隔时长

[0013]进一步地,还包括趋势分析模块;所述趋势分析模块用于根据所述情况变动记录分析数据源表的数据情况变动趋势;所述节点识别模块被进一步配置为:在识别无意义节点时,根据数据情况变动趋势判断空的数据源表的数据情况信息是否会在所述更新间隔时长内变化;若是,则在空的数据源表中增加持续时间不大于更新间隔时间的标识数据,使数据源表的数据情况信息被改变为有业务数据

[0014]综上所述,本申请至少包含以下有益效果:
1.
提供了一种应用于
ETL
系统的任务流动态配置方法及系统,其能够自动为
ETL
系统配置第一依赖关系,减少
ETL
系统的资源浪费,提高
ETL
系统的效率;
2.
确定第一依赖关系的更新间隔时长的方式较为合理,既有利于保障第一依赖关系能够及时更新

避免错过数据源表由空变为有业务数据的时间,又能够避免第一依赖关系过于高频次的更新带来的
ETL
系统的资源浪费;
3.
根据数据源表的数据情况变动趋势来确定数据源表是否会在更新间隔时长内变化,将更新间隔时长内会由空变为有业务数据的数据源表增加标识数据使其为非空,有
利于避免错过数据源表由空变为有业务数据的时间

[0015]应当理解,
技术实现思路
部分中所描述的内容并非旨在限定本申请的实施例的关键或重要特征,亦非用于限制本申请的范围

本申请的其它特征将通过以下的描述变得容易理解

附图说明
[0016]结合附图并参考以下详细说明,本申请各实施例的上述和其他特征

优点及方面将变得更加明显

在附图中,相同或相似的附图标记表示相同或相似的元素,其中:图1示出了本申请实施例中的一种应用于
ETL
系统的任务流动态配置方法的流程图;图2示出了任务节点的依赖关系的原理图;图3示出了任务节点的第一依赖关系的原理图;图4示出了本申请实施例中的一种应用于
ETL
系统的任务流动态配置系统的方框图

具体实施方式
[0017]为使本申请实施例的目的

技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚

完整地描述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种应用于
ETL
系统的任务流动态配置方法,其特征在于,包括:获取
ETL
系统的任务流信息以及数据源表的数据情况信息,所述任务流信息包括任务节点的依赖关系以及根任务节点连接的数据源表,所述数据情况信息反映数据源表为空或者有业务数据;确定连接空的数据源表的根任务节点以及仅依赖于连接空的数据源表的根任务节点的任务节点为无意义节点;在任务节点的依赖关系中去除无意义节点,形成任务节点的第一依赖关系,第一依赖关系的任务流供
ETL
系统执行
。2.
根据权利要求1所述的一种应用于
ETL
系统的任务流动态配置方法,其特征在于,所述第一依赖关系每隔预设的更新间隔时长更新一次
。3.
根据权利要求2所述的一种应用于
ETL
系统的任务流动态配置方法,其特征在于,还包括:获取所有数据源表的情况变动记录,所述情况变动记录为数据源表由空变为有业务数据或者由有业务数据变为空;确定同一数据源表两次情况变动记录之间的时间差值;判断所有时间差值中的最小值是否小于预设的更新时长阈值;若是,则以更新时长阈值为所述更新间隔时长;若否,则以时间差值中的最小值为所述更新间隔时长
。4.
根据权利要求3所述的一种应用于
ETL
系统的任务流动态配置方法,其特征在于,还包括:根据所述情况变动记录分析数据源表的数据情况变动趋势;在识别无意义节点时,根据数据情况变动趋势判断空的数据源表的数据情况信息是否会在所述更新间隔时长内变化;若是,则在空的数据源表中增加持续时间不大于更新间隔时间的标识数据,使数据源表的数据情况信息被改变为有业务数据
。5.
一种应用于
ETL
系统的任务流动态配置系统,其特征在于,包括:数据获取模块(
210
),用于获取
ETL
系统的任务流信息以及数据源表的数据情况信息,所...

【专利技术属性】
技术研发人员:王巍赵志庆杜宗慧侯玉柱董席峰张雨铭威
申请(专利权)人:戎行技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1