【技术实现步骤摘要】
一种应用于ETL系统的任务流动态配置方法及系统
[0001]本申请涉及
ETL
系统的
,尤其涉及一种应用于
ETL
系统的任务流动态配置方法及系统
。
技术介绍
[0002]ETL
系统一般负责将分布的
、
异构数据源中的数据如关系数据
、
平面数据文件等抽取到临时中间层后进行清洗
、
转换
、
集成,最后加载到数据仓库或者数据集市中,成为联机分析处理
、
数据挖掘的基础
。
[0003]分布的
、
异构数据源来源于不同的数据源表,在
ETL
系统的实际应用过程中,某些数据源表在某些时间可能为空,在这种情况下,针对这些空的数据源表的抽取数据源的任务将变的毫无意义,这个问题不仅影响到改任务本身,还会传播到任务流中所有直接或间接依赖于这些数据源表的数据处理任务,导致任务流中大量的任务在无数据的情况下无意义的执行,浪费了计算资源,创建了无用的数据连接,并对数据源表造成了不必要的负载
。
技术实现思路
[0004]本申请提供了一种应用于
ETL
系统的任务流动态配置方法及系统,其能够提高
ETL
系统的效率
。
[0005]第一方面,本申请提供了一种应用于
ETL
系统的任务流动态配置方法
。
该方法包括:获取
ETL
系统的 ...
【技术保护点】
【技术特征摘要】
1.
一种应用于
ETL
系统的任务流动态配置方法,其特征在于,包括:获取
ETL
系统的任务流信息以及数据源表的数据情况信息,所述任务流信息包括任务节点的依赖关系以及根任务节点连接的数据源表,所述数据情况信息反映数据源表为空或者有业务数据;确定连接空的数据源表的根任务节点以及仅依赖于连接空的数据源表的根任务节点的任务节点为无意义节点;在任务节点的依赖关系中去除无意义节点,形成任务节点的第一依赖关系,第一依赖关系的任务流供
ETL
系统执行
。2.
根据权利要求1所述的一种应用于
ETL
系统的任务流动态配置方法,其特征在于,所述第一依赖关系每隔预设的更新间隔时长更新一次
。3.
根据权利要求2所述的一种应用于
ETL
系统的任务流动态配置方法,其特征在于,还包括:获取所有数据源表的情况变动记录,所述情况变动记录为数据源表由空变为有业务数据或者由有业务数据变为空;确定同一数据源表两次情况变动记录之间的时间差值;判断所有时间差值中的最小值是否小于预设的更新时长阈值;若是,则以更新时长阈值为所述更新间隔时长;若否,则以时间差值中的最小值为所述更新间隔时长
。4.
根据权利要求3所述的一种应用于
ETL
系统的任务流动态配置方法,其特征在于,还包括:根据所述情况变动记录分析数据源表的数据情况变动趋势;在识别无意义节点时,根据数据情况变动趋势判断空的数据源表的数据情况信息是否会在所述更新间隔时长内变化;若是,则在空的数据源表中增加持续时间不大于更新间隔时间的标识数据,使数据源表的数据情况信息被改变为有业务数据
。5.
一种应用于
ETL
系统的任务流动态配置系统,其特征在于,包括:数据获取模块(
210
),用于获取
ETL
系统的任务流信息以及数据源表的数据情况信息,所...
【专利技术属性】
技术研发人员:王巍,赵志庆,杜宗慧,侯玉柱,董席峰,张雨铭威,
申请(专利权)人:戎行技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。