一种基于调度中心的ETL系统技术方案

技术编号:35639459 阅读:41 留言:0更新日期:2022-11-19 16:30
本发明专利技术公开了一种基于调度中心的ETL系统,涉及数据调度处理技术领域,包括ETL数据调度系统,所述ETL数据调度系统包括有调度中心、流程调度系统、任务调度系统和服务调度系统,所述流程调度系统结合希尔排序的EDF调度算法使用,所述任务调度系统由高优先级任务调度处理系统和时序任务调度处理系统构成,所述服务调度系统由新类型服务数据接收系统、新类型服务注册系统、服务标识校验系统和数据服务请求注销系统构成。本发明专利技术通过将ETL过程任务流程化,建立统一调度中心进行多流程实例控制,再对整个ETL中的流程调度、任务调度以及服务调度,以多通道服务的方式动态提供业务服务,以达到整个ETL的同步速率提升以及业务稳定性保证的目的。证的目的。证的目的。

【技术实现步骤摘要】
一种基于调度中心的ETL系统


[0001]本专利技术涉及数据调度处理
,具体涉及一种基于调度中心的ETL系统。

技术介绍

[0002]随着数字化转型的深入以及信息系统的广泛应用,数据已经成为了重要的资源,是进行科学分析、管理以及决策的基础。为此企业花费大量的资金以及时间构建数据服务中心,用于记录事务处理的各种相关数据,而ETL(Extract Transform Load)能将分布的、异构数据源中的数据抽取到中间层后进行清洗、转换、集成,并按定义好的数据模型加载到数据仓库中,这个过程是数据中心进行数据分析挖掘的基础,因此ETL成为了构建数据库中心的一个重要环节,通常情况下通过建立调度中心,对ETL的处理过程进行任务流程化调度,对整个ETL进行调度管理,以满足数据服务的数据实时性以及服务连续性要求,ETL过程是一个端到端的过程,是一种从源到目标系统转换数据的过程,将分散、异构的数据整合到目标仓库中,以提供数据服务给业务系统使用,首先从多种数据源中收集数据并进行处理,然后把处理过的数据加载到数据库中,其过程是相互关联的任务顺序执行,主要工作包括数据抽取、数据转换以及数据加载,现有的ETL系统在使用时还存在以下缺陷:
[0003]1、面对海量数据,同步周期长,无法满足业务场景,特别是数据实时性要求比较高的业务场景对数据新鲜度的要求;
[0004]2、完成数据转换后进行数据加载,需要暂停业务进行结果数据的更新,无法满足对服务连续性的要求;
[0005]3、资源利用率低下,无法利用有限的资源对重要、关键的任务进行优先处理。

技术实现思路

[0006]本专利技术提供一种基于调度中心的ETL系统,将ETL过程任务流程化,建立统一调度中心进行多流程实例控制,通过对整个ETL中的流程调度,任务调度以及服务调度,以多通道服务的方式动态提供业务服务,以达到整个ETL的同步速率提升以及业务稳定性保证的目的,以解决上述
技术介绍
中提出的问题。
[0007]为解决上述技术问题,本专利技术所采用的技术方案是:
[0008]一种基于调度中心的ETL系统,包括ETL数据调度系统,所述ETL数据调度系统包括有调度中心、流程调度系统、任务调度系统和服务调度系统,所述流程调度系统结合希尔排序的EDF调度算法使用,所述任务调度系统由高优先级任务调度处理系统和时序任务调度处理系统构成,所述服务调度系统由新类型服务数据接收系统、新类型服务注册系统、服务标识校验系统和数据服务请求注销系统构成。
[0009]本专利技术技术方案的进一步改进在于:所述流程调度系统在EDF调度算法的基础上,综合考虑任务截止时间、执行价值、消耗时间三种因素确定任务优先级,通过希尔排序算法对任务进行优化选择,既保证优先级高的任务先执行,又要保证完成尽可能多的任务实例,使任务的错失率降到最低。
[0010]流程任务分派前,先进行系统的可调度性判断。定义S={t1,t2,...tn}表示流程处理集,Ti为ti的周期,Ci为ti的最坏情况执行时间,t

为算法调度下的开销,系统当前为k个通道处理任务,那么当前系统的使用率U可表示为:
[0011][0012]对每个流程都设置一个优先级,当U≤1时,系统采用EDF算法的对任务集S进行调度;当U>1时,系统发生过载现象,此时利用希尔算法对任务优先级大小排序,选取尽可能多的任务加入优先调度子集Q,且Q满足U<1,系统优先调度Q中的任务,而其他任务则等到处理器空闲是再作调度。
[0013]本专利技术技术方案的进一步改进在于:所述任务调度系统将ETL中的一个数据同步流程进行原子任务化后并按优先级以及到达时间进行精确化调度,将一个数据同步流程进行原子化拆分,根据业务处理逻辑拆分细化为多个处理任务记为EA。
[0014]本专利技术技术方案的进一步改进在于:所述EA为一个基本任务,所述一个基本任务包括3个子元素,EA={ID,I,O},ID用于标识器所在ETL工作流程中的位置,I表示输入记录集,O表示输出记录集,记录为EA(ID,I)=O,基本任务EAn+1的输入集是任务EAn的输出集,EAn+1从EAn收集数据进行下一步处理,公式记录为EAn+1(n+1,EAn(n,I))=O。
[0015]在整个ETL工作流程中,各个部分的数据量都是有限的,其相互间共同构成了一个有向无环图。
[0016]本专利技术技术方案的进一步改进在于:所述任务调度系统完成流程初始定义,调度中心记录任务的活动规则R和执行优先等级F,在同步流程启动或任务执行完成后,调度中心根据活动规则生成任务EA并放入代办任务池中,调度优先级权衡任务到达顺序以及任务的优先等级,任务的先后执行,除考虑达到顺序,还需根据任务的优先等级加权重进行计算,按任务的优先级和到达时间进行任务调度,优先处理优先级高的任务,再处理先到达的任务。
[0017]本专利技术技术方案的进一步改进在于:所述服务调度系统完成数据的处理后,调用中心的注册清楚服务,推送数据类型以及版本,调度中心获取注册请求,在数据路由表中注册新的数据类型服务,服务类型状态为新鲜(FRESH状态),新类型服务完成注册,调度中心将其他同数据类型的服务标识过期(STALE状态)。
[0018]本专利技术技术方案的进一步改进在于:所述调度中心接收外部应用请求,通过相关校验,调度中心在数据路由表中检查出FRESH状态的服务,为本次访问生成一张票据注册在服务下,票据有效期为10分钟,完成注册后,调度中心返回服务路径以及票据信息给到外部应用,外部应用根据票据以及服务路径进行数据请求访问,调度中心定期检查数据路由表,若服务标识为STALE状态的服务中所有票据都已经过期,判断服务没有新的请求,该服务将释放资源并在数据路由表中注销。
[0019]由于采用了上述技术方案,本专利技术相对现有技术来说,取得的技术进步是:
[0020]1、本专利技术提供一种基于调度中心的ETL系统,通过将ETL过程任务流程化,建立统一调度中心进行多流程实例控制,再对整个ETL中的流程调度、任务调度以及服务调度,以
多通道服务的方式动态提供业务服务,以达到整个ETL的同步速率提升以及业务稳定性保证的目的。
[0021]2、本专利技术提供一种基于调度中心的ETL系统,按优先级高定义流程及任务的执行级,尽可能的保证优先级高的任务快速执行,最大程度的体现数据的价值,缩减整体的数据调度周期,保证数据的实时性需求,满足对数据新鲜度要求比较高的业务场景。
[0022]3、本专利技术提供一种基于调度中心的ETL系统,通过科学的调度算法,对任务执行进行调度,提升整体的处理效率,高效对数据进行调度处理,确保数据调度服务业务的连续性。
[0023]4、本专利技术提供一种基于调度中心的ETL系统,以服务注册>发布>订阅的方式,达到不影响业务连续性的前提下进行数据结果的更换,依托于服务动态注册,在确保用户访问连续性的前提下,提供最及时的数据服务。
附图说本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于调度中心的ETL系统,包括ETL数据调度系统,其特征在于:所述ETL数据调度系统包括有调度中心、流程调度系统、任务调度系统和服务调度系统,所述流程调度系统结合希尔排序的EDF调度算法使用,所述任务调度系统由高优先级任务调度处理系统和时序任务调度处理系统构成,所述服务调度系统由新类型服务数据接收系统、新类型服务注册系统、服务标识校验系统和数据服务请求注销系统构成。2.根据权利要求1所述的一种基于调度中心的ETL系统,其特征在于:所述流程调度系统在EDF调度算法的基础上,综合考虑任务截止时间、执行价值、消耗时间三种因素确定任务优先级,通过希尔排序算法对任务进行优化选择。3.根据权利要求1所述的一种基于调度中心的ETL系统,其特征在于:所述任务调度系统将ETL中的一个数据同步流程进行原子任务化后并按优先级以及到达时间进行精确化调度,将一个数据同步流程进行原子化拆分,根据业务处理逻辑拆分细化为多个处理任务记为EA。4.根据权利要求3所述的一种基于调度中心的ETL系统,其特征在于:所述EA为一个基本任务,所述一个基本任务包括3个子元素,EA={ID,I,O},ID用于标识器所在ETL工作流程中的位置,I表示输入记录集,O表示输出记录集,记录为EA(ID,I)=O,基本任务EAn+1的输入集是任务EAn的输出集,EAn+1从EAn收集数据进行下一步处理。5.根据...

【专利技术属性】
技术研发人员:杨志花吴振田罗崇立
申请(专利权)人:广东电力通信科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1