【技术实现步骤摘要】
ETL中JobEngine任务拆分方法
[0001]本公开涉及数据转换
,尤其涉及一种
ETL
中
JobEngine
任务拆分方法
、
系统和电子设备
。
技术介绍
[0002]ETL
,是英文
Extract
‑
Transform
‑
Load
的缩写,用来描述将数据从来源端经过抽取
(extract)、
转换
(transform)、
加载
(load)
至目的端的过程
。
[0003]如附图1所示的
ETL
任务执行示意图,主要是指在
ETL
模块的
JobEngine
任务工厂中进行任务执行,但是主要还是需要依赖任务管理模块的任务管理
。ETL
任务的真正执行需要依托于
ETL_COMBINED
任务的提交
、
执行和完成,
ETL ...
【技术保护点】
【技术特征摘要】
1.
一种
ETL
中
JobEngine
任务拆分方法,其特征在于,包括如下步骤:在
ETL
算子图的出口
k
处,产生一个用作缓存的临时输出节点和对应的临时输入节点;根据所述临时输出节点和所述临时输入节点,对原始的
ETL_COMBINED
任务执行拓扑图进行拆分,分别生成所述
ETL
算子图的第一任务执行子图和第二任务执行子图;设定任务执行优先级的管理规则:所述第一任务执行子图的任务执行优先级优先于所述第二任务执行子图
。2.
根据权利要求1所述的一种
ETL
中
JobEngine
任务拆分方法,其特征在于,设定任务执行优先级的管理规则,包括:定义每个以原始输出节点
Om
为唯一出口的网络为
O(
Om
)
,
O(x)
为以输出数据集节点
x
生成网络的计算函数;定义计算优先级的函数为
Level(x)
:
Level(O(
O1
))
=
…
=
Level(O(om))
,
(1≤m≤N
,
N
为全部的输出数据集节点的数量
)
;定义拆分计算函数为
D(x)
,是以
x
的输入网络为基础进行一次节点拆分;定义
Level(D(O(om)
为对
O(
Om
)
进行一次拆分后的子网络的输出节点执行的优先级,保证:
Level(D(O(om)))>Level(O(
Om
))。3.
根据权利要求1所述的一种
ETL
中
JobEngine
任务拆分方法,其特征在于,在设定任务执行优先级的管理规则之后,还包括:将所述任务执行优先级的管理规则配置并保存在任务管理模块上
。4.
根据权利要求1所述的一种
ETL
中
JobEngine
任务拆分方法,其特征在于,在设定任务执行优先级的管理规则之后,还包括:在所述第一任务执行子图中的所述临时输出节点,执行完毕对应的
ETL_COMBINED
任务之后,生成对应的第一子图执行结果;将所述第一子图执行结果输入至所述第二任务执行...
【专利技术属性】
技术研发人员:吴宝琪,戴舒原,张进,张怡,
申请(专利权)人:杭州观远数据有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。