【技术实现步骤摘要】
一种分布式集群架构的ETL系统及数据迁移方法
[0001]本专利技术涉及ETL
,特别是涉及一种分布式集群架构的ETL系统及数据迁移方法。
技术介绍
[0002]ETL(Extraction
‑
Transformation
‑
Loading,数据抽取、转换和加载,简写为ETL)系统中一般以数据同步流程的形式表示数据同步任务,数据同步流程一般包含源数据源、目的数据源、数据转换规则等信息,ETL系统根据这些信息将数据从一个数据源迁移到另一个数据源,迁移过程中可能会对数据进行转换。
[0003]ETL的基本功能是利用网络将数据从一个数据源同步到另一个数据源,如果两个数据源在物理位置上相隔很远,那么上述网络就是互联网,而数据源服务端口出于安全考虑一般不会直接面向互联网开放,因此采用一种折衷的方式,增加一层“中转源”和配置多个ETL服务器,将物理位置不同的三个数据源中的数据同步到中心位置的中心库,这就是ETL的分布式部署。
[0004]集中式ETL架构不适合大规模的将位于不同物 ...
【技术保护点】
【技术特征摘要】
1.一种分布式集群架构的ETL系统,其特征在于,包括:管理器、至少一个调度器和至少一个执行器,其中:所述管理器用于接收外部请求,根据外部请求配置数据同步流程,还用于向所述调度器提供注册服务,并接收来自于所述调度器的数据;所述调度器用于计算每个所述数据同步流程的触发条件,并将满足所述触发条件的数据同步流程分配给相应的执行器,还用于接收来自于所述执行器的运行状态信息,并将所述运行状态信息发送至所述管理器;所述执行器用于执行所述数据同步流程,在所述数据同步流程运行的过程中,获取所述数据同步流程的运行状态信息,并将所述运行状态信息发送至所述调度器。2.根据权利要求1所述的分布式集群架构的ETL系统,其特征在于,当所述ETL系统包括多个调度器时:所述管理器用于接收所述调度器的注册请求,初始注册时,根据注册成功的先后顺序确定主调度器和备调度器,或者,采用领导者选举或共识算法确定主调度器;其中,所述主调度器用于实时计算所述触发条件,并向指定执行器提交符合所述触发条件的数据同步流程,同时主调度器收集数据同步流程运行过程中状态信息,主调度器在收到执行器返回的运行状态信息后,将运行状态信息同步到备调度器。3.根据权利要求2所述的分布式集群架构的ETL系统,其特征在于:当所述调度器为两个时,所述调度器分为一个主调度器和一个备调度器,所述ETL系统为调度器主备架构;当所述调度器为两个以上时,所述调度器分为一个主调度器和多个备调度器,所述ETL系统为调度器集群架构。4.根据权利要求2所述的分布式集群架构的ETL系统,其特征在于:当发生调度器宕机重启后重新注册时,如果当前有正常运行的所述主调度器,则重新通过注册加入进来的调度器均为备调度器;当发生执行器向所述主调度器返回信息失败时,所述备调度器中自动产生新的主调度器,所述执行器向新的所述主调度器返回信息;所述主调度器和所述备调度器之间相互进行心跳检测,每当探测到宕机事件时,发送告警,如果是所述主调度器宕机,则在所述备调度器中自动产生新的主调度器;其中,通过领导者选举或者共识算法在所述备调度器中产生新的主调度器。5.根据权利要求4所述的分布式集群架构的ETL系统,其特征在于,当发生执行器向所述主调度器返回信息失败时,所述ETL系统还包括:所述执行器通过广播方式向网络中的备调度器以广播方式发送验证请求;各个备调度器在以广播方式接收到所述验证请求后,比对自身最近一次与主调度器的心跳检测时间;若与下次进行心跳检测时间相差小于预设值,则由相应备调度器提前发起心跳检测;根据心跳检测结果,确认从所述备调度器中自动产生新的主调度器,或者,确认是所述执行器与主调度器之间的网络出现问题;其中,主调度器给网络中的各个备调度器设定心跳检测的时间间隔,并将所述时间间隔告知其管束下的各个备调度器。
6.根据权...
【专利技术属性】
技术研发人员:皮宇,袁松彪,杨利,高东升,梅纲,
申请(专利权)人:武汉达梦数据库股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。