The invention provides a distributed ETL processing method and device. The method includes: Master ETL server ETL data processing task allocation to the distributed data processing system of ETL in the primary ETL server or from the ETL server; when the ETL server is assigned to the ETL data processing tasks, the data processing tasks are assigned to ETL ETL data processing. From the ETL server, it receives the data ETL processing task allocated by the main ETL server. From the ETL server, according to the allocated data, ETL processes the task's parallel data ETL processing. The present invention in high concurrency and large data acquisition processing scenarios, effectively improve the distributed data processing efficiency of ETL, the number of dynamic control of the ETL server, effectively enhance the ability of the rapid expansion of ETL data processing system, improve the distributed data processing ability of ETL.
【技术实现步骤摘要】
一种分布式数据ETL处理方法及装置
本专利技术涉及数据处理
,尤其涉及一种分布式数据ETL处理方法及装置。
技术介绍
当前,数据ETL(Extract-Transform-Load,抽取-转换-装载)处理装置是各种与数据有关的应用中的基础功能组件,它为上层应用提供数据支撑,数据ETL处理装置的功能和性能是决定上层应用成败的关键要素。随着数据越来越集中,数据量越来越大,单机版的数据ETL处理装置无法满足高并发和海量数据的采集加工需求。现有一些厂家的分布式数据ETL处理装置,是将作业分片分发到集群上处理,对编制数据ETL处理的任务要求高,稍有作业编排错误,数据结果便不准确;还有一些厂家的分布式数据ETL处理装置,是单机版数据ETL处理装置的堆砌,作业调度灵活性差,数据ETL处理效率低下。
技术实现思路
本专利技术要解决的技术问题是,提供一种分布式数据ETL数据处理方法及装置,克服现有技术中分布式数据ETL处理效率低下和对编制数据ETL处理的任务要求高的缺陷。本专利技术采用的技术方案是,所述一种分布式ETL处理方法,分布式数据ETL处理系统中包括主ETL服务器和从ET ...
【技术保护点】
一种分布式数据抽取‑转换‑装载ETL处理方法,其特征在于,分布式数据ETL处理系统中包括主ETL服务器和从ETL服务器,所述方法,包括:主ETL服务器分配数据ETL处理任务至所述分布式数据ETL处理系统中的主ETL服务器或从ETL服务器;当主ETL服务器分配到数据ETL处理任务时,对分配到的数据ETL处理任务进行数据ETL处理。
【技术特征摘要】
1.一种分布式数据抽取-转换-装载ETL处理方法,其特征在于,分布式数据ETL处理系统中包括主ETL服务器和从ETL服务器,所述方法,包括:主ETL服务器分配数据ETL处理任务至所述分布式数据ETL处理系统中的主ETL服务器或从ETL服务器;当主ETL服务器分配到数据ETL处理任务时,对分配到的数据ETL处理任务进行数据ETL处理。2.根据权利要求1所述的分布式数据ETL处理方法,其特征在于,所述方法,还包括:主ETL服务器对分布式数据ETL处理系统中的从ETL服务器的数量进行动态控制。3.根据权利要求1所述的分布式数据ETL处理方法,其特征在于,所述主ETL服务器为网络服务器;所述从ETL服务器的数量为一个或多个;所述从ETL服务器为网络服务器;所述主ETL服务器与所述从ETL服务器通过网络服务WebService消息进行交互。4.根据权利要求1所述的分布式数据ETL处理方法,其特征在于,所述方法,还包括:在主ETL服务器分配数据ETL处理任务至所述分布式数据ETL处理系统中的从ETL服务器之前,先对分配至所述从ETL服务器的数据ETL处理任务进行压缩打包,再将经过压缩打包的数据ETL处理任务分配至所述分布式数据ETL处理系统中的从ETL服务器。5.根据权利要求1所述的分布式数据ETL处理方法,其特征在于,所述方法,还包括:在主ETL服务器分配数据ETL处理任务至所述分布式数据ETL处理系统中的从ETL服务器之后,主ETL服务器监控向所述从ETL服务器分配的数据ETL处理任务的数据传输量,并监控所述从ETL服务器分配到的数据ETL处理任务处理量;主ETL服务器查询向所述从ETL服务器分配的数据ETL处理任务的执行状态,查询向所述从ETL服务器分配的数据ETL处理任务的执行结果。6.根据权利要求1所述的分布式数据ETL处理方法,其特征在于,所述方法,还包括:在主ETL服务器分配数据ETL处理任务至所述分布式数据ETL处理系统中的主ETL服务器或从ETL服务器之前,主ETL服务器对所述数据ETL处理任务是否是与大数据计算存储平台相关的数据ETL处理任务进行判断;若是,则主ETL服务器将大数据计算存储平台相关的数据ETL处理任务分配至大数据计算存储平台;由所述大数据计算存储平台对与大数据计算存储平台相关的数据ETL处理任务进行分片数据ETL处理。7.根据权利要求1所述的分布式数据ETL处理方法,其特征在于,主ETL服务器根据参考信息分配数据ETL处理任务至所述分布式数据ETL处理系统中的主ETL服务器或从ETL服务器;当主ETL服务器分配到数据ETL处理任务时,根据分配到的数据ETL处理任务的优先级进行数据ETL处理;所述参考信息,包括:数据ETL处理任务的优先级,或者,数据ETL处理任务的优先级以及主ETL服务器和从ETL服务器已分配到的数据ETL处理任务。8.一种分布式数据抽取-转换-装载ETL处理装置,其特征在于,分布式数据ETL处理系统中包括主ETL服务器和从ETL服务器,所述装置设置于主ETL服务器,所述装置,包括:分配模块,用于分配数据ETL处理任务至所述分布式数据ETL处理系统中的主ETL服务器或从ETL服务器;主处理模块,用于分配到数据ETL处理任务时,对分配到的数据ETL处理任务进行数据ETL处理。9.根据权利要求8所述的分布式数据ETL处理装置,其特征在于,所述装置,还包括:动态控制模块:用于对分布式数据ETL处理系统中的从ETL服务器的数量进行动态控制。10.根据权利要求8所述的分布式数据ETL处理装置,其特征在于,所述主ETL服务器为网络服务器;所述从ETL服务器的数量为一个或多个;所述从ETL服务器为网络服务器;所述主ETL服务器与所述从ETL服务器通过网络服务WebService消息进行交互。11.根据权利要求8所述的分布式数据ETL处理...
【专利技术属性】
技术研发人员:吕燕,
申请(专利权)人:南京中兴软件有限责任公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。