【技术实现步骤摘要】
一种跨平台多引擎支持的海量数据迁移装置
本专利技术属于数据迁移
,具体来说涉及一种可以跨平台运行、支持多种引擎的海量数据迁移的方法和系统。
技术介绍
数据转移装置是指将来源于不同系统的数据从逻辑上和物理上聚合在一起进行集中管理,以供用户对数据进行研究分析,得出有价值的结论。数据的容量和数据的类型在过去的三十年间均大幅增长,数据仓库技术从无到有,无论是Kimball还是Inmon提出的数据仓库方法论,为了满足数据的存储以及数据的分析需求,都需要一种数据移植装置,这种装置在多年的发展过程中也显露出了不少急需改进的问题和缺陷。传统的数据移植装置主要关注于数据架构和相关编程模型的ETL、ELT、增量抽取以及EAI类型等。然而,在数据量极度膨胀的大数据背景下,这些技术需要根据数据规模、数据存储物理介质、数据处理复杂度等需求进行修改,同一个移植装置可能无法同时在集中式计算的环境中与分布式计算的环境中运行,亦可能无法同时关联处理分布在不同存储介质上的数据。因为传统的数据移植装置的计算引擎主要是依赖于关系型数据库或者集中式计算引擎,对于异构数据关联处理或者分布式引擎的支持都 ...
【技术保护点】
1.一种跨平台多引擎支持的海量数据迁移装置,其特征在于,所述装置包括原始数据存储系统、迁移数据存储系统、迁移流程配置模块、流程引擎执行模块、流程引擎调度模块,其中原始数据存储系统用于存储待迁移的原始数据集,迁移数据存储系统用于存储迁移后的数据集;迁移流程配置模块用于可视化配置迁移的业务流程逻辑,其提供统一的可视化编辑界面对迁移的源和目标以及计算过程进行配置,此模块对业务流程的逻辑进行定义;流程引擎执行模块用于实际的迁移流程执行,由其决定流程具体的运行的载体;流程引擎调度模块用于迁移的业务流程的定时调度。
【技术特征摘要】
1.一种跨平台多引擎支持的海量数据迁移装置,其特征在于,所述装置包括原始数据存储系统、迁移数据存储系统、迁移流程配置模块、流程引擎执行模块、流程引擎调度模块,其中原始数据存储系统用于存储待迁移的原始数据集,迁移数据存储系统用于存储迁移后的数据集;迁移流程配置模块用于可视化配置迁移的业务流程逻辑,其提供统一的可视化编辑界面对迁移的源和目标以及计算过程进行配置,此模块对业务流程的逻辑进行定义;流程引擎执行模块用于实际的迁移流程执行,由其决定流程具体的运行的载体;流程引擎调度模块用于迁移的业务流程的定时调度。2.如权利要求1所述的跨平台多引擎支持的海量数据迁移装置,其特征在于,迁移流程配置模块对数据的计算过程进行高度抽象,将不同的算法抽象成算子,每个算子对应一类数据计算操作,通过组装不同的算子,能够完全覆盖数据的计算需求。3.如权利要求2所述的跨平台多引擎支持的海量数据迁移装置,其特征在于,抽象的结果为生成一个有向无环图,该图描述了数据转换的逻辑过程,随后流程引擎执行模块对该有向无环图进行遍历,并对每个结点的事件进行翻译,得到不同的计算引擎的代码。4.如权...
【专利技术属性】
技术研发人员:王任康,俞亚君,刘晓杰,李鸿飞,
申请(专利权)人:南京数睿数据科技有限公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。