本发明专利技术提供了一种数据集群迁移方法及装置,数据集群迁移方法包括:根据待迁移数据集群的物理表生成一参数表;所述参数表中参数包括:限制条件、优先级、目标数据集群的对应库以及对应表、作业状态、作业开始时间以及作业结束时间;根据所述待迁移数据集群的元数据以及所述参数表生成数据导出指令以及导入指令;根据所述待迁移数据集群以及所述迁移指令,生成可以迁移至所述目标数据集群的导出数据;根据所述导入指令将所述导出数据导入至所述目标数据集群中。本发明专利技术提供的数据集群迁移方法及装置能够适用于两个集群间表级别的数据迁移,且具有通用性。
Data cluster migration method and device
【技术实现步骤摘要】
数据集群迁移方法及装置
本专利技术涉及数据库
,具体涉及金融行业的大数据
,特别是涉及一种数据集群迁移方法及装置。
技术介绍
如今,随着大数据的爆发式高速发展,存储的数据每天都以TB级别的增加,而且伴随越来越严格的监管数据要求,新型的AI等业务类型所需的历史数据也越来越长。导致了日益增长的数据存储需求和当前整个集群容量的矛盾。为了解决经济的扩容问题。引入分布式的大数据平台简称:而把数据从当前集群迁移到目标集群的任务就迫在眉睫。现有技术中,没有出现两个数据集群并存的情况,急需一种灵活快速的方法实现数据的跨集群搬迁。
技术实现思路
针对现有技术中的问题,本专利技术提供的数据集群迁移方法及装置能够适用于两个集群间表级别的数据迁移,且具有通用性;并适用于各种灵活拆分表、大批量、多并发、全自动的数据同步;从而使开发周期和成本大大降低,减少了工作量,能够快速部署上线。为解决上述技术问题,本专利技术提供以下技术方案:第一方面,本专利技术提供一种数据集群迁移方法,包括:根据待迁移数据集群的物理表生成一参数表;所述参数表中参数包括:限制条件、优先级、目标数据集群的对应库以及对应表、作业状态、作业开始时间以及作业结束时间;根据所述待迁移数据集群的元数据以及所述参数表生成数据导出指令以及导入指令;根据所述待迁移数据集群以及所述迁移指令,生成可以迁移至所述目标数据集群的导出数据;根据所述导入指令将所述导出数据导入至所述目标数据集群中。一实施例中,所述导出指令以及导入指令为sql指令。一实施例中,所述导出数据为所述待迁移数据集群的逻辑表对应至磁盘的数据文本的集合。一实施例中,数据集群迁移方法还包括:更新所述参数表中的作业状态为导出完成、作业开始时间以及作业结束时间。第二方面,本专利技术提供一种数据集群迁移装置,该装置包括:参数表生成单元,用于根据待迁移数据集群的物理表生成一参数表;所述参数表中参数包括:限制条件、优先级、目标数据集群的对应库以及对应表、作业状态、作业开始时间以及作业结束时间;指令生成单元,用于根据所述待迁移数据集群的元数据以及所述参数表生成数据导出指令以及导入指令;导出数据生成单元,用于根据所述待迁移数据集群以及所述迁移指令,生成可以迁移至所述目标数据集群的导出数据;导出数据导入单元,用于根据所述导入指令将所述导出数据导入至所述目标数据集群中。一实施例中,所述导出指令以及导入指令为sql指令。一实施例中,所述导出数据为所述待迁移数据集群的逻辑表对应至磁盘的数据文本的集合。一实施例中,数据集群迁移装置还包括:参数表更新单元,用于更新所述参数表中的作业状态为导出完成、作业开始时间以及作业结束时间。第三方面,本专利技术提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现数据集群迁移方法的步骤。第四方面,本专利技术提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现数据集群迁移方法的步骤。从上述描述可知,本专利技术实施例提供的数据集群迁移方法及装置,通过参数表方式实现了自动导出文本和自动导入文本,从而完成业务办理。具体地,首先从目标集群中导出逻辑表的数据到文本中,再把文本加载到对应目标集群M的暂存表中,对于暂存表进行逻辑处理后,在导入到最后目标表中。与现有的数据迁移方法相比,本专利技术数据迁移方法,具有以下优势:(1)能够适用于两个集群间表级别的数据迁移,具有通用性;(2)能够适用于各种灵活拆分表、大批量、多并发、全自动的数据同步;(3)使开发周期和成本大大降低,减少了工作量,能够快速部署上线。综上,本专利技术所提供的数据集群迁移方法及装置,可以满足各种复杂条件跨集群的数据快速搬迁方法。从而满足大批量、大数据量跨平台数据复制。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术的实施例中数据集群迁移方法流程示意图一;图2为本专利技术的实施例中数据集群迁移方法流程示意图二;图3为本专利技术的具体应用实例中数据集群迁移方法的流程示意图;图4为本专利技术的具体应用实例中数据集群迁移装置的结构示意图一;图5为本专利技术的具体应用实例中数据集群迁移装置的结构示意图二;图6为本专利技术的实施例中的电子设备的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。鉴于现有技术中缺乏两个数据集群并存的情况,并缺乏一种灵活快速的方法实现数据的跨集群搬迁,本专利技术的实施例提供一种数据集群迁移方法的具体实施方式,参见图1,该方法具体包括如下内容:步骤100:根据待迁移数据集群的物理表生成一参数表。可以理解的是,步骤100中的所述参数表中参数包括:限制条件、优先级、目标数据集群的对应库以及对应表、作业状态、作业开始时间以及作业结束时间。另外该参数表包含字段信息、子进程参数文件2。步骤100根据子进程参数文件202,fork多个子进程,该参数表记录了同步作业的状态,加密的用户名/密码,导出的码制,同步开始和结束的时间,导出的where条件,对导出的临时表处理的条件,作业的优先级别,对应当前集群的库名,表名,是否自动进行导出和导入,是否对于导出的字段作trim,导出的字段是否需要扩位。步骤200:根据所述待迁移数据集群的元数据以及所述参数表生成数据导出指令以及导入指令。具体地,通过参数表中登记的库名和表名,去当前集群的元数据中查询字段相关信息,结果是每个字段一行,按照字段类型结合参数表装置表登记的是否加coalesce,是否去空,是否扩位,去生成对应的查询sql。生成可以执行的select语句,包括select的查询的列表以及where条件。步骤300:根据所述待迁移数据集群以及所述迁移指令,生成可以迁移至所述目标数据集群的导出数据。具体地,解析参数表接收到的同步作业的参数和当前集群的元数据表字段信息。首先是生成导出脚本的登录信息和落地文本的路径,针对当前集群的元数据的表字段信息,结合参数表送过来的信息,按照字段的类型处理每个字段,生成导出语句。步骤400:根据所述导入指令将所述导出数据导入至所述目标数据集群中。从上述描述可知,本专利技术实施例提供的数据集群迁移方法,通过参数表方式本文档来自技高网...
【技术保护点】
1.一种数据集群迁移方法,其特征在于,包括:/n根据待迁移数据集群的物理表生成一参数表;所述参数表中参数包括:限制条件、优先级、目标数据集群的对应库以及对应表、作业状态、作业开始时间以及作业结束时间;/n根据所述待迁移数据集群的元数据以及所述参数表生成数据导出指令以及导入指令;/n根据所述待迁移数据集群以及所述迁移指令,生成可以迁移至所述目标数据集群的导出数据;/n根据所述导入指令将所述导出数据导入至所述目标数据集群中。/n
【技术特征摘要】
1.一种数据集群迁移方法,其特征在于,包括:
根据待迁移数据集群的物理表生成一参数表;所述参数表中参数包括:限制条件、优先级、目标数据集群的对应库以及对应表、作业状态、作业开始时间以及作业结束时间;
根据所述待迁移数据集群的元数据以及所述参数表生成数据导出指令以及导入指令;
根据所述待迁移数据集群以及所述迁移指令,生成可以迁移至所述目标数据集群的导出数据;
根据所述导入指令将所述导出数据导入至所述目标数据集群中。
2.根据权利要求1所述的数据集群迁移方法,其特征在于,所述导出指令以及导入指令为sql指令。
3.根据权利要求1所述的数据集群迁移方法,其特征在于,所述导出数据为所述待迁移数据集群的逻辑表对应至磁盘的数据文本的集合。
4.根据权利要求1所述的数据集群迁移方法,其特征在于,还包括:更新所述参数表中的作业状态为导出完成、作业开始时间以及作业结束时间。
5.一种数据集群迁移装置,其特征在于,包括:
参数表生成单元,用于根据待迁移数据集群的物理表生成一参数表;所述参数表中参数包括:限制条件、优先级、目标数据集群的对应库以及对应表、作业状态、作业开始时间以及作业结束时间;...
【专利技术属性】
技术研发人员:陈开,匡蕴娟,周凯,卢祥光,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。