System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 数据迁移方法、装置、设备及存储介质制造方法及图纸_技高网

数据迁移方法、装置、设备及存储介质制造方法及图纸

技术编号:40101774 阅读:9 留言:0更新日期:2024-01-23 17:48
本申请公开了一种数据迁移方法、装置、设备及存储介质,属于数据处理技术领域。本申请基于接收到的数据迁移指令,将源集群的源HBase表中待迁移数据保存至目标HDFS的路径下,由于所述目标HDFS是基于多个服务器构建的,即使源HBase表中待迁移数据量较大,也不会因为服务器的容量有限而无法实现同时迁移,通过所述目标HDFS将所述待迁移数据保存至目的集群对应HBase表的路径下,即可完成所述数据迁移指令对应数据迁移任务,提升数据迁移效率。

【技术实现步骤摘要】

本申请涉及数据处理,尤其涉及一种数据迁移方法、装置、设备及存储介质


技术介绍

1、目前,在需要迁移hbase表中存储的数据时,通常是将待迁移的hbase表导出至本地服务器,再通过本地服务器将该待迁移的hbase表上传至目标服务器。

2、由于业务要求,可能需要同时迁移大量hbase(hadoop database,一种分布式存储系统)表,例如,高达tb(terabyte,太字节)量级的数据量;此时,若还是采用上述方法进行数据迁移,则会由于服务器的硬盘空间不足,而无法完成同时迁移的任务,只能分批次迁移,降低了数据迁移效率。


技术实现思路

1、本申请的主要目的在于提供一种数据迁移方法、装置、设备及存储介质,旨在解决因无法同时迁移大量hbase表导致数据迁移效率低下的技术问题。

2、为实现上述目的,本申请提供一种数据迁移方法,应用于数据迁移系统,所述数据迁移方法包括以下步骤:

3、基于接收到的数据迁移指令,将源集群的源hbase表中待迁移数据保存至目标hdfs的路径下,通过所述目标hdfs将所述待迁移数据保存至目的集群对应hbase表的路径下,完成所述数据迁移指令对应数据迁移任务,其中,所述目标hdfs是基于多个服务器构建的。

4、可选地,所述数据迁移任务的任务类型包括跨集群迁移和同集群迁移;

5、若所述任务类型为跨集群迁移,则所述源集群与所述目的集群非相同集群,所述目标hdfs包括源集群的hdfs和目的集群的hdfs;

6、若所述任务类型为同集群迁移,则所述目的集群为所述源集群,所述目标hdfs为源集群的hdfs。

7、可选地,若所述任务类型为跨集群迁移,则所述基于接收到的数据迁移指令,将源集群的源hbase表中待迁移数据保存至目标hdfs的路径下,通过所述目标hdfs将所述待迁移数据保存至目的集群对应hbase表的路径下的步骤,包括:

8、基于接收到的数据迁移指令,将源集群的源hbase表中待迁移数据保存至所述源集群的hdfs的路径下;

9、通过所述源集群hdfs将所述待迁移数据保存至所述目的集群的hdfs的路径下;

10、通过所述目的集群的hdfs将所述待迁移数据保存至所述目的集群对应hbase表的路径下。

11、可选地,若所述任务类型为同集群迁移,则所述基于接收到的数据迁移指令,将源集群的源hbase表中待迁移数据保存至目标hdfs的路径下,通过所述目标hdfs将所述待迁移数据保存至目的集群对应hbase表的路径下的步骤,包括:

12、基于接收到的数据迁移指令,通过调用hbase export工具将源集群的源hbase表中待迁移数据导出,并通过hbase import工具将所述待迁移数据以hfile格式保存至所述源集群的hdfs的路径下;

13、通过调用所述hbase import工具,将所述源集群的hdfs中待迁移数据的格式从hfile格式转换为hbase格式;

14、通过调用hbase load incremental hfiles工具对新建的hbase表基于bulkload进行写入操作,以将所述待迁移数据以hbase格式保存至所述源集群中新建的hbase表的路径下。

15、可选地,若所述任务类型为跨集群迁移,则所述基于接收到的数据迁移指令,将源集群的源hbase表中待迁移数据保存至目标hdfs的路径下,通过所述目标hdfs将所述待迁移数据保存至目的集群对应hbase表的路径下的步骤,包括:

16、基于接收到的数据迁移指令,通过调用hbase export工具将所述源hbase表中待迁移数据导出,并通过hbase import工具将所述待迁移数据以hfile格式保存至源集群的hdfs的路径下;

17、通过调用hdfsdistcp工具,将所述源集群的hdfs中待迁移数据传输至目的集群的hdfs;

18、通过调用hbase import工具,将所述目的集群的hdfs中待迁移数据的格式从hfile格式转换为hbase格式;

19、通过调用hbase load incremental hfiles工具对所述目的集群的hbase表基于bulkload进行写入操作,以将所述待迁移数据以hbase格式保存至目的集群对应hbase表的路径下。

20、可选地,所述数据迁移系统包括集群对应的客户端,所述基于接收到的数据迁移指令,将源集群的源hbase表中待迁移数据保存至目标hdfs的路径下,通过所述目标hdfs将所述待迁移数据保存至目的集群对应hbase表的路径下的步骤之前,所述方法还包括:

21、基于所述数据迁移任务的当前任务进度,以及所述数据迁移任务中的预设配置信息,登陆所述源集群和/或者所述目的集群的客户端;

22、通过登录后的客户端将所述数据迁移指令写入对应集群,以供对应集群执行所述数据迁移指令。

23、可选地,所述数据迁移任务还包括数据迁移时间,所述基于接收到的数据迁移指令,将源集群的源hbase表中待迁移数据保存至目标hdfs的路径下的步骤之前,还包括:

24、通过hbase export工具基于所述数据迁移时间,将hbase表中待迁移的增量数据导出,以基于接收到的数据迁移指令,将所述待迁移的增量数据保存至目标hdfs的路径下;

25、所述基于接收到的数据迁移指令,将源集群的源hbase表中待迁移数据保存至目标hdfs的路径下,通过所述目标hdfs将所述待迁移数据保存至目的集群对应hbase表的路径下的步骤之后,还包括:

26、基于正则表达式,从数据迁移过程中保存的日志中提取出在yarn中注册的数据迁移任务的任务uuid;

27、根据所述任务uuid,从yarn rest api中获取任务完成情况以及完成结果。

28、此外,为实现上述目的,本申请还提供一种数据迁移装置,应用于数据迁移系统,所述数据迁移装置包括:

29、数据迁移模块,用于基于接收到的数据迁移指令,将源集群的源hbase表中待迁移数据保存至目标hdfs的路径下,通过所述目标hdfs将所述待迁移数据保存至目的集群对应hbase表的路径下,完成所述数据迁移指令对应数据迁移任务,其中,所述目标hdfs是基于多个服务器构建的。

30、此外,为实现上述目的,本申请还提供一种设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据迁移程序,所述数据迁移程序配置为实现如上所述的数据迁移方法的步骤。

31、此外,为实现上述目的,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有数据迁移程序,所述数据迁移程序被处理器执行时实现如上所述的数据迁移方法的步骤。

32、本申请基于接收到的数据迁移指令,将源集群的源hbase表中待迁移数据保存至目标hdfs本文档来自技高网...

【技术保护点】

1.一种数据迁移方法,其特征在于,应用于数据迁移系统,所述数据迁移方法包括以下步骤:

2.如权利要求1所述的数据迁移方法,其特征在于,所述数据迁移任务的任务类型包括跨集群迁移和同集群迁移;

3.如权利要求2所述的数据迁移方法,其特征在于,若所述任务类型为跨集群迁移,则所述基于接收到的数据迁移指令,将源集群的源HBase表中待迁移数据保存至目标HDFS的路径下,通过所述目标HDFS将所述待迁移数据保存至目的集群对应HBase表的路径下的步骤,包括:

4.如权利要求2所述的数据迁移方法,其特征在于,若所述任务类型为同集群迁移,则所述基于接收到的数据迁移指令,将源集群的源HBase表中待迁移数据保存至目标HDFS的路径下,通过所述目标HDFS将所述待迁移数据保存至目的集群对应HBase表的路径下的步骤,包括:

5.如权利要求2所述的数据迁移方法,其特征在于,若所述任务类型为跨集群迁移,则所述基于接收到的数据迁移指令,将源集群的源HBase表中待迁移数据保存至目标HDFS的路径下,通过所述目标HDFS将所述待迁移数据保存至目的集群对应HBase表的路径下的步骤,包括:

6.如权利要求1所述的数据迁移方法,其特征在于,所述数据迁移系统包括集群对应的客户端,所述基于接收到的数据迁移指令,将源集群的源HBase表中待迁移数据保存至目标HDFS的路径下,通过所述目标HDFS将所述待迁移数据保存至目的集群对应HBase表的路径下的步骤之前,所述方法还包括:

7.如权利要求1所述的数据迁移方法,其特征在于,所述数据迁移任务还包括数据迁移时间,所述基于接收到的数据迁移指令,将源集群的源HBase表中待迁移数据保存至目标HDFS的路径下的步骤之前,还包括:

8.一种数据迁移装置,其特征在于,应用于数据迁移系统,所述数据迁移装置包括:

9.一种设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据迁移程序,所述数据迁移程序配置为实现如权利要求1至7中任一项所述的数据迁移方法的步骤。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有数据迁移程序,所述数据迁移程序被处理器执行时实现如权利要求1至7中任一项所述的数据迁移方法的步骤。

...

【技术特征摘要】

1.一种数据迁移方法,其特征在于,应用于数据迁移系统,所述数据迁移方法包括以下步骤:

2.如权利要求1所述的数据迁移方法,其特征在于,所述数据迁移任务的任务类型包括跨集群迁移和同集群迁移;

3.如权利要求2所述的数据迁移方法,其特征在于,若所述任务类型为跨集群迁移,则所述基于接收到的数据迁移指令,将源集群的源hbase表中待迁移数据保存至目标hdfs的路径下,通过所述目标hdfs将所述待迁移数据保存至目的集群对应hbase表的路径下的步骤,包括:

4.如权利要求2所述的数据迁移方法,其特征在于,若所述任务类型为同集群迁移,则所述基于接收到的数据迁移指令,将源集群的源hbase表中待迁移数据保存至目标hdfs的路径下,通过所述目标hdfs将所述待迁移数据保存至目的集群对应hbase表的路径下的步骤,包括:

5.如权利要求2所述的数据迁移方法,其特征在于,若所述任务类型为跨集群迁移,则所述基于接收到的数据迁移指令,将源集群的源hbase表中待迁移数据保存至目标hdfs的路径下,通过所述目标hdfs将所述待迁移数据保存至目的集群对应hbase表的...

【专利技术属性】
技术研发人员:檀晓文万佳丽
申请(专利权)人:招商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1