数据迁移处理方法和装置制造方法及图纸

技术编号:35043822 阅读:23 留言:0更新日期:2022-09-24 23:23
本申请提供一种数据迁移处理方法和装置,涉及大数据处理技术领域。该方法包括:接收数据迁移指令,数据迁移指令包括待迁移数据的数据量;根据待迁移数据的数据量确定所需使用的中转节点以及该中转节点上运行的数据执行节点的个数,每个数据执行节点中包含Gpfdist,各数据执行节点关联至少一个存储节点;向Master发送可使用的数据执行节点的通知信息;通过各数据执行节点中的Gpfdist,分别接收与该数据执行节点关联的存储节点传输的待迁移数据,并存储待迁移数据,以使HDFS通过各数据执行节点获取待迁移数据。本申请的方法使得待迁移数据的数据量不再受限于一个中转节点服务器的可用存储空间,且提高了数据迁移效率。且提高了数据迁移效率。且提高了数据迁移效率。

【技术实现步骤摘要】
数据迁移处理方法和装置


[0001]本申请涉及大数据处理
,尤其涉及一种数据迁移处理方法和装置。

技术介绍

[0002]在金融、互联网、物联网等领域,无时无刻不在产生大量的数据。根据数据类型、应用场景等因素,不同的数据通常会选择不同类型的存储系统来存储。中心数据库(Greenplum)、分布式文件存储系统(HDFS)即为两种常用的数据存储平台。
[0003]相对于Greenplum来说,HDFS更稳定、可靠,且可匹配处理海量数据的能力也更高。因此,HDFS是目前常用大数据处理平台中的主流数据存储系统。因此,现有技术时常存在需要将Greenplum中的数据迁移到HDFS,以支持大数据分析的需求。具体的数据迁移过程中,通常需要使用并行文件服务工具(Gpfdist)。Greenplum中的元数据服务器(Master)接收数据迁移指令后,将数据迁移指令分发给与待迁移数据相关的数据存储节点(Segment);各Segment根据数据迁移指令将数据传输于一个运行了Gpfdist的中转节点服务器;然后大数据处理平台从该中转节点服务器上获取数据,再将数据写入HDFS中。各Segment向中转节点服务器传输数据的过程需要借助外部表。该外部表在建立时,指定了各Segment所要访问的中转节点服务器的IP,使得各Segment均能够将数据传输于中转节点服务器。
[0004]然而,现有的迁移方法中,各Segment向中转节点服务器传输的数据量,受限于该中转节点服务器的存储空间。现有技术时常出现要么需要多次迁移过程来完成全部数据的迁移,要么数据迁移失败的现象。

技术实现思路

[0005]本申请提供了一种数据迁移处理方法和装置,以解决现有技术中待迁移数据的数据量受限于中转节点服务器的存储空间的问题。
[0006]根据本申请的第一方面,提供了一种数据迁移处理方法,包括:接收中心数据库Greenplum中元数据服务器Master发送的数据迁移指令,所述数据迁移指令中包括待迁移数据的数据量;根据所述待迁移数据的数据量确定所需使用的中转节点以及该中转节点上运行的数据执行节点Spark Executor的个数,每个Spark Executor中包含并行文件服务工具Gpfdist,每个Spark Executor关联所述Greenplum中的至少一个存储节点Segment;向所述Master发送可使用的Spark Executor的通知信息;通过所运行的各Spark Executor中的Gpfdist,分别接收与该Spark Executor关联的Segment传输而来的待迁移数据,并存储所述待迁移数据,以使分布式文件存储系统HDFS通过各Spark Executor获取所述待迁移数据。
[0007]第二方面,本申请提供一种数据迁移处理装置,包括:第一接收模块,用于接收中心数据库Greenplum中元数据服务器Master发送的数据迁移指令,所述数据迁移指令中包括待迁移数据的数据量大小;
确定模块,用于根据所述待迁移数据的数据量确定所需使用的中转节点以及该中转节点上运行的数据执行节点Spark Executor的个数,每个Spark Executor中包含并行文件服务工具Gpfdist,每个Spark Executor关联所述Greenplum中的至少一个存储节点Segment;通知模块,用于向所述Master发送可使用的Spark Executor的通知信息;第二接收模块,用于通过所运行的各Spark Executor中的Gpfdist,分别接收与该Spark Executor关联的Segment传输而来的待迁移数据,并存储所述待迁移数据,以使分布式文件存储系统HDFS通过各Spark Executor获取所述待迁移数据。
[0008]第三方面,本申请提供一种数据迁移处理系统,包括:中心数据库Greenplum和中转节点;所述Greenplum中包括元数据服务器Master和至少两个存储节点Segment;所述中转节点用于执行上述的数据迁移处理方法。
[0009]第四方面,本申请提供一种电子设备,包括:所述存储器存储计算机执行指令;所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行上述的数据迁移处理方法。
[0010]第五方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现上述的数据迁移处理方法。
[0011]第六方面,本申请提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的数据迁移处理方法的步骤。
[0012]本申请提供一种数据迁移处理方法和装置,通过待迁移数据的数据量确定所需使用的中转节点、各中转节点上运行的Spark Executor的个数,使得待迁移数据的数据量不再受限于一个中转节点的可用存储空间的限制,同时各中转节点上运行至少一个Spark Executor,每个Spark Executor关联至少一个Segment,使得中转节点可以通过多个Spark Executor并行的接收Segment传输的待迁移数据,提高了数据迁移效率。
附图说明
[0013]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
[0014]图1为本申请实施例提供的数据迁移处理系统的架构示意图一;图2为本申请实施例提供的现有数据迁移处理方法的过程示意图;图3为本申请实施例提供的数据迁移处理方法的流程示意图一;图4为本申请实施例提供的数据迁移处理方法的流程示意图二;图5为本申请实施例提供的数据迁移处理方法的过程示意图一;图6为本申请实施例提供的数据迁移处理方法的过程示意图二;图7为本申请实施例提供的数据迁移处理方法的过程示意图三;图8为本申请实施例提供的数据迁移处理装置的结构示意图;图9为本申请实施例提供的数据迁移处理系统的架构示意图二;
图10为本申请实施例提供的另一种数据迁移处理系统的架构示意图二;图11为本申请实施例提供的电子设备的硬件结构图。
[0015]通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
[0016]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
[0017]为了便于理解,首先对本申请实施例的应用场景进行介绍。
[0018]图1为本申请实施例提供的数据迁移处理系统的架构示意图一。如图1所示,数据迁移处理系统包括数据库A 101、中转节点1本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据迁移处理方法,其特征在于,包括:接收中心数据库Greenplum中元数据服务器Master发送的数据迁移指令,所述数据迁移指令中包括待迁移数据的数据量;根据所述待迁移数据的数据量确定所需使用的中转节点以及该中转节点上运行的数据执行节点Spark Executor的个数,每个数据执行节点中包含并行文件服务工具Gpfdist,每个数据执行节点关联所述中心数据库中的至少一个存储节点Segment;向所述元数据服务器发送可使用的数据执行节点的通知信息;通过所运行的各数据执行节点中的并行文件服务工具,分别接收与该数据执行节点关联的存储节点传输而来的待迁移数据,并存储所述待迁移数据,以使分布式文件存储系统HDFS通过各数据执行节点获取所述待迁移数据。2.根据权利要求1所述的方法,其特征在于,所述根据所述待迁移数据的数据量确定所需使用的中转节点以及该中转节点上运行的数据执行节点的个数,具体包括:根据所述待迁移数据的数据量以及各中转节点的可用存储空间大小,确定一个中转节点,该中转节点上运行至少两个数据执行节点。3.根据权利要求1所述的方法,其特征在于,所述根据所述待迁移数据的数据量确定所需使用的中转节点以及该中转节点上运行的数据执行节点的个数,具体包括:根据所述待迁移数据的数据量以及各中转节点的可用存储空间大小,确定至少两个中转节点,每个中转节点上运行至少一个数据执行节点。4.根据权利要求3所述的方法,其特征在于,每个中转节点上可运行的数据执行节点个数根据该中转节点的可用存储空间大小确定。5.根据权利要求1所述的方法,其特征在于,所述数据迁移指令中具体包括待迁移数据的数据量以及与需进行数据迁移的各存储节点分别对应的待迁移数据的数据量;相应的,所述根据所述待迁移数据的数据量确定所需使用的中转节点以及该中转节点上运行的数据执行节点的个数,具体包括:根据待迁移数据的数据量以及各中转节点的可用存储空间大小,确定至少两个中转节点;根据各存储节点分别对应的待迁移数据的数据量大小以及所述至少两个中转节点中的每个中转节点的可用存储空间,确定各中转节点上运行的数据执行节点的个数以及每个数据执行节点所关联的存储节点。6.根据权利要求1

5任一所述的方法,其特征在于,每个数据执行节点中还包含分布式文件存储系统的客户端程序;所述存储所述待迁移数据之后,还包括:通过分布式文件存储系统的客户端程序将所述待迁移数据写入分布式文件存储系统中。7.根据权利要求6所述的方法,其特征在于,所述通过分布式文件存储系统的客户端程序将所述待迁移数据写入分布式文件存储系统中,具体包括:若已存储的待迁移数据的数据量大于存储阈值,则通过分布式文件存储系统的客户端程序将所述已存储的待迁移数据写入分布式文件存储系统中。8.根据权利要求6所述的方法,其特征在于,所述通过分布式文件存储系统的客户端程
序将所述待迁移数据写入分布式文件存储系统中,具体包括:根据待迁...

【专利技术属性】
技术研发人员:李易平
申请(专利权)人:建信金融科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1