数据迁移处理方法和装置制造方法及图纸

技术编号：35043822 阅读：23 留言：0更新日期：2022-09-24 23:23

本申请提供一种数据迁移处理方法和装置，涉及大数据处理技术领域。该方法包括：接收数据迁移指令，数据迁移指令包括待迁移数据的数据量；根据待迁移数据的数据量确定所需使用的中转节点以及该中转节点上运行的数据执行节点的个数，每个数据执行节点中包含Gpfdist，各数据执行节点关联至少一个存储节点；向Master发送可使用的数据执行节点的通知信息；通过各数据执行节点中的Gpfdist，分别接收与该数据执行节点关联的存储节点传输的待迁移数据，并存储待迁移数据，以使HDFS通过各数据执行节点获取待迁移数据。本申请的方法使得待迁移数据的数据量不再受限于一个中转节点服务器的可用存储空间，且提高了数据迁移效率。且提高了数据迁移效率。且提高了数据迁移效率。

全部详细技术资料下载

【技术实现步骤摘要】
数据迁移处理方法和装置

[0001]本申请涉及大数据处理
，尤其涉及一种数据迁移处理方法和装置。

技术介绍

[0002]在金融、互联网、物联网等领域，无时无刻不在产生大量的数据。根据数据类型、应用场景等因素，不同的数据通常会选择不同类型的存储系统来存储。中心数据库（Greenplum）、分布式文件存储系统（HDFS）即为两种常用的数据存储平台。
[0003]相对于Greenplum来说，HDFS更稳定、可靠，且可匹配处理海量数据的能力也更高。因此，HDFS是目前常用大数据处理平台中的主流数据存储系统。因此，现有技术时常存在需要将Greenplum中的数据迁移到HDFS，以支持大数据分析的需求。具体的数据迁移过程中，通常需要使用并行文件服务工具（Gpfdist）。Greenplum中的元数据服务器（Master）接收数据迁移指令后，将数据迁移指令分发给与待迁移数据相关的数据存储节点（Segment）；各Segment根据数据迁移指令将数据传输于一个运行了Gpfdist的中转节点服务器；然后大数据处理平台从该中转节点服务器上获取数据，再将数据写入HDFS中。各Segment向中转节点服务器传输数据的过程需要借助外部表。该外部表在建立时，指定了各Segment所要访问的中转节点服务器的IP，使得各Segment均能够将数据传输于中转节点服务器。
[0004]然而，现有的迁移方法中，各Segment向中转节点服务器传输的数据量，受限于该中转节点服务器的存储空间。现有技术时常出现要么需要多次迁移过程来完成...

【技术保护点】

【技术特征摘要】
1.一种数据迁移处理方法，其特征在于，包括：接收中心数据库Greenplum中元数据服务器Master发送的数据迁移指令，所述数据迁移指令中包括待迁移数据的数据量；根据所述待迁移数据的数据量确定所需使用的中转节点以及该中转节点上运行的数据执行节点Spark Executor的个数，每个数据执行节点中包含并行文件服务工具Gpfdist，每个数据执行节点关联所述中心数据库中的至少一个存储节点Segment；向所述元数据服务器发送可使用的数据执行节点的通知信息；通过所运行的各数据执行节点中的并行文件服务工具，分别接收与该数据执行节点关联的存储节点传输而来的待迁移数据，并存储所述待迁移数据，以使分布式文件存储系统HDFS通过各数据执行节点获取所述待迁移数据。2.根据权利要求1所述的方法，其特征在于，所述根据所述待迁移数据的数据量确定所需使用的中转节点以及该中转节点上运行的数据执行节点的个数，具体包括：根据所述待迁移数据的数据量以及各中转节点的可用存储空间大小，确定一个中转节点，该中转节点上运行至少两个数据执行节点。3.根据权利要求1所述的方法，其特征在于，所述根据所述待迁移数据的数据量确定所需使用的中转节点以及该中转节点上运行的数据执行节点的个数，具体包括：根据所述待迁移数据的数据量以及各中转节点的可用存储空间大小，确定至少两个中转节点，每个中转节点上运行至少一个数据执行节点。4.根据权利要求3所述的方法，其特征在于，每个中转节点上可运行的数据执行节点个数根据该中转节点的可用存储空间大小确定。5.根据权利要求1所述的方法，其特征在于，所述数据迁移指令中具体包括待迁移数据的数据量以及与需进行数据迁移的各存储节点分别对应的待迁移数据的数据量；相应的，所述根据所述待迁移数据的数据量确定所需使用的中转节点以及该中转节点上运行的数据执行节点的个数，具体包括：根据待迁移数据的数据量以及各中转节点的可用存储空间大小，确定至少两个中转节点；根据各存储节点分别对应的待迁移数据的数据量大小以及所述至少两个中转节点中的每个中转节点的可用存储空间，确定各中转节点上运行的数据执行节点的个数以及每个数据执行节点所关联的存储节点。6.根据权利要求1
‑
5任一所述的方法，其特征在于，每个数据执行节点中还包含分布式文件存储系统的客户端程序；所述存储所述待迁移数据之后，还包括：通过分布式文件存储系统的客户端程序将所述待迁移数据写入分布式文件存储系统中。7.根据权利要求6所述的方法，其特征在于，所述通过分布式文件存储系统的客户端程序将所述待迁移数据写入分布式文件存储系统中，具体包括：若已存储的待迁移数据的数据量大于存储阈值，则通过分布式文件存储系统的客户端程序将所述已存储的待迁移数据写入分布式文件存储系统中。8.根据权利要求6所述的方法，其特征在于，所述通过分布式文件存储系统的客户端程
序将所述待迁移数据写入分布式文件存储系统中，具体包括：根据待迁...

【专利技术属性】
技术研发人员：李易平，
申请(专利权)人：建信金融科技有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人