数据迁移及信息确定方法、数据处理系统、电子设备技术方案

技术编号:24455101 阅读:32 留言:0更新日期:2020-06-10 15:19
本申请实施例提供一种数据迁移及信息确定方法、数据处理系统、电子设备。其中,数据迁移方法包括:获取第一集群的需迁移量及至少一个第二集群的可接收量;基于数据间的依赖关系,确定第一集群上的数据迁移至任一第二集群后引起的与网络资源消耗相关的目标信息;根据目标信息、需迁移量及至少一个第二集群的可接收量,确定迁移方案;其中,迁移方案包括:第一集群上能迁移的目标数据、至少一个第二集群中能接收目标数据的目标集群。本申请实施例综合了数据间依赖、集群的需迁移量及集群的可接收量,制定出的迁移方案,更加客观,且更贴合实际情况;较现有人工规划迁移,能有效解决现有技术中运维人员作出的迁移规划过为保守的问题。

Data migration and information determination method, data processing system, electronic equipment

【技术实现步骤摘要】
数据迁移及信息确定方法、数据处理系统、电子设备
本申请涉及计算机
,尤其涉及一种数据迁移及信息确定方法、数据处理系统、电子设备。
技术介绍
大数据处理系统的核心计算组件,承担了大部分的分布式计算需求。大数据平台的核心计算组件通常包含有多个集群(cluster),其可分布在不同的地域,为上千个应用提供服务。集群(cluster)存在计算、存储、文件数等多个维度的资源。当任一集群的资源使用情况到达一定程度时,需将该集群上的部分数据进行迁移。目前集群间的数据迁移依赖于运维人员的经验。通常情况下,运维人员作出的迁移规划一般较为保守。
技术实现思路
针对现有人工制定数据迁移规则存在的问题,本申请各实施例提供一种自动化高、较为合理的数据迁移及信息确定方法、数据处理系统、电子设备。在本申请的一个实施例中,提供了一种数据迁移方法。该方法包括:获取第一集群的需迁移量及至少一个第二集群的可接收量;基于数据间的依赖关系,确定所述第一集群上的数据迁移至任一第二集群后引起的与网络资源消耗相关的目标信息;根本文档来自技高网...

【技术保护点】
1.一种数据迁移方法,包括:/n获取第一集群的需迁移量及至少一个第二集群的可接收量;/n基于数据间的依赖关系,确定所述第一集群上的数据迁移至任一第二集群后引起的与网络资源消耗相关的目标信息;/n根据所述目标信息、所述需迁移量及所述至少一个第二集群的可接收量,确定迁移方案;/n其中,所述迁移方案包括:所述第一集群上能迁移的目标数据、所述至少一个第二集群中能接收所述目标数据的目标集群。/n

【技术特征摘要】
1.一种数据迁移方法,包括:
获取第一集群的需迁移量及至少一个第二集群的可接收量;
基于数据间的依赖关系,确定所述第一集群上的数据迁移至任一第二集群后引起的与网络资源消耗相关的目标信息;
根据所述目标信息、所述需迁移量及所述至少一个第二集群的可接收量,确定迁移方案;
其中,所述迁移方案包括:所述第一集群上能迁移的目标数据、所述至少一个第二集群中能接收所述目标数据的目标集群。


2.根据权利要求1所述方法,基于数据间的依赖关系,确定所述第一集群上的数据迁移至任一第二集群后引起的与网络资源消耗相关的目标信息,包括:
基于数据间的依赖关系,确定所述第一集群上的数据因数据交互需消耗的第一网络资源信息;
基于数据间的依赖关系,确定所述第一集群上的数据迁移至任一第二集群后引起的数据交互所需消耗的第二网络资源信息;
根据所述第一网络资源信息及所述第二网络资源信息,确定所述目标信息。


3.根据权利要求2所述的方法,所述第一网络资源信息包括如下中的至少一组信息项:
所述第一集群上的数据产生集群内数据交互需消耗的网络资源量;
所述第一集群上的数据产生跨集群间数据交互需消耗的网络资源量及网络资源类型。


4.根据权利要求2所述的方法,所述第二网络资源信息包括如下中的至少一组信息项:
所述第一集群上的数据迁移至一第二集群后,所述数据产生在所述第二集群内的数据交互需消耗的网络资源量;
所述第一集群上的数据迁移至一第二集群后,所述数据产生的跨集群间数据交互需消耗的网络资源量及网络资源类型。


5.根据权利要求3或4所述的方法,
不同集群部署在至少一个机房内;
当存在多个机房的情况下,多个机房中包含有部署于同一地域的至少两个机房,和/或部署于不同地域的至少两个机房;
网络资源类型包括如下中的至少一种:同机房内数据交互所占的内网资源类型、同地域不同机房间数据交互所占的同地域网络资源类型,以及不同地域两机房间数据交互所占的跨地域网络资源类型。


6.根据权利要求3或4所述的方法,根据所述第一网络资源信息及所述第二网络资源信息,确定所述目标信息,包括:
根据所述第一网络资源信息,计算第一数据交互成本;
根据所述第二网络资源信息,计算第二数据交互成本;
根据所述第一数据交互成本及所述第二数据交互成本,确定所述目标信息。


7.根据权利要求1至3中任一项所述的方法,根据所述第一数据交互成本及所述第二数据交互成本,确定所述目标信息,包括:
根据所述第一数据交互成本及所述第二数据交互成本,构建求解数据交互成本最优解问题中的目标函数,以作为所述目标信息。


8.根据权利要求7所述的方法,根据所述目标信息、所述需迁移量及所述至少一个第二集群的可接收量,确定迁移方案,包括:
基于所述需迁移量及所述至少一个第二集群的可接收量,确定求解数据交互成本最优解问题中的约束条件;
结合所述约束条件求解所述目标函数,得出所述迁移方案。


9.根据权利要求8所述的方法,所述需迁移量包括如下中的至少一种:计算量迁移量、数据量迁移量、文件数迁移量;
所述可接收量包括如下中的至少一种:计算量接收量、数据量接收量、文件数接收量;以及
确定出的所述约束条件包括如下中的至少一项:
所述目标集群数量小于或等于第一阈值;
所述目标数据的计算量大于或等于所述计算量迁移量;
所述目标数据的数据量大于或等于所述数据量迁移量;
所述目标数据的文件数大于或等于所述文件数迁移量;
所述目标数据的计算量小于或等于所述计算量接收量;
所述目标数据的数据量小于或等于所述数据量接收量;
所述目标数据的文件数小于或等于所述文件数接收量。


10.根据权利要求1至3中任一项所述的方法,还包括:
获取所述第一集群的体量信息;
获取所述第一集群的历史运行信息;
根据所述第一集群的体量信息及所述历史运行信息,确定所述第一集群的判定阈值;
基于所述第一集群的资源总量、所述第一集群的资源使用量及所述判定阈值,对所述第一集群进行数据需迁移的判定和所述需迁移量的量化操作。


11.根据权利要求10所述的方法,所述历史运行信息包括:所述第一集群历史上处理的高优先级数据的数量,
所述判定阈值包括:至少一种资源类型对应的阈值;其中,资源类型包括:计算资源类型、存储资源类型、文件数资源类型。


12.根据权利要求11所述的方法,所述判定阈值包括:至少一种资源类型对应的需迁移阈值、至少一种资源类型对应的可接收阈值;
相同资源类型对应的可接收阈值小于需迁移阈值。


13.根据权利要求1至3中任一项所述的方法,还包括:
获取多个集群的可接收量;
从所述多个集群中,选取可接收量大于或等于所述需迁移量的集群作为第二集群。


14.根据权利要求13所述的方法,还包括:
所述多个集群中无可接收量大于或等于所述需迁移量的集群时,提示需扩容;
调整所述第一集群的需迁移量;
重新从所述多个集群中选出可接收量大于或等于调整后的所述需迁移量的集群作为第二集群。


15.根据权利要求14所述的方法,获取所述多个集群中一待选集群的可接收量,包括:
获取所述待选集群的资源总量、所述待选集群的资源使用量及可接收阈值;
根据所述待选集群的资源总量、所述待选集群的资源使用量及可接收阈值,计算所述待选集群的可接收量。


16.根据权利要求1至3中任一项所述的方法,还包括:
量化估计所述目标数据迁移至所述目标集群后的迁移影响,得到量化结果;
展示所述量化结果。


17.根据权利要求16所述的方法,量化估计所述目标数据迁移至所述目标集群后的迁移影响,得到量化结果,包括如下中的至少一项:
获取所述目标数据迁移至所述目标集群后所述目标集群的数据存储量,将所述数据存储量作为所述量化结果中的一项;
获取所述目标数据迁移至所述目标集群后所述目标集群的文件总数,将所述文件总数作为所述量化结果中的一项;
获取所述目标数据的运行时长及计算量,基于所述运行时长及所述计算量,计算单位时长内的计算量;基于所述单位时长内的计算量确定所述量化结果中的一项;
所述目标数据迁移至所述目标集群后,模拟出跨集群复制列表;基于所述...

【专利技术属性】
技术研发人员:张颖莹
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1