跨计算中心数据迁移方法技术

技术编号:39057561 阅读:12 留言:0更新日期:2023-10-12 19:50
本发明专利技术公开了一种跨计算中心数据迁移方法,包括:响应于作业调度需求,根据作业调度需求中的资源要求对当前可迁移的计算中心进行筛选,得到候选计算中心;根据作业调度需求中的数据要求确定目标作业数据,并获取目标作业数据的元数据信息,其中,元数据信息包括数据的名称、ID、已迁移的分中心和最后一次修改时间中的至少一者;根据元数据信息得到目标作业数据的历史迁移记录,并根据历史迁移记录对候选计算中心进行筛选,得到目标计算中心;根据目标计算中心及其存储数据的历史迁移记录、元数据信息,以及目标作业数据当前存储的计算中心对目标作业数据进行迁移。本发明专利技术实施例的跨计算中心数据迁移方法能够提高作业调度的效率,降低出错率。降低出错率。降低出错率。

【技术实现步骤摘要】
跨计算中心数据迁移方法


[0001]本专利技术涉及数据迁移
,特别涉及一种跨计算中心数据迁移方法。

技术介绍

[0002]在当前的算力联盟中,作业调度器的作业分配机制主要依赖于作业所需的数据集和模型的分布。在进行作业调度时,调度器需要判断哪些计算中心同时存在这些数据集和模型,然后才能将作业调度到拥有这些资源的计算中心。然而,该调度方式存在以下主要问题:1.数据依赖问题:作业的调度和执行过程严重依赖于数据集和模型的分布情况,即只有那些拥有特定数据和模型的计算中心才能接收和执行作业。这不仅限制了作业调度的灵活性,也使得作业在多计算中心之间的调度和执行变得复杂和困难。2.数据迁移问题:在相关技术中,如果需要将作业调度到其他计算中心,通常需要手动迁移数据集和模型,该过程既耗时又容易出错,严重影响了算力联盟的工作效率。3.资源利用不均问题:由于作业的调度主要基于数据和模型的分布,可能导致一部分计算中心的资源被过度使用,而其他计算中心的资源被低度利用或闲置,导致资源利用率不均,从而影响算力联盟的整体性能。

技术实现思路

[0003]本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的目的在于提出一种跨计算中心数据迁移方法,以提高作业调度的效率。
[0004]为达到上述目的,本专利技术实施例提出了一种跨计算中心数据迁移方法,所述方法包括:响应于作业调度需求,根据所述作业调度需求中的资源要求对当前可迁移的计算中心进行筛选,得到候选计算中心;根据所述作业调度需求中的数据要求确定目标作业数据,并获取所述目标作业数据的元数据信息,其中,所述元数据信息包括数据的名称、ID、已迁移的分中心和最后一次修改时间中的至少一者,所述元数据信息存储于迁移记录表中;根据所述元数据信息得到所述目标作业数据的历史迁移记录,并根据所述历史迁移记录对所述候选计算中心进行筛选,得到目标计算中心;根据所述目标计算中心及其存储数据的历史迁移记录、元数据信息,以及所述目标作业数据当前存储的计算中心对所述目标作业数据进行迁移。
[0005]另外,本专利技术实施例的跨计算中心数据迁移方法还可以具有如下附加技术特征:根据本专利技术的一个实施例,将迁移至所述目标计算中心的目标作业数据记为已迁移数据,在将所述目标作业数据迁移至所述目标计算中心之后,所述方法还包括:根据所述已迁移数据,对所述迁移记录表进行更新,并返回所述已迁移数据在所述目标计算中心的访问地址。
[0006]根据本专利技术的一个实施例,对所述目标作业数据进行迁移,并对所述迁移记录表进行更新,包括:当所述目标计算中心已发生过数据迁移,且所述目标作业数据的元数据信息中的最后一次修改时间和所述目标计算中心中存储数据的最后一次修改时间相同时,不对所述迁移记录表进行更新;当所述目标计算中心已发生过数据迁移,且所述目标作业数
据的元数据信息中的最后一次修改时间和所述目标计算中心中存储数据的最后一次修改时间不相同时,对所述目标作业数据的元数据信息和所述目标计算中心中存储数据的元数据信息进行比较,对不一致的元数据信息对应的目标作业数据进行重新传输,并根据传输结果,对所述迁移记录表进行更新;当所述目标计算中心未发生过数据迁移时,将所述目标作业数据同步至所述目标计算中心,并对所述迁移记录表进行更新。
[0007]根据本专利技术的一个实施例,所述对所述目标作业数据的元数据信息和所述目标计算中心中存储数据的元数据信息进行比较,对不一致的元数据信息对应的目标作业数据进行重新传输,并根据传输结果,对所述迁移记录表进行更新,包括:比较所述目标作业数据的元数据信息和所述目标计算中心中存储数据的元数据信息,确定不一致的数据;在存储所述目标作业数据的计算中心和所述目标计算中心之间建立增量同步,并传输所述不一致的数据至所述目标计算中心;校验所述目标计算中心中数据是否完整;若所述目标计算中心中数据不完整,则重新传输所述不一致的数据至所述目标计算中心,并返回所述校验所述目标计算中心中数据是否完整的步骤;若所述目标计算中心中数据完整,则根据所述传输结果,对所述迁移记录表进行更新。
[0008]根据本专利技术的一个实施例,所述在将所述目标作业数据同步至所述目标计算中心之后,所述方法还包括:校验所述目标计算中心中数据是否完整;若所述目标计算中心中数据不完整,则重新将所述目标作业数据同步至所述目标计算中心,并返回所述校验所述目标计算中心中数据是否完整的步骤。
[0009]根据本专利技术的一个实施例,所述根据所述历史迁移记录对所述候选计算中心进行筛选,得到目标计算中心,包括:对所述候选计算中心进行初始排序,并保留前f%的候选计算中心;根据所述历史迁移记录,对所述前f%的候选计算中心进行筛选排序,根据筛选排序结果,得到所述目标计算中心。
[0010]根据本专利技术的一个实施例,所述对所述候选计算中心进行初始排序,包括:通过下式对第个候选计算中心进行打分:其中,表示第个候选计算中心的初始得分,表示第个候选计算中心的CPU利用率得分,表示第个候选计算中心的内存使用占比得分。
[0011]根据每个候选计算中心的初始得分,对候选计算中心从高到低进行排序。
[0012]所述对所述前f%的候选计算中心进行筛选排序,包括:通过下式对第个候选计算中心进行打分:其中,表示第个候选计算中心的筛选得分,当所述历史迁移记录中存在第个候选计算中心的数据迁移记录时,为n,当所述历史迁移记录中不存在第个候选计算中心的数据迁移记录时,为0。
[0013]根据每个候选计算中心的筛选得分,对候选计算中心从高到低进行排序。
[0014]根据本专利技术的一个实施例,当所述筛选排序结果存在多个相同最高分的候选计算中心中时,选择多个相同最高分的候选计算中心中存储数据的最后一次修改时间与所述目标作业数据的元数据信息中最后一次修改时间相同的候选计算中心作为所述目标计算中
心。
[0015]根据本专利技术的一个实施例,在所述根据所述已迁移数据,对所述迁移记录表进行更新之后,所述方法还包括:对所述目标计算中心中的数据进行作业,并在作业完成后,将所述迁移记录表中对应的已迁移数据的迁移状态修改为已完成;定时删除所述目标计算中心中迁移状态为已完成的已迁移数据。
[0016]根据本专利技术的一个实施例,所述定时删除所述目标计算中心中迁移状态为已完成的已迁移数据,包括:定时扫描所述迁移记录表,获取目标已迁移数据的ID;根据所述目标已迁移数据的ID,查询所述目标已迁移数据的作业是否完成;若完成,则判断所述目标已迁移数据的最后一个作业完成时间是否超过目标时间区间;若超过,则将所述目标已迁移数据从所述目标计算中心中删除。
[0017]本专利技术实施例的跨计算中心数据迁移方法,通过在当前可迁移的计算中心筛选出目标计算中心,能够提高作业调度的效率,降低出错率。通过当前可迁移的计算中心资源,筛选出候选计算中心,能够提高各计算中心的资源利用率,减少资源的闲置。同时,能够在不依赖特定计算中心的数据和模型的前提下进行调度,提高了作业调度的灵活性。
附图说明<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种跨计算中心数据迁移方法,其特征在于,所述方法包括:响应于作业调度需求,根据所述作业调度需求中的资源要求对当前可迁移的计算中心进行筛选,得到候选计算中心;根据所述作业调度需求中的数据要求确定目标作业数据,并获取所述目标作业数据的元数据信息,其中,所述元数据信息包括数据的名称、ID、已迁移的分中心和最后一次修改时间中的至少一者,所述元数据信息存储于迁移记录表中;根据所述元数据信息得到所述目标作业数据的历史迁移记录,并根据所述历史迁移记录对所述候选计算中心进行筛选,得到目标计算中心;根据所述目标计算中心及其存储数据的历史迁移记录、元数据信息,以及所述目标作业数据当前存储的计算中心对所述目标作业数据进行迁移。2.根据权利要求1所述的跨计算中心数据迁移方法,其特征在于,将迁移至所述目标计算中心的目标作业数据记为已迁移数据,在将所述目标作业数据迁移至所述目标计算中心之后,所述方法还包括:根据所述已迁移数据,对所述迁移记录表进行更新,并返回所述已迁移数据在所述目标计算中心的访问地址。3.根据权利要求2所述的跨计算中心数据迁移方法,其特征在于,对所述目标作业数据进行迁移,并对所述迁移记录表进行更新,包括:当所述目标计算中心已发生过数据迁移,且所述目标作业数据的元数据信息中的最后一次修改时间和所述目标计算中心中存储数据的最后一次修改时间相同时,不对所述迁移记录表进行更新;当所述目标计算中心已发生过数据迁移,且所述目标作业数据的元数据信息中的最后一次修改时间和所述目标计算中心中存储数据的最后一次修改时间不相同时,对所述目标作业数据的元数据信息和所述目标计算中心中存储数据的元数据信息进行比较,对不一致的元数据信息对应的目标作业数据进行重新传输,并根据传输结果,对所述迁移记录表进行更新;当所述目标计算中心未发生过数据迁移时,将所述目标作业数据同步至所述目标计算中心,并对所述迁移记录表进行更新。4.根据权利要求3所述的跨计算中心数据迁移方法,其特征在于,所述对所述目标作业数据的元数据信息和所述目标计算中心中存储数据的元数据信息进行比较,对不一致的元数据信息对应的目标作业数据进行重新传输,并根据传输结果,对所述迁移记录表进行更新,包括:比较所述目标作业数据的元数据信息和所述目标计算中心中存储数据的元数据信息,确定不一致的数据;在存储所述目标作业数据的计算中心和所述目标计算中心之间建立增量同步,并传输所述不一致的数据至所述目标计算中心;校验所述目标计算中心中数据是否完整;若所述目标计算中心中数据不完整,则重新传输所述不一致的数据至所述目标计算中心,并返回所述校验所述目标计算中心中数据是否完整的步骤;若所述目标计算中心中数据完整,则根据...

【专利技术属性】
技术研发人员:王兴瑞胡安常峰朱建王石刘海峰
申请(专利权)人:合肥中科类脑智能技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1