System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种数据调度方法、装置及系统制造方法及图纸_技高网

一种数据调度方法、装置及系统制造方法及图纸

技术编号:40599825 阅读:3 留言:0更新日期:2024-03-12 22:03
一种数据调度方法、装置及系统,在该方法中,算力网络调度平台获取作业数据,并在该作业被调度至计算节点集群之前,将所述作业数据发送至所述作业对应的一个或多个计算节点集群。该方式可实现将作业与作业数据解耦,在作业等待调度时,算力网络调度平台130便将作业数据发送至一个或多个计算节点集群,如此,当作业获得调度机会时,算力网络调度平台130将作业提交该作业对应的一个或多个计算节点集群中,此时计算节点集群中的作业数据可能已传输完成,该方法可降低计算节点集群等待作业数据的传输时间,提高计算节点集群的资源利用率,减少或避免作业被召回的情况。

【技术实现步骤摘要】

本申请涉及计算机,尤其涉及一种数据调度方法、装置及系统


技术介绍

1、算力网络作为一种跨计算中心的技术架构,在重算力场景(hpc、ai)下实现了跨计算中心的互联和计算任务的跨计算中心计算。

2、在算力网络架构中,通常需要一个算力调度平台作为算力网络的核心平台和入口,各个计算中心通过注册的方式加入算力网络调度平台对外提供计算资源,图1为一种算力网络架构示意图,在该算力网络架构中,算力网络调度平台提供全局资源的统一视图,用户可通过算力网络调度平台130来提交计算作业,由算力网络调度平台将作业调度至计算节点集群执行。

3、图2示出了一种作业调度流程,包括:用户提交作业至算力网络调度平台130,并将作业数据上传至算力网络调度平台130。算力网络调度平台130将作业放置作业队列进行排队,当达到调度时机,算力网络调度平台130从作业队列中选择一个作业,并将该作业和作业数据提交至一个计算节点集群,计算节点集群等待作业数据传输完成后,计算节点集群内的调度器才能启动该作业。若作业数据的数据量巨大,需要等待数小时,计算节点集群的计算资源处于空闲状态,集群利用率低。在作业因为各种原因被召回(例如,运行超时、计算资源被抢占等)时,算力网络调度平台130需要将该作业及作业数据重新调度至其它计算节点集群,该计算节点集群同样需要作业数据传输完成后才能启动作业,期间浪费了大量等待时间,且造成了极大的资源浪费。


技术实现思路

1、本申请提供一种调度方法、装置及系统,用于加速作业执行、提高集群利用率,减少或避免作业被召回的情况。

2、第一方面,本申请提供一种数据调度方法,该方法应用于算力网络系统,该算力网络系统包括算力网络调度平台和至少一个计算节点集群,每个计算节点集群用于提供计算资源,所述计算资源用于运行所述算力网络调度平台提交至所述计算节点集群的作业;在该方法中,算力网络调度平台获取作业数据,作业数据包括执行作业所需的数据。在该作业被调度至计算节点集群之前,将该作业数据发送至该作业对应的一个或多个计算节点集群。

3、上述技术方案中,可在数据调度领域中实现将作业与作业数据解耦,在作业等待调度时,算力网络调度平台在所述作业被调度至计算节点集群之前,先将用于执行作业所需的作业数据发送至一个或多个计算节点集群,如此,当作业排队结束时,算力网络调度平台再将作业提交该作业对应的一个或多个计算节点集群中,此时计算节点集群中的作业数据可能已传输完成,该方法可降低计算节点集群等待作业数据的传输时间,提高计算节点集群的资源利用率,减少或避免作业被召回的情况。

4、在一种可能的实现方式中,所述算力网络调度平台将所述作业数据发送至所述作业对应的多个计算节点集群,包括:将所述作业数据所包括的多个数据子块发送至所述作业对应的多个计算节点集群;每个数据子块包括所述数据的部分数据,发送至不同计算节点集群的数据子块不同。

5、上述技术方案中,算力网络调度平台将作业数据分为多个数据子块,将该多个数据子块发送至该作业对应的多个计算节点集群,多个计算节点集群可互相交换数据子块,如此可以提高计算节点集群获取作业数据的速率,减少作业数据传输的耗时。

6、在一种可能的实现方式中,所述算力网络调度平台将所述作业数据发送至所述作业对应的一个或多个计算节点集群,包括:所述算力网络调度平台将所述作业数据发送至所述作业对应的每个计算节点集群。

7、在一种可能的实现方式中,当所述作业获得调度机会时,所述算力网络调度平台根据所述作业对应的每个计算节点集群的时间信息确定目标计算节点集群;所述时间信息指示所述计算节点集群获取所述作业数据所需的剩余传输时间;所述目标计算节点集群包括:所述作业对应的多个计算节点集群被按照各自对应的剩余传输时间降序排序,排序在后的一个或多个计算节点集群;所述算力网络调度平台将所述作业提交至所述目标计算节点集群。

8、上述技术方案中,算力网络调度平台将作业提交至剩余传输时间最短或较短的一个或多个计算节点集群中,此时计算节点集群中的作业数据可能已传输完成,从而使得这些计算节点集群可以及时根据接收到的作业数据执行相应的作业,提高作业执行的效率。

9、在一种可能的实现方式中,当所述作业获得调度机会后,所述算力网络调度平台还可以向所述作业对应的每个计算节点集群发送请求;所述请求用于请求所述计算节点集群的时间信息;所述算力网络调度平台接收所述作业对应的每个计算节点集群发送的所述时间信息。

10、在一种可能的实现方式中,所述算力网络调度平台可以接收用户在所述算力网络调度平台提交的作业及所述用户在所述算力网络调度平台输入或选择的数据预调度策略;所述数据预调度策略用于指示在所述作业被调度之前,将所述作业数据调度至所述作业对应的计算节点集群。

11、第二方面,本申请实施例还提供了一种计算装置,该装置具有实现上述第一方面或第一方面任一可能的实现方式中算力网络调度平台的功能,有益效果可以参见第一方面的描述此处不再赘述。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。在一个可能的设计中,所述装置的结构中包括获取模块、确定模块,可选的,还可以包括通信模块,这些模块可以执行上述第一方面方法示例中的相应功能,具体参见方法示例中的详细描述,此处不做赘述。

12、第三方面,本申请实施例还提供了一种计算设备,所述计算设备包括处理器和存储器,还可以包括通信接口,所述处理器执行所述存储器中的程序指令以执行上述第一方面或第一方面任一可能的实现方式提供的方法。所述存储器与所述处理器耦合,其保存数据调度的过程中必要的程序指令和数据。所述通信接口,用于与其他设备进行通信,如发送作业数据。

13、第四方面,本申请提供了一种计算设备集群,该计算设备集群包括至少一个计算设备。每个计算设备包括存储器和处理器。至少一个计算设备的处理器用于访问所述存储器中的代码以执行第一方面或第一方面的任意一种可能的实现方式提供的方法。

14、第五方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质被计算设备执行时,所述计算设备执行前述第一方面或第一方面的任意可能的实现方式中提供的方法。该存储介质中存储了程序。该存储介质包括但不限于易失性存储器,例如随机访问存储器,非易失性存储器,例如快闪存储器、硬盘(hard disk drive,hdd)、固态硬盘(solid state drive,ssd)。

15、第六方面,本申请提供了一种计算机程序产品,所述计算设备程序产品包括计算机指令,在被计算设备执行时,所述计算设备执行前述第一方面或第一方面的任意可能的实现方式中提供的方法。该计算机程序产品可以为一个软件安装包,在需要使用前述第一方面或第一方面的任意可能的实现方式中提供的方法的情况下,可以下载该计算机程序产品并在计算设备上执行该计算机程序产品。

16、第七方面,本申请还提供一种本文档来自技高网...

【技术保护点】

1.一种数据调度方法,其特征在于,所述方法应用于算力网络系统,所述算力网络系统包括算力网络调度平台和至少一个计算节点集群,每个计算节点集群用于提供计算资源,所述计算资源用于运行所述算力网络调度平台提交至所述计算节点集群的作业;

2.如权利要求1所述的方法,其特征在于,所述算力网络调度平台将所述作业数据发送至所述作业对应的多个计算节点集群,包括:

3.如权利要求1所述的方法,其特征在于,所述算力网络调度平台将所述作业数据发送至所述作业对应的一个或多个计算节点集群,包括:

4.如权利要求1-3任一项所述的方法,其特征在于,所述方法还包括:

5.如权利要求4所述的方法,其特征在于,当所述作业获得调度机会后,所述方法还包括:

6.如权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:

7.一种数据调度装置,其特征在于,所述装置包括:

8.如权利要求7所述的装置,其特征在于,所述数据调度模块将所述作业数据发送至所述作业对应的多个计算节点集群,具体用于:

9.如权利要求7或8所述的装置,其特征在于,所述装置还包括作业调度模块,用于:

10.如权利要求9所述的装置,其特征在于,所述通信模块还用于:

11.一种计算设备,其特征在于,所述装置包括处理器和存储器;

12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储程序,所述程序被处理器调用时,如权利要求1-6任一所述的方法被执行。

13.一种包含指令的计算机程序产品,其特征在于,当所述指令被计算机设备集群运行时,使得所述计算机设备集群执行如权利要求的1-6中任一项所述的方法。

14.一种计算系统,其特征在于,所述计算系统包括算力网络调度平台和多个计算节点集群,每个计算节点集群用于提供计算资源,所述计算资源用于运行所述算力网络调度平台提交至所述计算节点集群的作业;

15.如权利要求14所述的系统,其特征在于,所述算力网络调度平台将所述作业数据发送至所述作业对应的多个计算节点集群,包括:所述算力网络调度平台将所述作业数据所包括的多个数据子块发送至所述作业对应的多个计算节点集群;每个数据子块包括所述数据的部分数据,发送至不同计算节点集群的数据子块不同;

...

【技术特征摘要】

1.一种数据调度方法,其特征在于,所述方法应用于算力网络系统,所述算力网络系统包括算力网络调度平台和至少一个计算节点集群,每个计算节点集群用于提供计算资源,所述计算资源用于运行所述算力网络调度平台提交至所述计算节点集群的作业;

2.如权利要求1所述的方法,其特征在于,所述算力网络调度平台将所述作业数据发送至所述作业对应的多个计算节点集群,包括:

3.如权利要求1所述的方法,其特征在于,所述算力网络调度平台将所述作业数据发送至所述作业对应的一个或多个计算节点集群,包括:

4.如权利要求1-3任一项所述的方法,其特征在于,所述方法还包括:

5.如权利要求4所述的方法,其特征在于,当所述作业获得调度机会后,所述方法还包括:

6.如权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:

7.一种数据调度装置,其特征在于,所述装置包括:

8.如权利要求7所述的装置,其特征在于,所述数据调度模块将所述作业数据发送至所述作业对应的多个计算节点集群,具体用于:

9.如权利要求7或8所述的装置,其特征在于...

【专利技术属性】
技术研发人员:赵佳鑫孙锡军
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1