计算任务调度方法、装置、电子设备和存储介质制造方法及图纸

技术编号:34973009 阅读:14 留言:0更新日期:2022-09-21 14:13
本公开提供了一种计算任务调度方法、装置、电子设备和计算机可读存储介质,涉及通信领域。其中,计算任务调度方法包括:获取待调度的计算任务的资源需求量;获取节点列表中每个工作节点的资源剩余量;在检测到工作节点的资源剩余量和资源需求量均不匹配时,基于工作节点的资源剩余量、资源需求量以及预设的任务调度阈值数组之间的关系,确定节点列表中与计算任务适配的适配节点;将计算任务调度至适配节点,其中,任务调度阈值数组基于历史任务的资源使用量确定。通过本公开的技术方案,将计算任务调度至适配节点,实现对计算任务的调度,以使计算任务进行合理分配,进而提高工作节点的资源利用率,从而有利于提升计算任务的处理效率。效率。效率。

【技术实现步骤摘要】
计算任务调度方法、装置、电子设备和存储介质


[0001]本公开涉及通信领域,尤其涉及一种计算任务调度方法、装置、电子设备和计算机可读存储介质。

技术介绍

[0002]深度学习(DL,Deep Learning)的计算任务主要依赖于服务器中的GPU(Graphic Processing Unit,图形处理单元)。但是由于GPU计算成本高,因此在进行计算任务分配时,需要使GPU资源得到充分利用。
[0003]相关技术中,在基于GPU进行计算任务的调度时,通常将计算任务调度到资源剩余最多的GPU上运行,这样的调度方式易使计算任务所需的GPU资源与GPU实际剩余的资源相差较大,导致GPU的资源利用率较低。
[0004]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0005]本公开的目的在于提供一种计算任务调度方法、装置、电子设备和计算机可读存储介质,至少在一定程度上能够改善相关技术中的方式导致的GPU的资源利用率较低的问题。
[0006]本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
[0007]根据本公开的一个方面,提供一种计算任务调度方法,包括:获取待调度的计算任务的资源需求量;获取节点列表中每个工作节点的资源剩余量;在检测到所述工作节点的资源剩余量和所述资源需求量均不匹配时,基于所述工作节点的资源剩余量、所述资源需求量以及预设的任务调度阈值数组之间的关系,确定所述节点列表中与所述计算任务适配的适配节点;将所述计算任务调度至所述适配节点,其中,所述任务调度阈值数组基于历史任务的资源使用量确定。
[0008]在一个实施例中,所述基于所述工作节点的资源剩余量、所述资源需求量以及所述任务调度阈值数组之间的关系,确定所述节点列表中与所述计算任务适配的适配节点包括:基于所述节点列表中的工作节点排列顺序,逐一检测资源差值与所述任务调度阈值数组之间是否满足调度规则,所述资源差值为所述工作节点的资源剩余量与所述资源需求量之间的差值;在检测到所述资源差值与所述任务调度阈值数组之间满足所述调度规则时,将与所述资源差值对应的所述工作节点确定为所述第一适配节点,其中,所述调度规则用于将工作节点的资源利用率配置为大于比率阈值。
[0009]在一个实施例中,在获取待调度的计算任务的资源需求量之前,还包括:基于所述历史任务的资源使用量确定上限阈值和下限阈值;确定所述上限阈值与所述下限阈值之间的中间值;基于所述上限阈值、所述中间值和所述下限阈值配置所述任务调度阈值数组。
[0010]在一个实施例中,所述在检测到所述资源差值与所述任务调度阈值数组之间满足所述调度规则时,将与所述资源差值对应的所述工作节点确定为所述第一适配节点包括:在检测到所述资源差值大于所述上限阈值时,确定所述资源差值与所述任务调度阈值数组之间满足所述调度规则,并将与所述资源差值对应的所述工作节点确定为所述第一适配节点。
[0011]在一个实施例中,所述中间值包括第一中间值和第二中间值,所述在检测到所述资源差值与所述任务调度阈值数组之间满足所述调度规则时,将与所述资源差值对应的所述工作节点确定为所述第一适配节点还包括:在检测到所述资源差值大于或等于所述第二中间值,小于或等于所述第一中间值时,确定所述资源差值与所述任务调度阈值数组之间满足所述调度规则,并将与所述资源差值对应的所述工作节点确定为所述第一适配节点;以及将所述第一适配节点调整到所述节点列表的首位,其中,所述第一中间值和所述第二中间值基于分位数规则和所述比率阈值生成。
[0012]在一个实施例中,所述基于所述工作节点的资源剩余量、所述资源需求量以及所述任务调度阈值数组之间的关系,确定所述节点列表中与所述计算任务适配的适配节点还包括:在检测到所述资源差值与所述任务调度阈值数组之间不满足所述调度规则时,根据参考规则确定的第二适配节点,以将所述计算任务下发至所述第二适配节点,其中,所述参考规则用于在后续的计算任务调度时,将第二适配节点的所述资源差值调整至满足所述调度规则。
[0013]在一个实施例中,还包括:在检测到任一所述工作节点的资源剩余量和所述资源需求量匹配时,将所述计算任务调度至任一所述工作节点。
[0014]根据本公开的第二方面,提供一种计算任务调度装置,包括:第一获取模块,用于获取待调度的计算任务的资源需求量;第二获取模块,用于获取节点列表中每个工作节点的资源剩余量;确定模块,用于在检测到所述工作节点的资源剩余量和所述资源需求量均不匹配时,基于所述工作节点的资源剩余量、所述资源需求量以及预设的任务调度阈值数组之间的关系,确定所述节点列表中与所述计算任务适配的适配节点;调度模块,用于将所述计算任务调度至所述适配节点,其中,所述任务调度阈值数组基于历史任务的资源使用量确定。
[0015]根据本公开的第三方面,提供一种电子设备,包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,处理器配置为经由执行可执行指令来执行上述任意一项的计算任务调度方法。
[0016]根据本公开的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任意一项的计算任务调度方法。
[0017]本公开的实施例所提供的计算任务调度方案,通过获取计算任务的资源需求量和节点列表中工作节点的资源剩余量,表示需要适配的计算任务和工作节点的信息,通过预设的任务调度阈值数组表示历史任务来统计历史任务的资源需求情况,进而能够基于资源剩余量、资源需求量以及任务调度阈值数组之间的关系,在节点列表中选择最适配的工作节点,作为适配节点,将计算任务调度至适配节点,实现对计算任务的调度,以使计算任务进行合理分配,进而提高工作节点的资源利用率,从而有利于提升计算任务的处理效率。
[0018]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不
能限制本公开。
附图说明
[0019]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0020]图1示出本公开实施例中一种计算任务调度系统结构的示意图;
[0021]图2示出本公开实施例中一种计算任务调度方法的流程图;
[0022]图3示出本公开实施例中另一种计算任务调度方法的流程图;
[0023]图4示出本公开实施例中再一种计算任务调度方法的流程图;
[0024]图5示出本公开实施例中又一种计算任务调度方法的流程图;
[0025]图6示出本公开实施例中一种计算任务调度装置的示意图;
[0026]图7示出本公开实施例中一种计算任务调度装置的示意图;
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种计算任务调度方法,其特征在于,包括:获取待调度的计算任务的资源需求量;获取节点列表中每个工作节点的资源剩余量;在检测到所述工作节点的资源剩余量和所述资源需求量均不匹配时,基于所述工作节点的资源剩余量、所述资源需求量以及预设的任务调度阈值数组之间的关系,确定所述节点列表中与所述计算任务适配的适配节点;将所述计算任务调度至所述适配节点,其中,所述任务调度阈值数组基于历史任务的资源使用量确定。2.根据权利要求1所述的计算任务调度方法,其特征在于,所述基于所述工作节点的资源剩余量、所述资源需求量以及所述任务调度阈值数组之间的关系,确定所述节点列表中与所述计算任务适配的适配节点包括:基于所述节点列表中的工作节点排列顺序,逐一检测资源差值与所述任务调度阈值数组之间是否满足调度规则,所述资源差值为所述工作节点的资源剩余量与所述资源需求量之间的差值;在检测到所述资源差值与所述任务调度阈值数组之间满足所述调度规则时,将与所述资源差值对应的所述工作节点确定为第一适配节点,其中,所述调度规则用于将工作节点的资源利用率配置为大于比率阈值。3.根据权利要求2所述的计算任务调度方法,其特征在于,在获取待调度的计算任务的资源需求量之前,还包括:基于所述历史任务的资源使用量确定上限阈值和下限阈值;确定所述上限阈值与所述下限阈值之间的中间值;基于所述上限阈值、所述中间值和所述下限阈值配置所述任务调度阈值数组。4.根据权利要求3所述的计算任务调度方法,其特征在于,所述在检测到所述资源差值与所述任务调度阈值数组之间满足所述调度规则时,将与所述资源差值对应的所述工作节点确定为第一适配节点包括:在检测到所述资源差值大于所述上限阈值时,确定所述资源差值与所述任务调度阈值数组之间满足所述调度规则,并将与所述资源差值对应的所述工作节点确定为所述第一适配节点。5.根据权利要求3所述的计算任务调度方法,其特征在于,所述中间值包括第一中间值和第二中间值,所述在检测到所述资源差值与所述任务调度阈值数组之间满足所述调度规则时,将与所述资源差值对应的所述工作节点确定为所述第...

【专利技术属性】
技术研发人员:刘丰恺李伟泽周济陈都张毅王峻青
申请(专利权)人:天翼云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1