资源调度方法、装置和管理节点制造方法及图纸

技术编号:35585021 阅读:11 留言:0更新日期:2022-11-16 14:59
本申请提供一种资源调度方法、装置和管理节点,涉及资源调度领域。该资源调度方法包括:管理节点获取应用的资源需求,该资源需求用于指示应用所需资源的需求;管理节点将应用的资源需求与全局硬件抽象资源匹配得到应用的资源调度计划,该资源调度计划用于指示集群中与资源需求关联的资源,进而,管理节点依据资源调度计划为应用分配资源。在全局硬件抽象资源可以准确的描述集群中各设备的计算资源、存储资源和传输资源的处理能力的情况下,管理节点可以充分的利用该全局硬件抽象资源为应用分配资源,提高了集群中各设备的资源利用率,降低了集群运行应用的处理时延。低了集群运行应用的处理时延。低了集群运行应用的处理时延。

【技术实现步骤摘要】
资源调度方法、装置和管理节点


[0001]本申请涉及资源调度领域,尤其涉及一种资源调度的方法、装置和管理节点。

技术介绍

[0002]随着大数据(big data)、人工智能(Artificial Intelligence,AI)、云计算的技术的发展,数据产生的速度超过了现有的常规设备的处理和计算的能力。面对未来更加多样的数据形态和计算场景,涌现出了诸多不同形态的计算设备,且以集群形态部署。集群是一种包括多个互相连接的计算设备的计算机系统。通常,由集群中多个计算设备来运行大数据应用、人工智能应用或云计算应用。以大数据应用为例,在集群中的计算设备运行大数据应用前,集群中的管理节点为大数据应用分配计算资源。计算资源可以是指运行大数据应用的处理器。管理节点可以根据计算资源的整点运算能力为大数据应用分配计算资源,由倾向计算整点运算任务的处理器执行浮点运算任务时,导致处理器运行大数据应用中的浮点运算任务的时延较高。因此,如何对集群的计算资源进行调度,降低应用的处理时延成为亟待解决的问题。

技术实现思路

[0003]本申请提供一种资源调度方法、装置和管理节点,解决了集群的处理时延较高的问题。
[0004]为达到上述目的,本申请采用如下技术方案。
[0005]第一方面,本申请提供一种资源调度方法,该方法由集群中的管理节点执行,该集群包括至少一个设备,至少一个设备中每个设备包括处理器、网卡、存储器中至少一种硬件,该管理节点可以是具有处理能力的网络设备或终端设备,如该管理节点包括芯片系统,该资源调度方法包括:管理节点获取应用的资源需求,该资源需求用于指示应用所需资源的需求;管理节点将应用的资源需求与全局硬件抽象资源匹配得到应用的资源调度计划,该资源调度计划用于指示集群中与资源需求关联的资源,进而,管理节点依据资源调度计划为应用分配资源。在全局硬件抽象资源可以准确的描述集群中各设备的计算资源、存储资源和传输资源的处理能力的情况下,管理节点可以充分的利用该全局硬件抽象资源为应用分配资源,提高了集群中各设备的资源利用率,降低了集群运行应用的处理时延。
[0006]在本申请所提供的资源调度方法中,管理节点将集群中设备的硬件参数抽象为全局硬件抽象资源,全局硬件抽象资源用于指示集群中资源的处理能力和连接关系,该集群中的资源包括计算资源、传输资源和存储资源,在集群包括多种设备的情况下,全局硬件抽象资源包括对每个设备进行计算资源、存储资源和传输资源等至少三个维度进行描述,管理节点依据应用的资源需求和全局硬件抽象资源得到资源调度计划,并依据该资源调度计划为应用分配资源。
[0007]作为一种可能的实现方式,集群中可以包括异构设备,其中,异构设备包括至少两种类型的处理器。如,当集群中的终端设备中包括两种不同类型的处理器时,该终端设备可
以称为异构设备,此时,终端设备可以实现两种类型的处理器的功能。例如,当终端设备包括中央处理器(central processing unit,CPU)和图形处理器(graphic processing unit,GPU)时,终端设备既可以实现CPU的功能,还可以实现GPU的功能。在一些可能的示例中,异构设备也可以是指具有计算能力的存储设备,或具有计算能力的网卡。
[0008]在另一种可选的实现方式中,上述每个设备所包括的任意一个硬件被抽象为一个或多个全局硬件抽象资源,全局硬件抽象资源包括:存储资源的数据读写速度,计算资源在单位时间内的浮点运算次数和整点运算次数,以及传输资源的带宽中至少一种,其中,带宽为单位时间内传输数据的最大值。
[0009]在另一种可选的实现方式中,管理节点保存有拓扑图,该拓扑图用于记录全局硬件抽象资源。在本申请提供的资源调度方法中,管理节点中保存有全局硬件抽象资源,管理节点的存储功能可以是由集群中的内存实现的。在管理节点获取到应用的资源请求的情况下,管理节点无需与硬盘等持久化存储器交互,而是在管理节点中获取该全局硬件抽象资源进行匹配,减少了管理节点生成资源调度计划所需的时间,降低了集群执行应用的处理时延,提高了集群执行应用的效率。
[0010]在另一种可选的实现方式中,在得到应用的资源调度计划之前,该资源调度方法还包括:管理节点获取至少一个设备的局部硬件拓扑集合,并根据局部硬件拓扑集合确定全局硬件抽象资源。其中,局部硬件拓扑集合包括至少一个局部硬件拓扑,至少一个局部硬件拓扑中每个局部硬件拓扑用于指示至少一个设备中任意一个第一设备中硬件参数和硬件间的连接关系,硬件参数用于指示第一设备的硬件属性,连接关系用于指示第一设备中硬件间的连接关系。
[0011]在本申请所提供的资源调度方法中,管理节点可以将集群中各设备的硬件参数和硬件间的连接关系抽象为全局硬件抽象资源,实现对每个设备在计算、存储和网络等至少三个维度的描述,尤其是管理节点可以利用任意两个设备之间的传输资源的带宽,确定应用所需的数据搬运时长,继而,在管理节点得到资源调度计划的过程中,管理节点可以依据该数据搬运时长,以及根据计算资源的处理能力确定的运算时长,确定集群运行应用的执行时长,从而生成应用的执行时长最短的资源调度计划,使得管理节点可以充分的利用集群中的计算资源、存储资源和传输资源,提高了集群中各设备的资源利用率,降低了集群运行应用的处理时延。
[0012]在另一种可选的实现方式中,在得到应用的资源调度计划之前,该资源调度方法还包括:管理节点获取至少一个设备的硬件参数集合,其中,该硬件参数集合包括至少一个设备的硬件参数;进而,管理节点根据该硬件参数集合确定上述的全局硬件抽象资源。在本申请中,管理节点可以依据集群的硬件参数集合将集群中各设备抽象为全局硬件抽象资源,进而,管理节点依据全局硬件抽象资源确定资源需求所关联的资源,得到资源调度计划;在应用的执行过程中,管理节点依据资源调度计划为应用分配资源,提高了集群中各设备的资源利用率,降低了集群运行应用的处理时延。
[0013]在另一种可选的实现方式中,该资源调度方法还包括:在应用的执行过程中,管理节点依据统计信息更新全局硬件抽象资源,统计信息包括集群执行应用的数据搬运时长与计算时长,以及资源占用量。管理节点可以依据应用的运行情况,更新集群的全局硬件抽象资源,有利于管理节点依据集群中计算资源、传输资源和存储资源的实际处理能力,生成应
用的调度计划,降低集群的处理时延。
[0014]在另一种可选的实现方式中,管理节点保存有集群中所有数据的分布信息;上述管理节点将应用的资源需求与全局硬件抽象资源匹配得到应用的资源调度计划,包括:管理节点依据应用的资源需求与全局硬件抽象资源得到多个待执行计划,并依据应用的资源需求确定分布信息中与应用关联的数据分布;进而,管理节点依据数据分布,将多个待执行计划中应用的执行时长最短的待执行计划作为资源调度计划。在管理节点得到资源调度计划的过程中,管理节点可以依据该数据搬运时长,以及根据计算资源的处理能力确定的运算时长,确定集群运行应用的执行时长,从而生成应用的执行时长最短的资源调度计划,使得管本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种资源调度方法,其特征在于,所述方法由管理节点执行,所述方法包括:获取应用的资源需求,所述资源需求用于指示所述应用所需资源的需求;将所述应用的资源需求与全局硬件抽象资源匹配得到所述应用的资源调度计划,所述全局硬件抽象资源用于指示集群中资源的处理能力和连接关系,所述集群中的资源包括计算资源、传输资源和存储资源,所述集群包括至少一个设备,所述至少一个设备中每个设备包括处理器、网卡、存储器中至少一种硬件,所述资源调度计划用于指示所述集群中与所述资源需求关联的资源;依据所述资源调度计划为所述应用分配资源。2.根据权利要求1所述的方法,其特征在于,所述每个设备所包括的任意一个硬件被抽象为一个或多个所述全局硬件抽象资源,所述全局硬件抽象资源包括:所述存储资源的数据读写速度,所述计算资源在单位时间内的浮点运算次数和整点运算次数,以及所述传输资源的带宽中至少一种,其中,所述带宽为所述单位时间内传输数据的最大值。3.根据权利要求1或2所述的方法,其特征在于,所述至少一个设备包括异构设备,所述异构设备包括至少两种类型的处理器。4.根据权利要求1

3中任一项所述的方法,其特征在于,在得到所述应用的资源调度计划之前,所述方法还包括:获取所述至少一个设备的局部硬件拓扑集合,其中,所述局部硬件拓扑集合包括至少一个局部硬件拓扑,所述至少一个局部硬件拓扑中每个局部硬件拓扑用于指示所述至少一个设备中任意一个第一设备中硬件参数和硬件间的连接关系,所述硬件参数用于指示所述第一设备的硬件属性,所述连接关系用于指示所述第一设备中硬件间的连接关系;根据所述局部硬件拓扑集合确定所述全局硬件抽象资源。5.根据权利要求1

3中任一项所述的方法,其特征在于,在得到所述应用的资源调度计划之前,所述方法还包括:获取至少一个设备的硬件参数集合,其中,所述硬件参数集合包括至少一个设备的硬件参数;根据所述硬件参数集合确定所述全局硬件抽象资源。6.根据权利要求4或5所述的方法,其特征在于,所述方法还包括:在所述应用的执行过程中,依据统计信息更新所述全局硬件抽象资源,所述统计信息包括所述集群执行所述应用的数据搬运时长与计算时长,以及资源占用量。7.根据权利要求1所述的方法,其特征在于,所述管理节点保存有所述集群中所有数据的分布信息;则所述将所述应用的资源需求与全局硬件抽象资源匹配得到所述应用的资源调度计划,包括:依据所述应用的资源需求与全局硬件抽象资源得到多个待执行计划;依据所述应用的资源需求确定所述分布信息中与所述应用关联的数据分布;依据所述数据分布,将所述多个待执行计划中所述应用的执行时长最短的待执行计划作为所述资源调度计划。8.根据权利要求1

7中任一项所述的方法,其特征在于,所述管理节点还保存有历史信息,所述历史信息包括所述集群执行历史任务的历史执行时长和资源占用量;在依据所述资源调度计划为所述应用分配资源之前,所述方法还包括:
依据所述历史信息更新所述资源调度计划,更新后的资源调度计划中所述应用所需的执行时长小于或等于所述资源调度计划中所述应用所需的执行时长。9.根据权利要求1

8中任一项所述的方法,其特征在于,所述方法还包括:依据模拟接入信息更新所述全局硬件抽象资源得到模拟硬件抽象资源,所述模拟接入信息用于指示所述集群中新增有至少一个其他设备成为模拟集群;将所述应用的资源需求与所述模拟硬件抽象资源匹配得到模拟调度计划,所述模拟调度计划用于指示所述模拟集群中与所述资源需求关联的资源;确定所述模拟调度计划与所述资源调度计划的时间差,所述时间差为所述集群按照所述资源调度计划运行所述应用的第一时长,与所述模拟集群按照所述模拟调度计划运行所述应用的第二时长之间的差值。10.一种资源调度装置,其特征在于,包括:通信模块,用于获取应用的资源需求,所述资源需求用于指示所述应用所需资源的需求;处理模块,用于将所述应用的资源需求与全局硬件抽象资源匹配得到所述应用的资源调度计划,所述全局硬...

【专利技术属性】
技术研发人员:杨仲凯郭海涛许利霞郑卫炎季晨鹏刘洪广
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1