【技术实现步骤摘要】
资源调度方法、装置和管理节点
[0001]本申请涉及资源调度领域,尤其涉及一种资源调度的方法、装置和管理节点。
技术介绍
[0002]随着大数据(big data)、人工智能(Artificial Intelligence,AI)、云计算的技术的发展,数据产生的速度超过了现有的常规设备的处理和计算的能力。面对未来更加多样的数据形态和计算场景,涌现出了诸多不同形态的计算设备,且以集群形态部署。集群是一种包括多个互相连接的计算设备的计算机系统。通常,由集群中多个计算设备来运行大数据应用、人工智能应用或云计算应用。以大数据应用为例,在集群中的计算设备运行大数据应用前,集群中的管理节点为大数据应用分配计算资源。计算资源可以是指运行大数据应用的处理器。管理节点可以根据计算资源的整点运算能力为大数据应用分配计算资源,由倾向计算整点运算任务的处理器执行浮点运算任务时,导致处理器运行大数据应用中的浮点运算任务的时延较高。因此,如何对集群的计算资源进行调度,降低应用的处理时延成为亟待解决的问题。
技术实现思路
[0003]本申请提供一种资源调度方法、装置和管理节点,解决了集群的处理时延较高的问题。
[0004]为达到上述目的,本申请采用如下技术方案。
[0005]第一方面,本申请提供一种资源调度方法,该方法由集群中的管理节点执行,该集群包括至少一个设备,至少一个设备中每个设备包括处理器、网卡、存储器中至少一种硬件,该管理节点可以是具有处理能力的网络设备或终端设备,如该管理节点包括芯片系统,该资源调度方法 ...
【技术保护点】
【技术特征摘要】
1.一种资源调度方法,其特征在于,所述方法由管理节点执行,所述方法包括:获取应用的资源需求,所述资源需求用于指示所述应用所需资源的需求;将所述应用的资源需求与全局硬件抽象资源匹配得到所述应用的资源调度计划,所述全局硬件抽象资源用于指示集群中资源的处理能力和连接关系,所述集群中的资源包括计算资源、传输资源和存储资源,所述集群包括至少一个设备,所述至少一个设备中每个设备包括处理器、网卡、存储器中至少一种硬件,所述资源调度计划用于指示所述集群中与所述资源需求关联的资源;依据所述资源调度计划为所述应用分配资源。2.根据权利要求1所述的方法,其特征在于,所述每个设备所包括的任意一个硬件被抽象为一个或多个所述全局硬件抽象资源,所述全局硬件抽象资源包括:所述存储资源的数据读写速度,所述计算资源在单位时间内的浮点运算次数和整点运算次数,以及所述传输资源的带宽中至少一种,其中,所述带宽为所述单位时间内传输数据的最大值。3.根据权利要求1或2所述的方法,其特征在于,所述至少一个设备包括异构设备,所述异构设备包括至少两种类型的处理器。4.根据权利要求1
‑
3中任一项所述的方法,其特征在于,在得到所述应用的资源调度计划之前,所述方法还包括:获取所述至少一个设备的局部硬件拓扑集合,其中,所述局部硬件拓扑集合包括至少一个局部硬件拓扑,所述至少一个局部硬件拓扑中每个局部硬件拓扑用于指示所述至少一个设备中任意一个第一设备中硬件参数和硬件间的连接关系,所述硬件参数用于指示所述第一设备的硬件属性,所述连接关系用于指示所述第一设备中硬件间的连接关系;根据所述局部硬件拓扑集合确定所述全局硬件抽象资源。5.根据权利要求1
‑
3中任一项所述的方法,其特征在于,在得到所述应用的资源调度计划之前,所述方法还包括:获取至少一个设备的硬件参数集合,其中,所述硬件参数集合包括至少一个设备的硬件参数;根据所述硬件参数集合确定所述全局硬件抽象资源。6.根据权利要求4或5所述的方法,其特征在于,所述方法还包括:在所述应用的执行过程中,依据统计信息更新所述全局硬件抽象资源,所述统计信息包括所述集群执行所述应用的数据搬运时长与计算时长,以及资源占用量。7.根据权利要求1所述的方法,其特征在于,所述管理节点保存有所述集群中所有数据的分布信息;则所述将所述应用的资源需求与全局硬件抽象资源匹配得到所述应用的资源调度计划,包括:依据所述应用的资源需求与全局硬件抽象资源得到多个待执行计划;依据所述应用的资源需求确定所述分布信息中与所述应用关联的数据分布;依据所述数据分布,将所述多个待执行计划中所述应用的执行时长最短的待执行计划作为所述资源调度计划。8.根据权利要求1
‑
7中任一项所述的方法,其特征在于,所述管理节点还保存有历史信息,所述历史信息包括所述集群执行历史任务的历史执行时长和资源占用量;在依据所述资源调度计划为所述应用分配资源之前,所述方法还包括:
依据所述历史信息更新所述资源调度计划,更新后的资源调度计划中所述应用所需的执行时长小于或等于所述资源调度计划中所述应用所需的执行时长。9.根据权利要求1
‑
8中任一项所述的方法,其特征在于,所述方法还包括:依据模拟接入信息更新所述全局硬件抽象资源得到模拟硬件抽象资源,所述模拟接入信息用于指示所述集群中新增有至少一个其他设备成为模拟集群;将所述应用的资源需求与所述模拟硬件抽象资源匹配得到模拟调度计划,所述模拟调度计划用于指示所述模拟集群中与所述资源需求关联的资源;确定所述模拟调度计划与所述资源调度计划的时间差,所述时间差为所述集群按照所述资源调度计划运行所述应用的第一时长,与所述模拟集群按照所述模拟调度计划运行所述应用的第二时长之间的差值。10.一种资源调度装置,其特征在于,包括:通信模块,用于获取应用的资源需求,所述资源需求用于指示所述应用所需资源的需求;处理模块,用于将所述应用的资源需求与全局硬件抽象资源匹配得到所述应用的资源调度计划,所述全局硬...
【专利技术属性】
技术研发人员:杨仲凯,郭海涛,许利霞,郑卫炎,季晨鹏,刘洪广,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。