一种YARN集群GPU资源调度方法、装置和介质制造方法及图纸

技术编号:21571076 阅读:32 留言:0更新日期:2019-07-10 15:18
本发明专利技术公开了一种YARN集群GPU资源调度方法、装置和介质,用以在YARN集群中实现GPU资源调度的同时,降低实现GPU资源的调度的复杂度。所述YARN集群GPU资源调度方法,为YARN集群中包含的GPU节点添加GPU标签;所述方法,包括:接收需要调度GPU资源的任务,所述任务中携带有完成所述任务所需的GPU资源数量;根据所述GPU标签确定所述YARN集群中可用的GPU节点并查询每一可用GPU节点的剩余GPU资源数量;根据完成所述所需的GPU资源数量和每一可用GPU节点的剩余GPU资源数量,确定GPU资源调度策略;根据确定出的资源调度策略为所述任务调度GPU资源。

A YARN Cluster GPU Resource Scheduling Method, Device and Media

【技术实现步骤摘要】
一种YARN集群GPU资源调度方法、装置和介质
本专利技术涉及大数据处理
,尤其涉及一种YARN集群GPU资源调度方法、装置和介质。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。YARN(YetAnotherResourceNegotiator,另一种资源协调者)是Hadoop平台上采用的集群资源管理系统,支持CPU和内存资源的管理调度。GPU(GraphicsProcessingUnit,图形处理器)由于强大的计算能力,被广泛用于机器学习相关领域,大大加速了模型的训练速度。现有的YARN并不支持GPU资源的调度,为了支持GPU资源的调度,现有的主流方案如下有两种。第一种方案是直接修改YARN的源码,扩展YARN的调度功能,使其支持GPU资源的调度。这种方案的优点是兼容性较好。但是由于YARN源码的复杂性和自身的一些限制,导致方案实现难度大,Bug难以调试,开发周期长,时间成本和人力成本高。第二种方案是实现一个独立的GPU资源管理系统,专门负责GPU资源的管理和调度。这种方案的有优点是没有YARN的限制,灵活性较好。但是由于需要独立开发完整的系统,开发成本较高,同时也会带来更多的运维成本,并且会增加整个系统的复杂性。
技术实现思路
本专利技术实施例提供一种YARN集群GPU资源调度方法、装置和介质,用以在YARN集群中实现GPU资源调度的同时,降低实现GPU资源的调度的复杂度。第一方面,提供一种YARN集群GPU资源调度方法,为另一种资源协调者YARN集群中包含的图形处理器GPU节点添加GPU标签;所述方法,包括:接收需要调度GPU资源的任务,所述任务中携带有完成所述任务所需的GPU资源数量;根据所述GPU标签确定所述YARN集群中可用的GPU节点并查询每一可用GPU节点的剩余GPU资源数量;根据完成所述所需的GPU资源数量和每一可用GPU节点的剩余GPU资源数量,确定GPU资源调度策略;根据确定出的资源调度策略为所述任务调度GPU资源。可选地,根据完成所述所需的GPU资源数量和所有可用GPU节点的剩余GPU资源数量,确定GPU资源调度策略,具体包括:如果根据完成所述所需的GPU资源数量和每一可用GPU节点的剩余GPU资源数量,确定存在至少一个GPU节点,该GPU节点的剩余GPU资源数量不小于完成所述任务所需的GPU资源数量,则确定GPU资源调度策略为选择任一剩余GPU资源数量不小于完成所述任务所需的GPU资源数量的GPU节点,将所述任务集中分配到该GPU节点上处理;如果根据完成所述所需的GPU资源数量和每一可用GPU节点的剩余GPU资源数量,任一GPU节点的剩余GPU资源数量均小于完成所述任务所需的GPU资源数量,则确定GPU资源调度策略为将所述任务随机分配到多个GPU节点上处理。可选地,如果确定GPU资源调度策略为选择任一剩余GPU资源数量不小于完成所述任务所需的GPU资源数量的GPU节点,将所述任务集中分配到该GPU节点上处理,则在根据确定出的资源调度策略为所述任务调度GPU资源之后,还包括:修改选择出的GPU节点标签为预设标签;以及在所述任务完成提交后,还包括:修改选择出的GPU节点标签为初始标签。可选地,在接收需要调度GPU资源的任务之前,按照以下方法设置所述YARN集群中包含的每一GPU节点的可用GPU资源数量:针对每一GPU节点,根据该GPU节点的可用GPU资源数量,设置该节点对应的YARN参数中的中央处理单元CPU虚拟核数值为该GPU节点的可用GPU资源数量的整数倍。第二方面,提供一种YARN集群GPU资源调度装置,为另一种资源协调者YARN集群中包含的图形处理器GPU节点添加GPU标签;以及所述装置,包括:接收单元,用于接收需要调度GPU资源的任务,所述任务中携带有完成所述任务所需的GPU资源数量;第一确定单元,用于根据所述GPU标签确定所述YARN集群中可用的GPU节点并查询每一可用GPU节点的剩余GPU资源数量;第二确定单元,用于根据完成所述所需的GPU资源数量和每一可用GPU节点的剩余GPU资源数量,确定GPU资源调度策略;资源调度单元,用于根据确定出的资源调度策略为所述任务调度GPU资源。可选地,所述第二确定单元,具体用于如果根据完成所述所需的GPU资源数量和每一可用GPU节点的剩余GPU资源数量,确定存在至少一个GPU节点,该GPU节点的剩余GPU资源数量不小于完成所述任务所需的GPU资源数量,则确定GPU资源调度策略为选择任一剩余GPU资源数量不小于完成所述任务所需的GPU资源数量的GPU节点,将所述任务集中分配到该GPU节点上处理;如果根据完成所述所需的GPU资源数量和每一可用GPU节点的剩余GPU资源数量,确定任一GPU节点的剩余GPU资源数量均小于完成所述任务所需的GPU资源数量,则确定GPU资源调度策略为将所述任务随机分配到多个GPU节点上处理。可选地,所述装置,还包括:标签修改单元,用于如果所述第二确定单元确定GPU资源调度策略为选择任一剩余GPU资源数量不小于完成所述任务所需的GPU资源数量的GPU节点,将所述任务集中分配到该GPU节点上处理,则在所述资源调度资源在根据确定出的资源调度策略为所述任务调度GPU资源之后,修改选择出的GPU节点标签为预设标签;以及在所述任务完成提交后,修改选择出的GPU节点标签为初始标签。可选地,所述装置,还包括:资源设置单元,用于在所述接收单元接收需要调度GPU资源的任务之前,按照以下方法设置所述YARN集群中包含的每一GPU节点的可用GPU资源数量:针对每一GPU节点,根据该GPU节点的可用GPU资源数量,设置该节点对应的YARN参数中的中央处理单元CPU虚拟核数值为该GPU节点的可用GPU资源数量的整数倍。第三方面,提供一种计算装置,包括至少一个处理单元、以及至少一个存储单元,其中,所述存储单元存储有计算机程序,当所述程序被所述处理单元执行时,使得所述处理单元执行上述任一方法所述的步骤。第四方面,提供一种计算机可读介质,其存储有可由计算装置执行的计算机程序,当所述程序在计算装置上运行时,使得所述计算装置执行上述任一方法所述的步骤。本专利技术实施例提供的YARN集群GPU资源调度方法、装置和介质中,通过为YARN集群中包含的GPU节点添加GPU标签,在需要为接收到的任务调度GPU资源时,根据GPU标签确定YARN集群中可用的GPU节点以及每一可用GPU节点的剩余GPU资源数量并查询每一可用GPU节点的剩余GPU资源数量,根据根据完成所述所需的GPU资源数量和每一可用GPU节点的剩余GPU资源数量,确定GPU资源调度策略,并基于此进行GPU资源调度,上述过程中,无需对YARN源码修改或者开发独立的GPU资源管理系统,从而在实现在YARN集群中实现GPU资源调度的同时,降低实现GPU资源的调度的复杂度。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。附图说明此处所说明的附图用来提供对本专利技术的进一步本文档来自技高网...

【技术保护点】
1.一种YARN集群GPU资源调度方法,其特征在于,为另一种资源协调者YARN集群中包含的图形处理器GPU节点添加GPU标签;所述方法,包括:接收需要调度GPU资源的任务,所述任务中携带有完成所述任务所需的GPU资源数量;根据所述GPU标签确定所述YARN集群中可用的GPU节点并查询每一可用GPU节点的剩余GPU资源数量;根据完成所述所需的GPU资源数量和每一可用GPU节点的剩余GPU资源数量,确定GPU资源调度策略;根据确定出的资源调度策略为所述任务调度GPU资源。

【技术特征摘要】
1.一种YARN集群GPU资源调度方法,其特征在于,为另一种资源协调者YARN集群中包含的图形处理器GPU节点添加GPU标签;所述方法,包括:接收需要调度GPU资源的任务,所述任务中携带有完成所述任务所需的GPU资源数量;根据所述GPU标签确定所述YARN集群中可用的GPU节点并查询每一可用GPU节点的剩余GPU资源数量;根据完成所述所需的GPU资源数量和每一可用GPU节点的剩余GPU资源数量,确定GPU资源调度策略;根据确定出的资源调度策略为所述任务调度GPU资源。2.如权利要求1所述的方法,其特征在于,根据完成所述所需的GPU资源数量和所有可用GPU节点的剩余GPU资源数量,确定GPU资源调度策略,具体包括:如果根据完成所述所需的GPU资源数量和每一可用GPU节点的剩余GPU资源数量,确定存在至少一个GPU节点,该GPU节点的剩余GPU资源数量不小于完成所述任务所需的GPU资源数量,则确定GPU资源调度策略为选择任一剩余GPU资源数量不小于完成所述任务所需的GPU资源数量的GPU节点,将所述任务集中分配到该GPU节点上处理;如果根据完成所述所需的GPU资源数量和每一可用GPU节点的剩余GPU资源数量,任一GPU节点的剩余GPU资源数量均小于完成所述任务所需的GPU资源数量,则确定GPU资源调度策略为将所述任务随机分配到多个GPU节点上处理。3.如权利要求2所述的方法,其特征在于,如果确定GPU资源调度策略为选择任一剩余GPU资源数量不小于完成所述任务所需的GPU资源数量的GPU节点,将所述任务集中分配到该GPU节点上处理,则在根据确定出的资源调度策略为所述任务调度GPU资源之后,还包括:修改选择出的GPU节点标签为预设标签;以及在所述任务完成提交后,还包括:修改选择出的GPU节点标签为初始标签。4.如权利要求1、2或3所述的方法,其特征在于,在接收需要调度GPU资源的任务之前,按照以下方法设置所述YARN集群中包含的每一GPU节点的可用GPU资源数量:针对每一GPU节点,根据该GPU节点的可用GPU资源数量,设置该节点对应的YARN参数中的中央处理单元CPU虚拟核数值为该GPU节点的可用GPU资源数量的整数倍。5.一种YARN集群GPU资源调度装置,其特征在于,为另一种资源协调者YARN集群中包含的图形处理器GPU节点添加GPU标签;以及所述装置,包括:接收单元,用于接收需要调度GPU资源的任务,所述任务中携带有完成所述任务所...

【专利技术属性】
技术研发人员:丛鹏宇
申请(专利权)人:中国移动通信有限公司研究院中国移动通信集团有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1