一种YARN集群GPU资源调度方法、装置和介质制造方法及图纸

技术编号：21571076 阅读：32 留言：0更新日期：2019-07-10 15:18

本发明专利技术公开了一种YARN集群GPU资源调度方法、装置和介质，用以在YARN集群中实现GPU资源调度的同时，降低实现GPU资源的调度的复杂度。所述YARN集群GPU资源调度方法，为YARN集群中包含的GPU节点添加GPU标签；所述方法，包括：接收需要调度GPU资源的任务，所述任务中携带有完成所述任务所需的GPU资源数量；根据所述GPU标签确定所述YARN集群中可用的GPU节点并查询每一可用GPU节点的剩余GPU资源数量；根据完成所述所需的GPU资源数量和每一可用GPU节点的剩余GPU资源数量，确定GPU资源调度策略；根据确定出的资源调度策略为所述任务调度GPU资源。

A YARN Cluster GPU Resource Scheduling Method, Device and Media

全部详细技术资料下载

【技术实现步骤摘要】
一种YARN集群GPU资源调度方法、装置和介质
本专利技术涉及大数据处理
，尤其涉及一种YARN集群GPU资源调度方法、装置和介质。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。YARN(YetAnotherResourceNegotiator，另一种资源协调者)是Hadoop平台上采用的集群资源管理系统，支持CPU和内存资源的管理调度。GPU(GraphicsProcessingUnit，图形处理器)由于强大的计算能力，被广泛用于机器学习相关领域，大大加速了模型的训练速度。现有的YARN并不支持GPU资源的调度，为了支持GPU资源的调度，现有的主流方案如下有两种。第一种方案是直接修改YARN的源码，扩展YARN的调度功能，使其支持GPU资源的调度。这种方案的优点是兼容性较好。但是由于YARN源码的复杂性和自身的一些限制，导致方案实现难度大，Bug难以调试，开发周期长，时间成本和人力成本高。第二种方案是实现一个独立的GPU资源管理系统，专门负责GPU资源的管理和调度。这种方案的有优点是没有YARN的限制，灵活性较好。但是由于需要独立开发完整的系统，开发成本较高，同时也会带来更多的运维成本，并且会增加整个系统的复杂性。
技术实现思路
本专利技术实施例提供一种YARN集群GPU资源调度方法、装置和介质，用以在YARN集群中实现GPU资源调度的同时，降低实现GPU资源的调度的复杂度。第一方面，提供一种YARN集群GPU资源调度方法，为另一种资源协调者YARN集群中包含的图形处理器...

【技术保护点】
1.一种YARN集群GPU资源调度方法，其特征在于，为另一种资源协调者YARN集群中包含的图形处理器GPU节点添加GPU标签；所述方法，包括：接收需要调度GPU资源的任务，所述任务中携带有完成所述任务所需的GPU资源数量；根据所述GPU标签确定所述YARN集群中可用的GPU节点并查询每一可用GPU节点的剩余GPU资源数量；根据完成所述所需的GPU资源数量和每一可用GPU节点的剩余GPU资源数量，确定GPU资源调度策略；根据确定出的资源调度策略为所述任务调度GPU资源。

【技术特征摘要】
1.一种YARN集群GPU资源调度方法，其特征在于，为另一种资源协调者YARN集群中包含的图形处理器GPU节点添加GPU标签；所述方法，包括：接收需要调度GPU资源的任务，所述任务中携带有完成所述任务所需的GPU资源数量；根据所述GPU标签确定所述YARN集群中可用的GPU节点并查询每一可用GPU节点的剩余GPU资源数量；根据完成所述所需的GPU资源数量和每一可用GPU节点的剩余GPU资源数量，确定GPU资源调度策略；根据确定出的资源调度策略为所述任务调度GPU资源。2.如权利要求1所述的方法，其特征在于，根据完成所述所需的GPU资源数量和所有可用GPU节点的剩余GPU资源数量，确定GPU资源调度策略，具体包括：如果根据完成所述所需的GPU资源数量和每一可用GPU节点的剩余GPU资源数量，确定存在至少一个GPU节点，该GPU节点的剩余GPU资源数量不小于完成所述任务所需的GPU资源数量，则确定GPU资源调度策略为选择任一剩余GPU资源数量不小于完成所述任务所需的GPU资源数量的GPU节点，将所述任务集中分配到该GPU节点上处理；如果根据完成所述所需的GPU资源数量和每一可用GPU节点的剩余GPU资源数量，任一GPU节点的剩余GPU资源数量均小于完成所述任务所需的GPU资源数量，则确定GPU资源调度策略为将所述任务随机分配到多个GPU节点上处理。3.如权利要求2所述的方法，其特征在于，如果确定GPU资源调度策略为选择任一剩余GPU资源数量不小于完成所述任务所需的GPU资源数量的GPU节点，将所述任务集中分配到该GPU节点上处理，则在根据确定出的资源调度策略为所述任务调度GPU资源之后，还包括：修改选择出的GPU节点标签为预设标签；以及在所述任务完成提交后，还包括：修改选择出的GPU节点标签为初始标签。4.如权利要求1、2或3所述的方法，其特征在于，在接收需要调度GPU资源的任务之前，按照以下方法设置所述YARN集群中包含的每一GPU节点的可用GPU资源数量：针对每一GPU节点，根据该GPU节点的可用GPU资源数量，设置该节点对应的YARN参数中的中央处理单元CPU虚拟核数值为该GPU节点的可用GPU资源数量的整数倍。5.一种YARN集群GPU资源调度装置，其特征在于，为另一种资源协调者YARN集群中包含的图形处理器GPU节点添加GPU标签；以及所述装置，包括：接收单元，用于接收需要调度GPU资源的任务，所述任务中携带有完成所述任务所...

【专利技术属性】
技术研发人员：丛鹏宇，
申请(专利权)人：中国移动通信有限公司研究院，中国移动通信集团有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人