GPU资源调度方法及装置制造方法及图纸

技术编号：16969353 阅读：177 留言：0更新日期：2018-01-07 06:25

本公开涉及GPU资源调度方法及装置，所述方法包括：主节点接收来自第一从节点的请求GPU计算资源的请求命令，所述请求命令为所述第一从节点接收到客户端提交的计算任务时发出的；主节点确定各从节点的GPU空闲率；主节点选择第二从节点，所述第二从节点为所有从节点中GPU空闲率最高的从节点；主节点将第二从节点的信息发送给所述第一从节点，以使所述第一从节点将所述计算任务发送给所述第二从节点。根据本公开各方面的GPU资源调度方法/装置能够实现GPU集群的计算资源得到均衡调度，提高GPU集群的计算性能，且不需要用户手动管理GPU资源，调度方式简单。

全部详细技术资料下载

【技术实现步骤摘要】
GPU资源调度方法及装置
本公开涉及计算机
，尤其涉及一种GPU资源调度方法及装置。
技术介绍
图形处理器(GraphicsProcessingUnit，GPU)，又称显示核心、视觉处理器、显示芯片，专为计算密集型、高度并行化的计算而设计。GPU在许多领域得到应用，且性能远超传统CPU(CentralProcessingUnit)性能。在规模越来越大的密集型应用系统中，单机GPU完全满足不了应用需要，为提升GPU计算性能可以从纵向扩展机器。但纵向扩展GPU容易受到硬件的性能限制，且性价比非常低。为提高GPU的计算性能，还可以横向扩展GPU集群，由多个节点上的多个GPU芯片组成GPU集群，以完成复杂的计算任务。然而，各节点上的GPU彼此独立无法进行通信，用户需要手动管理GPU集群资源，复杂度高、可移植性差；同时，也无法保证GPU集群的计算资源得到均衡调度。
技术实现思路
有鉴于此，本公开提出了一种GPU资源调度方法及装置，能够实现GPU集群的计算资源得到均衡调度，且无需用户手动管理GPU集群资源。根据本公开的一方面，提供了一种GPU资源调度方法，所述方法应用于GPU集群，所述GPU集群包括主节点和从节点，所述从节点对应于一个或多个GPU，所述方法包括：主节点接收来自第一从节点的请求GPU计算资源的请求命令，所述请求命令为所述第一从节点接收到客户端提交的计算任务时发出的；主节点确定各从节点的GPU空闲率；主节点选择第二从节点，所述第二从节点为所有从节点中GPU空闲率最高的从节点；主节点将第二从节点的信息发送给所述第一从节点，以使所述第一从节点将所述计算任务发...
GPU资源调度方法及装置

【技术保护点】
一种GPU资源调度方法，其特征在于，所述方法应用于GPU集群，所述GPU集群包括主节点和从节点，所述从节点对应于一个或多个GPU，所述方法包括：主节点接收来自第一从节点的请求GPU计算资源的请求命令，所述请求命令为所述第一从节点接收到客户端提交的计算任务时发出的；主节点确定各从节点的GPU空闲率；主节点选择第二从节点，所述第二从节点为所有从节点中GPU空闲率最高的从节点；主节点将第二从节点的信息发送给所述第一从节点，以使所述第一从节点将所述计算任务发送给所述第二从节点。

【技术特征摘要】
1.一种GPU资源调度方法，其特征在于，所述方法应用于GPU集群，所述GPU集群包括主节点和从节点，所述从节点对应于一个或多个GPU，所述方法包括：主节点接收来自第一从节点的请求GPU计算资源的请求命令，所述请求命令为所述第一从节点接收到客户端提交的计算任务时发出的；主节点确定各从节点的GPU空闲率；主节点选择第二从节点，所述第二从节点为所有从节点中GPU空闲率最高的从节点；主节点将第二从节点的信息发送给所述第一从节点，以使所述第一从节点将所述计算任务发送给所述第二从节点。2.根据权利要求1所述的GPU资源调度方法，其特征在于，所述确定各从节点的GPU空闲率，包括：获取各从节点的GPU资源状态信息；针对任一从节点，根据该从节点的GPU资源状态信息，确定该从节点对应的每个GPU的空闲率；根据该从节点对应的每个GPU的空闲率，确定该从节点的GPU空闲率。3.根据权利要求2所述的GPU资源调度方法，其特征在于，所述根据该从节点的GPU资源状态信息，确定该从节点对应的每个GPU的空闲率，包括：针对任一GPU，根据以下公式计算该GPU的空闲率F：其中，freq为GPU的核心频率，SM为GPU的流处理器数量，Core为根据CUDA(ComputeUnifiedDeviceArchitecture)的计算能力获得的核心数，GPUPerc为GPU的核心空闲率，memFreq为GPU对应的显存的核心频率，busWidth为GPU对应的显存总线的位宽，memPerc为GPU对应的显存的空闲率，warpSize为线程束的数量。4.根据权利要求2所述的GPU资源调度方法，其特征在于，所述根据该从节点对应的每个GPU的空闲率，确定该从节点的GPU空闲率，包括：主节点选择该从节点对应的GPU的最大空闲率作为该从节点的GPU空闲率；或者，主节点将该从节点对应的各个GPU的空闲率的均值作为该从节点的GPU空闲率。5.一种...

【专利技术属性】
技术研发人员：胡良文，丁远普，
申请(专利权)人：新华三大数据技术有限公司，
类型：发明
国别省市：河南,41

全部详细技术资料下载我是这个专利的主人