The present invention provides one kind of realization of GPU scheduling management method, cluster manager on the deployment of control process, task scheduler and GPU scheduler module, including the following steps: first, the user submits GPU operations, GPU operations control process will be placed in the queue and send scheduling instructions; then, the request and obtain GPU information resources; after the job scheduler jobs are scheduled according to the GPU information resources; after the control allocation process and send operations; then, the GPU scheduling module receives and executes control to the process of operation, and the results of feedback to the control process. Has the following advantages of cluster management method for realizing GPU scheduling provided by setting and deployment of GPU scheduling module for feedback node GPU resources allocated to the node information and perform operations, enhanced support management and scheduling of resources of GPU cluster system.
【技术实现步骤摘要】
一种实现GPU调度的集群管理方法和系统
本专利技术涉及通信和计算机领域,具体涉及一种实现GPU调度的集群管理方法和系统。
技术介绍
近年来,图形处理器GPU在并行处理能力和图形处理能力上增长很快,而CUDA和OpenCL可编程架构的推广也为GPU应用走向成熟提供了支持。越来越多的高性能集群集成了GPU,如何合理的管理和调度GPU资源,充分发挥其并行处理能力,提高系统效能是当前GPU应用支撑技术的重要研究方向。目前,基于国产平台的高性能集群管理系统还比较少,对于GPU资源的管理和调度的支持不够。因此,需要一种实现GPU调度的集群管理方法和系统以增强集群中对GPU资源的管理和调度的支持。
技术实现思路
针对上述现有技术中集群对GPU资源的管理和调度的支持不够的问题,本专利技术的目的在于提供一种实现GPU调度的集群管理方法和系统。为了实现上述目的,本专利技术采用的技术方案如下:一种实现GPU调度的集群管理方法,集群管理器上部署有控制进程、作业调度器和GPU调度模块,具体包括以下步骤:S000:用户提交GPU作业,控制进程将GPU作业放入队列并发送调度指令;S100:请求并获取GPU资源信息;S200:作业调度器根据GPU资源信息进行作业调度;S300:控制进程分配并发送作业;S400:GPU调度模块接收并执行控制进程发来的作业,并将执行结果反馈给控制进程。进一步地,步骤S100具体包括以下步骤:S110:作业调度器初始化请求队列和GPU资源;S120:控制进程请求向GPU调度模块获取GPU资源信息;S130:GPU调度模块向控制进程查询并报告本机GPU资源信息;S1 ...
【技术保护点】
一种实现GPU调度的集群管理方法,其特征在于,集群管理器上部署有控制进程、作业调度器和GPU调度模块,具体包括以下步骤:S000:用户提交GPU作业,所述控制进程将所述GPU作业放入队列并发送调度指令;S100:请求并获取GPU资源信息;S200:所述作业调度器根据所述GPU资源信息进行作业调度;S300:所述控制进程分配并发送作业;S400:所述GPU调度模块接收并执行所述控制进程发来的作业,并将执行结果反馈给所述控制进程。
【技术特征摘要】
1.一种实现GPU调度的集群管理方法,其特征在于,集群管理器上部署有控制进程、作业调度器和GPU调度模块,具体包括以下步骤:S000:用户提交GPU作业,所述控制进程将所述GPU作业放入队列并发送调度指令;S100:请求并获取GPU资源信息;S200:所述作业调度器根据所述GPU资源信息进行作业调度;S300:所述控制进程分配并发送作业;S400:所述GPU调度模块接收并执行所述控制进程发来的作业,并将执行结果反馈给所述控制进程。2.根据权利要求1所述的实现GPU调度的集群管理方法,其特征在于,步骤S100具体包括以下步骤:S110:所述作业调度器初始化请求队列和GPU资源;S120:所述控制进程请求向所述GPU调度模块获取GPU资源信息;S130:所述GPU调度模块向所述控制进程查询并报告本机GPU资源信息;S140:所述控制进程向所述作业调度器返回队列和所述GPU资源信息。3.根据权利要求1所述的实现GPU调度的集群管理方法,其特征在于,步骤S200具体包括以下步骤:S210:所述作业调度器根据调度策略选择在队列中优先级最高的作业;S220:所述作业调度器检查所述作业是否可以执行;S230:所述作业调度器选择最优节点。4.根据权利要求3所述的实现GPU调度的集群管理方法,其特征在于,步骤S300中,所述控制进程发送作业到所述最优节点。5.根据权利要求2所述的实现GPU调度的集群管理方法,其特征在于,步骤S130具体包括以下步骤:S131:所述GPU调度模块查询并记录GPU...
【专利技术属性】
技术研发人员:吴登勇,赵瑞东,曲德源,柳玉巧,
申请(专利权)人:山东超越数控电子有限公司,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。