一种实现GPU调度的集群管理方法和系统技术方案

技术编号:15840206 阅读:266 留言:0更新日期:2017-07-18 16:44
本发明专利技术提供的一种实现GPU调度的集群管理方法,集群管理器上部署有控制进程、作业调度器和GPU调度模块,具体包括以下步骤:首先,用户提交GPU作业,控制进程将GPU作业放入队列并发送调度指令;然后,请求并获取GPU资源信息;之后,作业调度器根据GPU资源信息进行作业调度;之后,控制进程分配并发送作业;然后,GPU调度模块接收并执行控制进程发来的作业,并将执行结果反馈给控制进程。本发明专利技术提供的实现GPU调度的集群管理方法具有以下优点:通过设置和部署GPU调度模块,用于反馈节点GPU资源信息和执行分配到节点的作业,增强了集群系统对GPU资源的管理和调度的支持。

Cluster management method and system for implementing GPU scheduling

The present invention provides one kind of realization of GPU scheduling management method, cluster manager on the deployment of control process, task scheduler and GPU scheduler module, including the following steps: first, the user submits GPU operations, GPU operations control process will be placed in the queue and send scheduling instructions; then, the request and obtain GPU information resources; after the job scheduler jobs are scheduled according to the GPU information resources; after the control allocation process and send operations; then, the GPU scheduling module receives and executes control to the process of operation, and the results of feedback to the control process. Has the following advantages of cluster management method for realizing GPU scheduling provided by setting and deployment of GPU scheduling module for feedback node GPU resources allocated to the node information and perform operations, enhanced support management and scheduling of resources of GPU cluster system.

【技术实现步骤摘要】
一种实现GPU调度的集群管理方法和系统
本专利技术涉及通信和计算机领域,具体涉及一种实现GPU调度的集群管理方法和系统。
技术介绍
近年来,图形处理器GPU在并行处理能力和图形处理能力上增长很快,而CUDA和OpenCL可编程架构的推广也为GPU应用走向成熟提供了支持。越来越多的高性能集群集成了GPU,如何合理的管理和调度GPU资源,充分发挥其并行处理能力,提高系统效能是当前GPU应用支撑技术的重要研究方向。目前,基于国产平台的高性能集群管理系统还比较少,对于GPU资源的管理和调度的支持不够。因此,需要一种实现GPU调度的集群管理方法和系统以增强集群中对GPU资源的管理和调度的支持。
技术实现思路
针对上述现有技术中集群对GPU资源的管理和调度的支持不够的问题,本专利技术的目的在于提供一种实现GPU调度的集群管理方法和系统。为了实现上述目的,本专利技术采用的技术方案如下:一种实现GPU调度的集群管理方法,集群管理器上部署有控制进程、作业调度器和GPU调度模块,具体包括以下步骤:S000:用户提交GPU作业,控制进程将GPU作业放入队列并发送调度指令;S100:请求并获取GPU资源信息;S200:作业调度器根据GPU资源信息进行作业调度;S300:控制进程分配并发送作业;S400:GPU调度模块接收并执行控制进程发来的作业,并将执行结果反馈给控制进程。进一步地,步骤S100具体包括以下步骤:S110:作业调度器初始化请求队列和GPU资源;S120:控制进程请求向GPU调度模块获取GPU资源信息;S130:GPU调度模块向控制进程查询并报告本机GPU资源信息;S140:控制进程向作业调度器返回队列和GPU资源信息。进一步地,步骤S200具体包括以下步骤:S210:作业调度器根据调度策略选择在队列中优先级最高的作业;S220:作业调度器检查作业是否可以执行;S230:作业调度器选择最优节点。进一步地,步骤S300中,控制进程发送作业到最优节点。进一步地,步骤S130具体包括以下步骤:S131:GPU调度模块查询并记录GPU资源信息;S132:GPU调度模块向控制进程反馈GPU资源信息;S133:GPU调度模块等待控制进程分配的作业。进一步地,GPU资源信息包括显卡设备的类型和基本信息;显卡设备的基本信息包括流处理单元、显存大小和可用显存。进一步地,步骤S300具体包括以下步骤:S310:控制进程根据显卡列表、和作业申请的资源信息并执行统一的资源分配策略,计算作业对应的节点;S320:控制进程将作业分配给相应的节点;S330:控制进程发送作业。一种实现GPU调度的集群管理系统,包括集群管理器,集群管理器上部署有:控制进程,部署在控制节点,用于集群资源管理和分配作业到节点;作业调度器,用于初始化请求队列和GPU资源,以及对GPU资源信息进行作业调度;GPU调度模块,部署在计算节点,用于反馈节点GPU资源信息和执行分配到节点的作业。进一步地,集群管理系统移植有OpenCL和OpenGL,用于搭建并行应用和图形应用的运行环境;还包括web访问端,用于用户通过所述web访问端直接访问集群管理系统。一种计算机可读存储介质,其上存储有计算机程序(指令),用于实现GPU调度的集群管理方法,计算机程序(指令)被处理器执行时实现以下步骤:S000:用户提交GPU作业,控制进程将GPU作业放入队列并发送调度指令;S100:请求并获取GPU资源信息;S200:作业调度器根据GPU资源信息进行作业调度;S300:控制进程分配并发送作业;S400:GPU调度模块接收并执行控制进程发来的作业,并将执行结果反馈给控制进程。进一步地,步骤S100具体包括以下步骤:S110:作业调度器初始化请求队列和GPU资源;S120:控制进程请求向GPU调度模块获取GPU资源信息;S130:GPU调度模块向控制进程查询并报告本机GPU资源信息;S140:控制进程向作业调度器返回队列和GPU资源信息。进一步地,步骤S200具体包括以下步骤:S210:作业调度器根据调度策略选择在队列中优先级最高的作业;S220:作业调度器检查作业是否可以执行;S230:作业调度器选择最优节点。进一步地,步骤S300中,控制进程发送作业到最优节点。进一步地,步骤S130具体包括以下步骤:S131:GPU调度模块查询并记录GPU资源信息;S132:GPU调度模块向控制进程反馈GPU资源信息;S133:GPU调度模块等待控制进程分配的作业。进一步地,GPU资源信息包括显卡设备的类型和基本信息;显卡设备的基本信息包括流处理单元、显存大小和可用显存。进一步地,步骤S300具体包括以下步骤:S310:控制进程根据显卡列表、和作业申请的资源信息并执行统一的资源分配策略,计算作业对应的节点;S320:控制进程将作业分配给相应的节点;S330:控制进程发送作业。本专利技术通过以上技术方案,能够获得以下有益技术效果:(1)通过设置和部署GPU调度模块,用于反馈节点GPU资源信息和执行分配到节点的作业,增强了集群系统对GPU资源的管理和调度的支持;(2)通过设置web访问端,采用BS架构,用户可以通过所述web访问端直接访问集群管理系统,而不需要安装客户端软件;(3)通过移植有OpenCL和OpenGL,用来搭建并行应用和图形应用的运行环境,具有更好的通用性和可移植性。当然,实施本专利技术的任一产品必不一定需要同时达到以上所述的所有技术效果。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本专利技术的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1为本专利技术实施例所述的实现GPU调度的集群管理方法的流程图;图2为图1中S100的子流程图;图3为图1中S200的子流程图;图4为图2中S130的子流程图;图5为图1中S300的子流程图;图6为本专利技术实施例所述的实现GPU调度的集群管理系统的框图。具体实施方式如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包括”为一开放式用语,故应解释成“包括但不限定于”。说明书后续描述为实施本专利技术的较佳实施方式,然所述描述乃以说明本专利技术的一般原则为目的,并非用以限定本专利技术的范围。本专利技术的保护范围当视所附权利要求所界定者为准。实施例1如图1-5所示,本实施例提供的一种实现GPU调度的集群管理方法,集群管理器上部署有控制进程、作业调度器和GPU调度模块,具体包括以下步骤:首先,用户提交GPU作业,控制进程将GPU作业放入队列并发送调度指令;然后,请求并获取GPU资源信息;之后,作业调度器根据GPU资源信息进行作业调度;之后,控制进程分配并发送作业;然后,GPU调度模块接收并执行控制进程发来的作业,并将执行结果反馈给控制进程。进一步地,请求并获取GPU资源信息步骤具体包括以下步骤:1.作业调度器初始化请求队列和GPU资源,并向控制进程请求获取GPU资源信息;2.控制进程接收请求后,转发给GPU调度模块,向GPU调度模块请求获取本文档来自技高网...
一种实现GPU调度的集群管理方法和系统

【技术保护点】
一种实现GPU调度的集群管理方法,其特征在于,集群管理器上部署有控制进程、作业调度器和GPU调度模块,具体包括以下步骤:S000:用户提交GPU作业,所述控制进程将所述GPU作业放入队列并发送调度指令;S100:请求并获取GPU资源信息;S200:所述作业调度器根据所述GPU资源信息进行作业调度;S300:所述控制进程分配并发送作业;S400:所述GPU调度模块接收并执行所述控制进程发来的作业,并将执行结果反馈给所述控制进程。

【技术特征摘要】
1.一种实现GPU调度的集群管理方法,其特征在于,集群管理器上部署有控制进程、作业调度器和GPU调度模块,具体包括以下步骤:S000:用户提交GPU作业,所述控制进程将所述GPU作业放入队列并发送调度指令;S100:请求并获取GPU资源信息;S200:所述作业调度器根据所述GPU资源信息进行作业调度;S300:所述控制进程分配并发送作业;S400:所述GPU调度模块接收并执行所述控制进程发来的作业,并将执行结果反馈给所述控制进程。2.根据权利要求1所述的实现GPU调度的集群管理方法,其特征在于,步骤S100具体包括以下步骤:S110:所述作业调度器初始化请求队列和GPU资源;S120:所述控制进程请求向所述GPU调度模块获取GPU资源信息;S130:所述GPU调度模块向所述控制进程查询并报告本机GPU资源信息;S140:所述控制进程向所述作业调度器返回队列和所述GPU资源信息。3.根据权利要求1所述的实现GPU调度的集群管理方法,其特征在于,步骤S200具体包括以下步骤:S210:所述作业调度器根据调度策略选择在队列中优先级最高的作业;S220:所述作业调度器检查所述作业是否可以执行;S230:所述作业调度器选择最优节点。4.根据权利要求3所述的实现GPU调度的集群管理方法,其特征在于,步骤S300中,所述控制进程发送作业到所述最优节点。5.根据权利要求2所述的实现GPU调度的集群管理方法,其特征在于,步骤S130具体包括以下步骤:S131:所述GPU调度模块查询并记录GPU...

【专利技术属性】
技术研发人员:吴登勇赵瑞东曲德源柳玉巧
申请(专利权)人:山东超越数控电子有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1