一种基于CUDA的GPU资源分配方法、系统、终端及存储介质技术方案

技术编号：26504285 阅读：23 留言：0更新日期：2020-11-27 15:31

本发明专利技术提供一种基于CUDA的GPU资源分配方法、系统、终端及存储介质，包括：对共享GPU资源的集群启用CUDA平台的统一内存机制；通过所述统一内存机制截取所述集群的每个节点的内存管理接口；设置所述统一内存机制的隔离阈值，根据所述隔离阈值通过所述内存管理接口占用节点的内存；将占用的节点内存作为同节点上GPU的显存资源分配给GPU任务。本发明专利技术通过CUDA统一内存与共享GPU资源机制设置相结合，提高GPU利用率和使用效率，提高AI平台进行训练任务的规模并保证平台高效运行。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于CUDA的GPU资源分配方法、系统、终端及存储介质
本专利技术涉及AI平台
，具体涉及一种基于CUDA的GPU资源分配方法、系统、终端及存储介质。
技术介绍
随着用于AI平台及深度学习任务的数据量的增加以及对于训练速度要求的提高，资源配置及算力要求也越来越高。此外，随着AI平台GPU服务器集群的整体规模逐步扩大，集群中使用率较高，且较为稀缺的资源，GPU的利用率通常决定了深度学习任务训练的整体效率。所以如何更加有效的使用GPU资源，提升GPU资源利用率显得尤为重要。目前大部分深度学习训练在使用GPU资源的时候，是以单块GPU卡为最小的资源使用粒度。但是单个训练任务占用一个GPU卡的情况下，训练过程中占用的GPU显存远远低于单块GPU显存大小，从而导致GPU资源利用率较低。为了提交GPU资源利用率，对训练任务占用GPU显存规模进行分析后，按照一定粒度拆分GPU显存从而使得一个GPU卡被多个任务使用，就显得很有必要。现有技术已经存在定义显存粒度，隔离出多个GPU显存，来实现GPU共享的方式。但该方法只将GPU资源显存信息(单块GPU卡显存目前主流是32G)进行划分隔离，当GPU显存不够时，会直接报出OOM错误，导致任务运行失败，并且根据显存粒度划分的GPU复用情况较低。
技术实现思路
针对现有技术的上述不足，本专利技术提供一种基于CUDA的GPU资源分配方法、系统、终端及存储介质，以解决上述技术问题。第一方面，本专利技术提供一种基于CUDA的GPU资源分配方法，包...

【技术保护点】
1.一种基于CUDA的GPU资源分配方法，其特征在于，包括：/n对共享GPU资源的集群启用CUDA平台的统一内存机制；/n通过所述统一内存机制截取所述集群的每个节点的内存管理接口；/n设置所述统一内存机制的隔离阈值，根据所述隔离阈值通过所述内存管理接口占用节点的内存；/n将占用的节点内存作为同节点上GPU的显存资源分配给GPU任务。/n

【技术特征摘要】
1.一种基于CUDA的GPU资源分配方法，其特征在于，包括：
对共享GPU资源的集群启用CUDA平台的统一内存机制；
通过所述统一内存机制截取所述集群的每个节点的内存管理接口；
设置所述统一内存机制的隔离阈值，根据所述隔离阈值通过所述内存管理接口占用节点的内存；
将占用的节点内存作为同节点上GPU的显存资源分配给GPU任务。

2.根据权利要求1所述的方法，其特征在于，所述根据隔离阈值通过所述内存管理接口占用节点的内存，包括：
获取节点上的单张GPU的显存容量；
计算所述显存容量与所述隔离阈值的乘积，所述隔离阈值为所述显存容量的倍数，计算所述乘积与所述显存容量的差值，将所述差值作为需要占用的内存容量输出。

3.根据权利要求2所述的方法，其特征在于，所述将占用的节点内存作为同节点上GPU的显存资源分配给GPU任务，包括：
预先设置显存粒度；
将所述乘积作为单张GPU的总显存，计算所述总显存除以显存粒度的商，将所述商作为复用情况输出；
根据所述复用情况控制调度器向GPU调度相应数量的容器。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：
将集群各节点上GPU信息保存至GPU信息表，并创建GPU显存信息表；
建立已分配容器任务ID与运行节点上的GPU的UUID对应关系，并建立已分配容器ID与GPU显存的对应关系；
判断运行在GPU的容器执行任务时的显存利用最大值是否持续超过所述显存粒度：
若是，则结束所述容器执行的任务，并释放相应的GPU资源和显存资源。

5.一种基于CUDA的GPU资源分配系统，其特征在于，包括：
机制启用单元，配置用于对共享GPU资源的集群启用CUDA平台的统一内存机制；
接口定义单元，配置用于通过所述统一内存机制截取所述集群的每个节点的内存管理接口；
内存占用单元，配置用于设置所述统一内存机制...

【专利技术属性】
技术研发人员：刘晓健，
申请(专利权)人：苏州浪潮智能科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人