一种提高智算中心GPU利用率的框架及方法技术

技术编号：41142218 阅读：3 留言：0更新日期：2024-04-30 18:11

本发明专利技术涉及一种提高智算中心GPU利用率的框架及方法，该框架包括：基础算力区：包括通用计算节点、网络设备、智算应用程序、包装库和调度引擎，接收用户的API调用请求并调用包装库，包装库拦截、转发API调用请求并调用调度引擎，调度引擎感知GPU空闲状态并根据调度算法选择目标GPU；智能算力区：包括GPU服务器、代理程序和智算API，代理程序将GPU空闲状态报告给调度引擎、接收包装库的API调用请求以及调用智算API，智算API根据目标GPU执行智算任务；数据存储区：用于为基础算力区和智能算力区提供文件存储、块存储和对象存储服务。与现有技术相比，本发明专利技术具有提高GPU利用率等优点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机，尤其是涉及一种提高智算中心gpu利用率的框架及方法。

技术介绍

1、为了实现大模型训练，智算中心往往需要部署几千至几万个gpu，还有配套的高性能存储和网络设备，投入非常高。另一方面，这些gpu的利用率比较低。原因主要来源于两方面：

2、1)智算中心以包租gpu服务器集群的方式对外提供服务，客户的需求与智算中心的供给之间存在不匹配。例如，智算中心有1万张gpu卡。例如某年前半年，a客户承租其中5000张卡，b客户承租3000张卡。c客户从第三季度开始承租8000张卡。则整年度有1-((3000+5000)*3+8000*3)/10000*12)*100％＝60％的gpu卡是未被使用的。

3、2)被租赁出去的gpu卡本身的利用率也不高。用于大模型训练的gpu的80％用于单独一个模型的训练，另外20％用于数据清洗等辅助功能。其中，用于数据清洗等辅助功能的gpu也存在利用率不高的问题。

4、因此，提高智算中心gpu利用率成为急需解决的问题。业界一直在对如何更优化地使用gpu资源进行探索，例如gpu虚拟化技术。但该技术限定了只能使用本机的gpu资源，常用于多租户共享一个本机gpu的场景。而智算中心的所出租的gpu算力往往是面向单租户的，即其硬件、软件架构的设计是为一个用户“独占”而设计的，无法共享给多个租户，因此现有gpu虚拟化技术无法解决智算中心gpu利用率低的问题。

技术实现思路

1、本专利技术的目的就是为了提供一种解决gpu利用

2、本专利技术的目的可以通过以下技术方案来实现：

3、一种提高智算中心gpu利用率的框架，包括基础算力区、智能算力区和数据存储区，

4、所述基础算力区包括通用计算节点、部署有云操作系统的网络设备、智算应用程序、包装库和调度引擎，所述基础算力区用于智算应用程序接收用户智算任务的api调用请求并调用包装库，包装库拦截、转发用户的api调用请求并调用调度引擎，调度引擎感知智能算力区的gpu空闲状态并根据调度算法选择目标gpu；

5、所述智能算力区包括gpu服务器节点、代理程序和智算api，所述智能算力区用于代理程序将gpu空闲状态报告给调度引擎、接收包装库的api调用请求以及调用智算api，智算api根据目标gpu执行智算任务，并将执行结果通过代理程序和包装库返回给智算应用程序；

6、所述数据存储区用于为所述基础算力区和智能算力区提供文件存储、块存储和对象存储服务。

7、进一步地，所述智算应用程序运行在虚拟机中。

8、进一步地，所述包装库安装在智能镜像中。

9、进一步地，所述包装库是智算库中的api函数进行封装后形成的一系列包装函数集合。

10、进一步地，所述gpu服务器节点通过叶脊网络进行互联。

11、进一步地，根据调度算法选择目标gpu的具体步骤包括：

12、检查是否存在空闲的gpu服务器节点，若存在，则随机选择空闲的gpu服务器节点作为目标gpu，若否，则从算力辅助服务器中选择最近一天使用率最低的gpu作为目标gpu。

13、进一步地，所述调度算法的表达公式为：

14、

15、其中，

16、

17、

18、

19、式中，s为最终选择的目标gpu，g(i,j,l)表示第i个集群的第j个服务器的第l个gpu，u(i,j,l)表示g(i,j,l)的使用率，m表示每个集群中gpu服务器的数量，r(i,j)表示第i个集群的第j个服务器是否是算力辅助服务器，k表示每个服务器中gpu的数量。

20、进一步地，所述代理程序和智算api运行在gpu服务器节点的虚拟机中或者直接运行在gpu服务器节点上。

21、进一步地，所述调度引擎采用开源kubernetes实现。

22、本专利技术还提供一种基于上述所述的提高智算中心gpu利用率的框架的智算任务处理方法，包括以下步骤：

23、智算应用程序获取用户智算任务的api调用请求，并发送给包装库；

24、包装库对api调用请求进行拦截，并调用调度引擎查询智能算力区的gpu空闲情况；

25、调度引擎接收代理程序返回的gpu空闲情况，采用调度算法选择目标gpu，并将目标gpu对应的代理程序ip地址返回至包装库；

26、包装库根据ip地址，将api调用请求转发给对应的代理程序；

27、对应的代理程序调用智算api执行智算任务，并将对应的代理程序和包装库返回给智算应用程序。

28、与现有技术相比，本专利技术具有以下有益效果：

29、(1)本专利技术的调度引擎通过调度策略将基础算力区中gpu算力调度到智能算力区中的目标gpu上运行，通过合理地选择目标gpu执行智算任务从而提高智算中心gpu利用率。

30、(2)本专利技术提供的框架针对多用户进行设计，可以共享给多个租户，进一步提高gpu利用率。

31、(3)本专利技术没有改变算力中心现有的网络拓扑，通过包装库、网络调度、任务叠加、硬件复用的手段，让gpu集群的闲置部分可以被调度分配给多租户的基础算力区中，从而帮助基础算力区实现算法加速、并行计算，以提高智算中心整体的gpu利用率。

本文档来自技高网...

【技术保护点】

1.一种提高智算中心GPU利用率的框架，其特征在于，包括基础算力区、智能算力区和数据存储区，

2.根据权利要求1所述的一种提高智算中心GPU利用率的框架，其特征在于，所述智算应用程序(1)运行在虚拟机中。

3.根据权利要求1所述的一种提高智算中心GPU利用率的框架，其特征在于，所述包装库(2)安装在智能镜像中。

4.根据权利要求1所述的一种提高智算中心GPU利用率的框架，其特征在于，所述包装库(2)是智算库中的API函数进行封装后形成的一系列包装函数集合。

5.根据权利要求1所述的一种提高智算中心GPU利用率的框架，其特征在于，所述GPU服务器节点通过叶脊网络进行互联。

6.根据权利要求1所述的一种提高智算中心GPU利用率的框架，其特征在于，根据调度算法选择目标GPU的具体步骤包括：

7.根据权利要求6所述的一种提高智算中心GPU利用率的框架，其特征在于，所述调度算法的表达公式为：

8.根据权利要求1所述的一种提高智算中心GPU利用率的框架，其特征在于，所述代理程序(4)和智算API(5)运行在G

9.根据权利要求1所述的一种提高智算中心GPU利用率的框架，其特征在于，所述调度引擎(3)采用开源Kubernetes实现。

10.一种基于权利要求1-9任一所述的提高智算中心GPU利用率的框架的智算任务处理方法，其特征在于，包括以下步骤：

...

【技术特征摘要】

1.一种提高智算中心gpu利用率的框架，其特征在于，包括基础算力区、智能算力区和数据存储区，

2.根据权利要求1所述的一种提高智算中心gpu利用率的框架，其特征在于，所述智算应用程序(1)运行在虚拟机中。

3.根据权利要求1所述的一种提高智算中心gpu利用率的框架，其特征在于，所述包装库(2)安装在智能镜像中。

4.根据权利要求1所述的一种提高智算中心gpu利用率的框架，其特征在于，所述包装库(2)是智算库中的api函数进行封装后形成的一系列包装函数集合。

5.根据权利要求1所述的一种提高智算中心gpu利用率的框架，其特征在于，所述gpu服务器节点通过叶脊网络进行互联。

6.根据权利要求1所述...

【专利技术属性】
技术研发人员：刘超，
申请(专利权)人：上海仪电集团有限公司中央研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人