System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种提高智算中心GPU利用率的框架及方法技术_技高网

一种提高智算中心GPU利用率的框架及方法技术

技术编号:41142218 阅读:3 留言:0更新日期:2024-04-30 18:11
本发明专利技术涉及一种提高智算中心GPU利用率的框架及方法,该框架包括:基础算力区:包括通用计算节点、网络设备、智算应用程序、包装库和调度引擎,接收用户的API调用请求并调用包装库,包装库拦截、转发API调用请求并调用调度引擎,调度引擎感知GPU空闲状态并根据调度算法选择目标GPU;智能算力区:包括GPU服务器、代理程序和智算API,代理程序将GPU空闲状态报告给调度引擎、接收包装库的API调用请求以及调用智算API,智算API根据目标GPU执行智算任务;数据存储区:用于为基础算力区和智能算力区提供文件存储、块存储和对象存储服务。与现有技术相比,本发明专利技术具有提高GPU利用率等优点。

【技术实现步骤摘要】

本专利技术涉及计算机,尤其是涉及一种提高智算中心gpu利用率的框架及方法。


技术介绍

1、为了实现大模型训练,智算中心往往需要部署几千至几万个gpu,还有配套的高性能存储和网络设备,投入非常高。另一方面,这些gpu的利用率比较低。原因主要来源于两方面:

2、1)智算中心以包租gpu服务器集群的方式对外提供服务,客户的需求与智算中心的供给之间存在不匹配。例如,智算中心有1万张gpu卡。例如某年前半年,a客户承租其中5000张卡,b客户承租3000张卡。c客户从第三季度开始承租8000张卡。则整年度有1-((3000+5000)*3+8000*3)/10000*12)*100%=60%的gpu卡是未被使用的。

3、2)被租赁出去的gpu卡本身的利用率也不高。用于大模型训练的gpu的80%用于单独一个模型的训练,另外20%用于数据清洗等辅助功能。其中,用于数据清洗等辅助功能的gpu也存在利用率不高的问题。

4、因此,提高智算中心gpu利用率成为急需解决的问题。业界一直在对如何更优化地使用gpu资源进行探索,例如gpu虚拟化技术。但该技术限定了只能使用本机的gpu资源,常用于多租户共享一个本机gpu的场景。而智算中心的所出租的gpu算力往往是面向单租户的,即其硬件、软件架构的设计是为一个用户“独占”而设计的,无法共享给多个租户,因此现有gpu虚拟化技术无法解决智算中心gpu利用率低的问题。


技术实现思路

1、本专利技术的目的就是为了提供一种解决gpu利用率问题的提高智算中心gpu利用率的框架及方法。

2、本专利技术的目的可以通过以下技术方案来实现:

3、一种提高智算中心gpu利用率的框架,包括基础算力区、智能算力区和数据存储区,

4、所述基础算力区包括通用计算节点、部署有云操作系统的网络设备、智算应用程序、包装库和调度引擎,所述基础算力区用于智算应用程序接收用户智算任务的api调用请求并调用包装库,包装库拦截、转发用户的api调用请求并调用调度引擎,调度引擎感知智能算力区的gpu空闲状态并根据调度算法选择目标gpu;

5、所述智能算力区包括gpu服务器节点、代理程序和智算api,所述智能算力区用于代理程序将gpu空闲状态报告给调度引擎、接收包装库的api调用请求以及调用智算api,智算api根据目标gpu执行智算任务,并将执行结果通过代理程序和包装库返回给智算应用程序;

6、所述数据存储区用于为所述基础算力区和智能算力区提供文件存储、块存储和对象存储服务。

7、进一步地,所述智算应用程序运行在虚拟机中。

8、进一步地,所述包装库安装在智能镜像中。

9、进一步地,所述包装库是智算库中的api函数进行封装后形成的一系列包装函数集合。

10、进一步地,所述gpu服务器节点通过叶脊网络进行互联。

11、进一步地,根据调度算法选择目标gpu的具体步骤包括:

12、检查是否存在空闲的gpu服务器节点,若存在,则随机选择空闲的gpu服务器节点作为目标gpu,若否,则从算力辅助服务器中选择最近一天使用率最低的gpu作为目标gpu。

13、进一步地,所述调度算法的表达公式为:

14、

15、其中,

16、

17、

18、

19、式中,s为最终选择的目标gpu,g(i,j,l)表示第i个集群的第j个服务器的第l个gpu,u(i,j,l)表示g(i,j,l)的使用率,m表示每个集群中gpu服务器的数量,r(i,j)表示第i个集群的第j个服务器是否是算力辅助服务器,k表示每个服务器中gpu的数量。

20、进一步地,所述代理程序和智算api运行在gpu服务器节点的虚拟机中或者直接运行在gpu服务器节点上。

21、进一步地,所述调度引擎采用开源kubernetes实现。

22、本专利技术还提供一种基于上述所述的提高智算中心gpu利用率的框架的智算任务处理方法,包括以下步骤:

23、智算应用程序获取用户智算任务的api调用请求,并发送给包装库;

24、包装库对api调用请求进行拦截,并调用调度引擎查询智能算力区的gpu空闲情况;

25、调度引擎接收代理程序返回的gpu空闲情况,采用调度算法选择目标gpu,并将目标gpu对应的代理程序ip地址返回至包装库;

26、包装库根据ip地址,将api调用请求转发给对应的代理程序;

27、对应的代理程序调用智算api执行智算任务,并将对应的代理程序和包装库返回给智算应用程序。

28、与现有技术相比,本专利技术具有以下有益效果:

29、(1)本专利技术的调度引擎通过调度策略将基础算力区中gpu算力调度到智能算力区中的目标gpu上运行,通过合理地选择目标gpu执行智算任务从而提高智算中心gpu利用率。

30、(2)本专利技术提供的框架针对多用户进行设计,可以共享给多个租户,进一步提高gpu利用率。

31、(3)本专利技术没有改变算力中心现有的网络拓扑,通过包装库、网络调度、任务叠加、硬件复用的手段,让gpu集群的闲置部分可以被调度分配给多租户的基础算力区中,从而帮助基础算力区实现算法加速、并行计算,以提高智算中心整体的gpu利用率。

本文档来自技高网...

【技术保护点】

1.一种提高智算中心GPU利用率的框架,其特征在于,包括基础算力区、智能算力区和数据存储区,

2.根据权利要求1所述的一种提高智算中心GPU利用率的框架,其特征在于,所述智算应用程序(1)运行在虚拟机中。

3.根据权利要求1所述的一种提高智算中心GPU利用率的框架,其特征在于,所述包装库(2)安装在智能镜像中。

4.根据权利要求1所述的一种提高智算中心GPU利用率的框架,其特征在于,所述包装库(2)是智算库中的API函数进行封装后形成的一系列包装函数集合。

5.根据权利要求1所述的一种提高智算中心GPU利用率的框架,其特征在于,所述GPU服务器节点通过叶脊网络进行互联。

6.根据权利要求1所述的一种提高智算中心GPU利用率的框架,其特征在于,根据调度算法选择目标GPU的具体步骤包括:

7.根据权利要求6所述的一种提高智算中心GPU利用率的框架,其特征在于,所述调度算法的表达公式为:

8.根据权利要求1所述的一种提高智算中心GPU利用率的框架,其特征在于,所述代理程序(4)和智算API(5)运行在GPU服务器节点的虚拟机中或者直接运行在GPU服务器节点上。

9.根据权利要求1所述的一种提高智算中心GPU利用率的框架,其特征在于,所述调度引擎(3)采用开源Kubernetes实现。

10.一种基于权利要求1-9任一所述的提高智算中心GPU利用率的框架的智算任务处理方法,其特征在于,包括以下步骤:

...

【技术特征摘要】

1.一种提高智算中心gpu利用率的框架,其特征在于,包括基础算力区、智能算力区和数据存储区,

2.根据权利要求1所述的一种提高智算中心gpu利用率的框架,其特征在于,所述智算应用程序(1)运行在虚拟机中。

3.根据权利要求1所述的一种提高智算中心gpu利用率的框架,其特征在于,所述包装库(2)安装在智能镜像中。

4.根据权利要求1所述的一种提高智算中心gpu利用率的框架,其特征在于,所述包装库(2)是智算库中的api函数进行封装后形成的一系列包装函数集合。

5.根据权利要求1所述的一种提高智算中心gpu利用率的框架,其特征在于,所述gpu服务器节点通过叶脊网络进行互联。

6.根据权利要求1所述...

【专利技术属性】
技术研发人员:刘超
申请(专利权)人:上海仪电集团有限公司中央研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1