System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种自动化管理Kata集群GPU资源的方法技术_技高网

一种自动化管理Kata集群GPU资源的方法技术

技术编号:40951119 阅读:2 留言:0更新日期:2024-04-18 20:26
本发明专利技术公开了一种自动化管理Kata集群GPU资源的方法,包括以下步骤:S1:gpu‑agent组件对节点gpu卡信息进行采集;S2:gpu‑agent组件持续上报当前节点的gpu卡的总数和已使用的相关信息给gpu‑controller组件;S3:gpu‑controller组件自动给对应的node打上csk.ctyun.cn/gpu=true的标签;S4:用户对应用进行部署;S5:gpu‑controller组件根据用户所创建的pod去进行节点调度并管理gpu。本发明专利技术支持gpu节点的自动发现,自动上报;支持gpu服务在整个集群的纬度进行调度;运维简单,不需要手动给节点打gpu标签;支持gpu碎片化整理,提高资源利用率;gpu‑controller组件可以实现服务在整个集群下的任意调度,不需要指定某一个节点;支持gpu卡的自动发现、不需要手动给节点打标签;在serverless容器服务产品里,kata集群进行gpu管理。

【技术实现步骤摘要】

本专利技术涉及存储,尤其涉及一种自动化管理kata集群gpu资源的方法。


技术介绍

1、在serverless容器产品,kata集群的部分节点上有gpu卡,我们想在kata集群为用户支持gpu的调度能力,希望能支持gpu卡的自动发现和自动上报,gpu服务的自动调度和碎片化整理,并减少运维成本和用户的学习成本,目前并没有满足条件的相关产品。

2、现有技术下的产品大多都缺少以下特性:kata集群内所有节点的gpu卡的自动发现、自动上报;gpu服务的自动调度、故障迁移;整个集群视角的gpu分布管理;用户简单上手,低学习成本,因此实现这些特性是gpu管理、容器服务和kata集群存储领域的重要问题。


技术实现思路

1、本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊,而这种简化或省略不能用于限制本专利技术的范围。

2、鉴于上述现有技术下存在的问题,提出了本专利技术。

3、因此,本专利技术目的是提供一种自动化管理kata集群gpu资源的方法,其为了解决现有的问题。

4、为解决上述技术问题,本专利技术提供如下技术方案:

5、一种自动化管理kata集群gpu资源的方法,包括以下步骤:

6、s1:gpu-agent组件对节点gpu卡信息进行采集;

7、s2:gpu-agent组件持续上报当前节点的gpu卡的总数和已使用的相关信息给gpu-controller组件;

8、s3:gpu-controller组件自动给对应的node打上csk.ctyun.cn/gpu=true的标签;

9、s4:用户对应用进行部署;

10、s5:gpu-controller组件根据用户所创建的pod去进行节点调度并管理gpu。

11、作为本专利技术所述一种自动化管理kata集群gpu资源的方法的一种优选方案,其中,所述步骤s1中,所述gpu-agent组件部署在每个kata集群节点。

12、作为本专利技术所述一种自动化管理kata集群gpu资源的方法的一种优选方案,其中,所述步骤s4中,用户部署应用的具体操作为:在pod的spec.nodeselector指定csk.ctyun.cn/gpu=true,在metadata.annotations里添加gpu.csk.ctyun.cn=n。

13、作为本专利技术所述一种自动化管理kata集群gpu资源的方法的一种优选方案,其中,所述gpu.csk.ctyun.cn=n中末端的n为所需的gpu网卡数量。

14、作为本专利技术所述一种自动化管理kata集群gpu资源的方法的一种优选方案,其中,所述gpu-agent组件用于进行节点上gpu网卡的自动采集和自动上报,所述gpu-agent组件用于自动探测该节点上的gpu卡信息并在当添加新的gpu卡时进行自动上报。

15、作为本专利技术所述一种自动化管理kata集群gpu资源的方法的一种优选方案,其中,所述gpu-agent组件用于自动上报当前节点gpu卡的使用信息。

16、作为本专利技术所述一种自动化管理kata集群gpu资源的方法的一种优选方案,其中,所述gpu-controller组件用于维护gpu-agent上报的信息,gpu-agent上报的信息包括节点是否为gpu类型、节点的gpu网卡总数和节点的gpu网卡剩余量。

17、作为本专利技术所述一种自动化管理kata集群gpu资源的方法的一种优选方案,其中,所述gpu-controller组件用于责用户创建的pod调度,所述gpu-controller组件为pod选择调度到容量充足的gpu节点。

18、作为本专利技术所述一种自动化管理kata集群gpu资源的方法的一种优选方案,其中,所述gpu-controller组件用于进行碎片整理,所述gpu-controller组件优先调度到存留gpu碎片的节点,如某节点只剩余2张gpu卡,当创建只需要2张gpu卡的pod将优先调度到该节点。

19、作为本专利技术所述一种自动化管理kata集群gpu资源的方法的一种优选方案,其中,所述gpu-controller组件用于统一管理平面,用户可以查询整个集群所有gpu卡分布的详细信息。

20、本专利技术的有益效果:

21、1、支持gpu节点的自动发现,自动上报;支持gpu服务在整个集群的纬度进行调度;运维简单,不需要手动给节点打gpu标签。

22、2、支持gpu碎片化整理,提高资源利用率;gpu-controller组件可以实现服务在整个集群下的任意调度,不需要指定某一个节点;支持gpu卡的自动发现、不需要手动给节点打标签。

23、3、在serverless容器服务产品里,kata集群进行gpu管理;解决gpu节点的自动发现、容器gpu资源的自动调度;用户在pod部署时支持申明gpu卡;碎片整理提高gpu的利用率,减少资源成本;中性化管理kata集群的gpu资源,提高运维能力;gpu节点出故障时自动调度服务到其他gpu节点,提高服务高可用能力。

本文档来自技高网...

【技术保护点】

1.一种自动化管理Kata集群GPU资源的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种自动化管理Kata集群GPU资源的方法,其特征在于,所述步骤S1中,所述gpu-agent组件部署在每个kata集群节点。

3.根据权利要求1所述的一种自动化管理Kata集群GPU资源的方法,其特征在于,所述步骤S4中,用户部署应用的具体操作为:在pod的spec.nodeSelector指定csk.ctyun.cn/gpu=true,在metadata.annotations里添加gpu.csk.ctyun.cn=n。

4.根据权利要求3所述的一种自动化管理Kata集群GPU资源的方法,其特征在于,所述gpu.csk.ctyun.cn=n中末端的n为所需的gpu网卡数量。

5.根据权利要求1所述的一种自动化管理Kata集群GPU资源的方法,其特征在于,所述gpu-agent组件用于进行节点上gpu网卡的自动采集和自动上报,所述gpu-agent组件用于自动探测该节点上的gpu卡信息并在当添加新的gpu卡时进行自动上报。

<p>6.根据权利要求1所述的一种自动化管理Kata集群GPU资源的方法,其特征在于,所述gpu-agent组件用于自动上报当前节点gpu卡的使用信息。

7.根据权利要求1所述的一种自动化管理Kata集群GPU资源的方法,其特征在于,所述gpu-controller组件用于维护gpu-agent上报的信息,gpu-agent上报的信息包括节点是否为gpu类型、节点的gpu网卡总数和节点的gpu网卡剩余量。

8.根据权利要求1所述的一种自动化管理Kata集群GPU资源的方法,其特征在于,所述gpu-controller组件用于责用户创建的pod调度,所述gpu-controller组件为pod选择调度到容量充足的gpu节点。

9.根据权利要求1所述的一种自动化管理Kata集群GPU资源的方法,其特征在于,所述gpu-controller组件用于进行碎片整理,所述gpu-controller组件优先调度到存留gpu碎片的节点,如某节点只剩余2张gpu卡,当创建只需要2张gpu卡的pod将优先调度到该节点。

10.根据权利要求1所述的一种自动化管理Kata集群GPU资源的方法,其特征在于,所述gpu-controller组件用于统一管理平面,用户可以查询整个集群所有gpu卡分布的详细信息。

...

【技术特征摘要】

1.一种自动化管理kata集群gpu资源的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种自动化管理kata集群gpu资源的方法,其特征在于,所述步骤s1中,所述gpu-agent组件部署在每个kata集群节点。

3.根据权利要求1所述的一种自动化管理kata集群gpu资源的方法,其特征在于,所述步骤s4中,用户部署应用的具体操作为:在pod的spec.nodeselector指定csk.ctyun.cn/gpu=true,在metadata.annotations里添加gpu.csk.ctyun.cn=n。

4.根据权利要求3所述的一种自动化管理kata集群gpu资源的方法,其特征在于,所述gpu.csk.ctyun.cn=n中末端的n为所需的gpu网卡数量。

5.根据权利要求1所述的一种自动化管理kata集群gpu资源的方法,其特征在于,所述gpu-agent组件用于进行节点上gpu网卡的自动采集和自动上报,所述gpu-agent组件用于自动探测该节点上的gpu卡信息并在当添加新的gpu卡时进行自动上报。

6.根据权利要求1所述的一种自动化管理kata集群gpu资源的方法,其特...

【专利技术属性】
技术研发人员:李召徐兴文张润江徐赛毛燕茹李蕊材
申请(专利权)人:天翼云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1