资源配置的监控方法、装置、系统及可读存储介质制造方法及图纸

技术编号:42143231 阅读:23 留言:0更新日期:2024-07-26 23:59
本公开提供了一种资源配置的监控方法、装置、系统及可读存储介质。资源配置的监控方法包括:获取服务器集群中的每个GPU节点上的各个GPU的属性信息,其中,GPU节点为所述服务器集群中部署有GPU的服务器;获取为在所述服务器集群上运行的任务已配置的GPU资源的信息;基于获取的各个GPU的属性信息和已配置的GPU资源的信息,更新每个GPU节点上的各个GPU的使用情况信息。

【技术实现步骤摘要】

本公开总体说来涉及数据处理领域,更具体地讲,涉及一种资源配置的监控方法、装置、系统及可读存储介质


技术介绍

1、近年来,随着人工智能技术的发展,越来越多的机器学习任务需要处理大量的并行数据,其算力需求已经超过了传统cpu所能提供的算力极限,因而,需要在机器学习领域能够取代cpu的算力设备。gpu(graphics processing unit)图形处理器可作为人工智能加速卡使用,有效支持各种算法模型。

2、kubernetes(也称为k8s或“kube”)是一个开源的容器编排平台,可以自动化在部署、管理和扩展容器化应用过程中涉及的许多手动操作。其也是目前最主流的集群组织和容器编排工具。

3、为了提升在k8s平台中的gpu利用率,支持多个容器复用同一个gpu设备,并在容器内保证资源的隔离。然而,在一些情况下,集群的剩余gpu资源看似能满足任务需求,但实际上没有任何节点上的gpu具备运行该任务的条件,这给集群运维带来了问题。


技术实现思路

1、本公开的示例性实施例在于提供一种资源配置的本文档来自技高网...

【技术保护点】

1.一种资源配置的监控方法,其特征在于,包括:

2.如权利要求1所述的监控方法,其特征在于,还包括:

3.如权利要求1所述的监控方法,其特征在于,GPU资源包括:GPU中的显存和算力。

4.如权利要求1所述的监控方法,其特征在于,获取服务器集群中的每个GPU节点上的各个GPU的属性信息的步骤包括:

5.如权利要求1所述的监控方法,其特征在于,获取为在所述服务器集群上运行的任务已配置的GPU资源的信息的步骤包括:

6.如权利要求5所述的监控方法,其特征在于,GPU资源的信息包括以下项之中的至少一项:所属的GPU的标识信息、显存大小...

【技术特征摘要】

1.一种资源配置的监控方法,其特征在于,包括:

2.如权利要求1所述的监控方法,其特征在于,还包括:

3.如权利要求1所述的监控方法,其特征在于,gpu资源包括:gpu中的显存和算力。

4.如权利要求1所述的监控方法,其特征在于,获取服务器集群中的每个gpu节点上的各个gpu的属性信息的步骤包括:

5.如权利要求1所述的监控方法,其特征在于,获取为在所述服务器集群上运行的任务已配置的gpu资源的信息的步骤包括:

6.如权利要求5所述的监控方法,其特征在于,g...

【专利技术属性】
技术研发人员:李孟轩
申请(专利权)人:第四范式北京技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1