【技术实现步骤摘要】
本公开总体说来涉及数据处理领域,更具体地讲,涉及一种资源配置的监控方法、装置、系统及可读存储介质。
技术介绍
1、近年来,随着人工智能技术的发展,越来越多的机器学习任务需要处理大量的并行数据,其算力需求已经超过了传统cpu所能提供的算力极限,因而,需要在机器学习领域能够取代cpu的算力设备。gpu(graphics processing unit)图形处理器可作为人工智能加速卡使用,有效支持各种算法模型。
2、kubernetes(也称为k8s或“kube”)是一个开源的容器编排平台,可以自动化在部署、管理和扩展容器化应用过程中涉及的许多手动操作。其也是目前最主流的集群组织和容器编排工具。
3、为了提升在k8s平台中的gpu利用率,支持多个容器复用同一个gpu设备,并在容器内保证资源的隔离。然而,在一些情况下,集群的剩余gpu资源看似能满足任务需求,但实际上没有任何节点上的gpu具备运行该任务的条件,这给集群运维带来了问题。
技术实现思路
1、本公开的示例性实施例在
...【技术保护点】
1.一种资源配置的监控方法,其特征在于,包括:
2.如权利要求1所述的监控方法,其特征在于,还包括:
3.如权利要求1所述的监控方法,其特征在于,GPU资源包括:GPU中的显存和算力。
4.如权利要求1所述的监控方法,其特征在于,获取服务器集群中的每个GPU节点上的各个GPU的属性信息的步骤包括:
5.如权利要求1所述的监控方法,其特征在于,获取为在所述服务器集群上运行的任务已配置的GPU资源的信息的步骤包括:
6.如权利要求5所述的监控方法,其特征在于,GPU资源的信息包括以下项之中的至少一项:所属的GPU
...【技术特征摘要】
1.一种资源配置的监控方法,其特征在于,包括:
2.如权利要求1所述的监控方法,其特征在于,还包括:
3.如权利要求1所述的监控方法,其特征在于,gpu资源包括:gpu中的显存和算力。
4.如权利要求1所述的监控方法,其特征在于,获取服务器集群中的每个gpu节点上的各个gpu的属性信息的步骤包括:
5.如权利要求1所述的监控方法,其特征在于,获取为在所述服务器集群上运行的任务已配置的gpu资源的信息的步骤包括:
6.如权利要求5所述的监控方法,其特征在于,g...
【专利技术属性】
技术研发人员:李孟轩,
申请(专利权)人:第四范式北京技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。