【技术实现步骤摘要】
本专利技术涉及服务器,尤其涉及一种gpu资源占用状态的检测方法、装置、设备及存储介质。
技术介绍
1、在数据中心中,通常部署众多的计算节点,每个计算节点部署多个图形处理器(graphics processing unit,gpu)。具体地,在机器学习模型的开发场景下,机器学习平台通常会将用户的开发环境以容器的形式调度到某个满足gpu资源需求的计算节点上,以使用该计算节点的gpu等硬件资源。在模型的开发(而非训练)场景下,工程师对gpu资源的使用往往是离散的,通常存在如图1所示的循环。
2、通常机器学习平台将gpu资源分配给某个用户的开发环境(容器)后,通过gpu的显存使用量、是否存在进程占用等指标对gpu资源占用状态进行检测。然而,这种较为单一或粗糙的检测方式,无法精确判断gpu资源是否真正被使用,造成gpu资源处在被分配给某些容器或程序但实际空闲的状态,无法被合理利用起来的问题。并且,工程师在日间工作,夜间时gpu资源则是闲置的,有明显的潮汐现象。因此,更需要精确检测这些gpu资源的实际占用状态,是否需要回收,以便释放给其
...【技术保护点】
1.一种GPU资源占用状态的检测方法,其特征在于,包括:
2.根据权利要求1所述的GPU资源占用状态的检测方法,其特征在于,所述针对目标机器的多个目标指标,在所述目标机器处于空载状态的情况下,对多个所述目标指标进行采集标定,得到多个所述目标指标各自对应的指标空载基准值时间序列,包括:
3.根据权利要求2所述的GPU资源占用状态的检测方法,其特征在于,所述获取所述目标指标在连续多个第一时间窗口的所述指标空载基准值,包括:
4.根据权利要求2或3所述的GPU资源占用状态的检测方法,其特征在于,所述在所述目标机器处于运行状态的情况下,对多
...【技术特征摘要】
1.一种gpu资源占用状态的检测方法,其特征在于,包括:
2.根据权利要求1所述的gpu资源占用状态的检测方法,其特征在于,所述针对目标机器的多个目标指标,在所述目标机器处于空载状态的情况下,对多个所述目标指标进行采集标定,得到多个所述目标指标各自对应的指标空载基准值时间序列,包括:
3.根据权利要求2所述的gpu资源占用状态的检测方法,其特征在于,所述获取所述目标指标在连续多个第一时间窗口的所述指标空载基准值,包括:
4.根据权利要求2或3所述的gpu资源占用状态的检测方法,其特征在于,所述在所述目标机器处于运行状态的情况下,对多个所述目标指标进行采集标定,得到多个所述目标指标各自对应的指标运行标定值,包括:
5.根据权利要求4所述的gpu资源占用状态的检测方法,其特征在于,所述获取所述目标指标在第二时间窗口的所述指标运行标定值,包括:
6.根据权利要求4所述的gpu资源占用状态的检测方法,其特征在于,所述基于预先配置的占用判别算法,对各所述目标指标的指标运行标定值和所述指标空载基准值时间序列中对应的指标空载基准值进行判别,得到所述目标gpu资源的实时占用状态,包括:
7.根据权利要求6所述的gpu资源占用状态的检测方法,其特征在于,所述基于预设时间范围内的所述目标gpu资源的实时占用状态,检测所述目标gpu资源的持续占用状态,包括:
8.根据权利要...
【专利技术属性】
技术研发人员:请求不公布姓名,
申请(专利权)人:上海壁仞科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。