一种GPU资源管理方法及装置制造方法及图纸

技术编号:31015400 阅读:9 留言:0更新日期:2021-11-30 02:55
本申请涉及虚拟化技术领域,特别涉及一种GPU资源管理方法及装置。该方法包括:监测各主机的GPU的运行状态;若监测到目标主机的第一GPU的运行状态为非健康状态,则确定出所述目标主机中当前使用所述第一GPU的目标虚拟机;将至少一个所述目标虚拟机当前使用的GPU由所述第一GPU调整为运行状态为健康状态的其它GPU。GPU。GPU。

【技术实现步骤摘要】
一种GPU资源管理方法及装置


[0001]本申请涉及虚拟化
,特别涉及一种GPU资源管理方法及装置。

技术介绍

[0002]GPU(Graphics Processing Unit,图像处理器)是一种专门做图像和图形相关运算工作的微处理器,被广泛应用于云桌面、AI、公有云等领域。面对大量的图形显示和计算需求,主机上1个GPU硬件被拆分成多个vGPU设备提供给更多虚拟机使用。当多个虚拟机在同一时间内大量使用vGPU能力时,会造成GPU资源抢占、GPU任务调度、硬件温度升高导致的GPU性能大幅下降甚至无法使用的情况。目前,当出现这类问题时只能通过暂停业务、或者等待的方式来缓解GPU的压力,这是用户不愿意接受的。

技术实现思路

[0003]本申请提供了一种GPU资源管理方法及装置,用以解决现有技术中存在的多个虚拟机抢占GPU资源而导致GPU不可用的问题。
[0004]第一方面,本申请提供了一种GPU资源管理方法,所述方法包括:
[0005]监测各主机的GPU的运行状态;
[0006]若监测到目标主机的第一GPU的运行状态为非健康状态,则确定出所述目标主机中当前使用所述第一GPU的目标虚拟机;
[0007]将至少一个所述目标虚拟机当前使用的GPU由所述第一GPU调整为运行状态为健康状态的其它GPU。
[0008]可选地,监测各主机的GPU的运行状态的步骤包括:
[0009]基于预设的周期获取各主机的各GPU的性能参数;
[0010]基于获取到的各GPU的性能参数和预设的各性能参数的权重值,分别计算各GPU的健康值;
[0011]其中,若一个GPU的健康值小于预设值,则判定该GPU的运行状态为非健康状态;否则,判定该GPU的运行状态为健康状态。
[0012]可选地,将至少一个所述目标虚拟机当前使用的GPU由所述第一GPU调整为运行状态为健康状态的其它GPU的步骤包括:
[0013]判断所述目标主机上是否存在运行状态为健康状态的第二GPU;
[0014]若判定所述目标主机上存在运行状态为健康状态的第二GPU,则分别计算所述目标虚拟机的繁忙程度;
[0015]将繁忙程度最高的所述目标虚拟机的当前使用的GPU由所述第一GPU调整为所述第二GPU。
[0016]可选地,所述方法还包括:
[0017]若判定所述目标主机上不存在运行状态为健康状态的第二GPU,则判断其它主机上是否存在运行状态为健康状态的第三GPU;
[0018]若判定其它主机上存在运行状态为健康状态的第三GPU,则将繁忙程度最高的所述目标虚拟机迁移至所述其它主机上,并将繁忙程度最高的所述目标虚拟机当前使用的GPU由所述第一GPU调整为所述第三GPU。
[0019]可选地,所述方法还包括:
[0020]在将任意一个所述目标虚拟机的当前使用的GPU由所述第一GPU调整为其他GPU之后,若监测到所述目标GPU的运行状态仍为非健康状态,则将当前繁忙程度最高的所述目标虚拟机当前使用的GPU由所述第一GPU调整为其它GPU,直至所述目标GPU的运行状态为健康状态。
[0021]第二方面,本申请提供了一种GPU资源管理装置,所述装置包括:
[0022]监测单元,用于监测各主机的GPU的运行状态;
[0023]确定单元,若所述监测单元监测到目标主机的第一GPU的运行状态为非健康状态,则所述确定单元,用于确定出所述目标主机中当前使用所述第一GPU的目标虚拟机;
[0024]调整单元,用于将至少一个所述目标虚拟机当前使用的GPU由所述第一GPU调整为运行状态为健康状态的其它GPU。
[0025]可选地,监测各主机的GPU的运行状态时,所述监测单元具体用于:
[0026]基于预设的周期获取各主机的各GPU的性能参数;
[0027]基于获取到的各GPU的性能参数和预设的各性能参数的权重值,分别计算各GPU的健康值;
[0028]其中,若一个GPU的健康值小于预设值,则判定该GPU的运行状态为非健康状态;否则,判定该GPU的运行状态为健康状态。
[0029]可选地,将至少一个所述目标虚拟机当前使用的GPU由所述第一GPU调整为运行状态为健康状态的其它GPU时,所述调整单元具体用于:
[0030]判断所述目标主机上是否存在运行状态为健康状态的第二GPU;
[0031]若判定所述目标主机上存在运行状态为健康状态的第二GPU,则分别计算所述目标虚拟机的繁忙程度;
[0032]将繁忙程度最高的所述目标虚拟机的当前使用的GPU由所述第一GPU调整为所述第二GPU。
[0033]可选地,所述调整单元还用于:
[0034]若判定所述目标主机上不存在运行状态为健康状态的第二GPU,则判断其它主机上是否存在运行状态为健康状态的第三GPU;
[0035]若判定其它主机上存在运行状态为健康状态的第三GPU,则将繁忙程度最高的所述目标虚拟机迁移至所述其它主机上,并将繁忙程度最高的所述目标虚拟机当前使用的GPU由所述第一GPU调整为所述第三GPU。
[0036]可选地,在所述调整单元将任意一个所述目标虚拟机的当前使用的GPU由所述第一GPU调整为其他GPU之后,若所述监测单元监测到所述目标GPU的运行状态仍为非健康状态,则所述调整单元还用于,将当前繁忙程度最高的所述目标虚拟机当前使用的GPU由所述第一GPU调整为其它GPU,直至所述目标GPU的运行状态为健康状态。
[0037]第三方面,本申请实施例提供一种GPU资源管理装置,该装置包括:
[0038]存储器,用于存储程序指令;
[0039]处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行如上述第一方面中任一项所述的方法的步骤。
[0040]第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使所述计算机执行如上述第一方面中任一项所述方法的步骤。
[0041]综上可知,本申请实施例提供的GPU资源管理方法,监测各主机的GPU的运行状态;若监测到目标主机的第一GPU的运行状态为非健康状态,则确定出所述目标主机中当前使用所述第一GPU的目标虚拟机;将至少一个所述目标虚拟机当前使用的GPU由所述第一GPU调整为运行状态为健康状态的其它GPU。
[0042]采用本申请实施例提供的GPU资源管理方法,能够动态监测GPU的健康状态,当大量的vGPU资源被使用导致GPU性能下降时,可主动将GPU的使用压力分担到其他GPU卡上,达到负载均衡的效果,并降低GPU发生异常情况导致用户业务受影响程度,达到短时间内恢复业务的效果。
附图说明
[0043]为了更加清楚地说明本申请实施例或者现有技术中的技术方案,下面将对本申请实施例或者现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种GPU资源管理方法,其特征在于,所述方法包括:监测各主机的GPU的运行状态;若监测到目标主机的第一GPU的运行状态为非健康状态,则确定出所述目标主机中当前使用所述第一GPU的目标虚拟机;将至少一个所述目标虚拟机当前使用的GPU由所述第一GPU调整为运行状态为健康状态的其它GPU。2.如权利要求1所述的方法,其特征在于,监测各主机的GPU的运行状态的步骤包括:基于预设的周期获取各主机的各GPU的性能参数;基于获取到的各GPU的性能参数和预设的各性能参数的权重值,分别计算各GPU的健康值;其中,若一个GPU的健康值小于预设值,则判定该GPU的运行状态为非健康状态;否则,判定该GPU的运行状态为健康状态。3.如权利要求1所述的方法,其特征在于,将至少一个所述目标虚拟机当前使用的GPU由所述第一GPU调整为运行状态为健康状态的其它GPU的步骤包括:判断所述目标主机上是否存在运行状态为健康状态的第二GPU;若判定所述目标主机上存在运行状态为健康状态的第二GPU,则分别计算所述目标虚拟机的繁忙程度;将繁忙程度最高的所述目标虚拟机的当前使用的GPU由所述第一GPU调整为所述第二GPU。4.如权利要求3所述的方法,其特征在于,所述方法还包括:若判定所述目标主机上不存在运行状态为健康状态的第二GPU,则判断其它主机上是否存在运行状态为健康状态的第三GPU;若判定其它主机上存在运行状态为健康状态的第三GPU,则将繁忙程度最高的所述目标虚拟机迁移至所述其它主机上,并将繁忙程度最高的所述目标虚拟机当前使用的GPU由所述第一GPU调整为所述第三GPU。5.如权利要求3或4所述的方法,其特征在于,所述方法还包括:在将任意一个所述目标虚拟机的当前使用的GPU由所述第一GPU调整为其他GPU之后,若监测到所述目标GPU的运行状态仍为非健康状态,则将当前繁忙程度最高的所述目标虚拟机当前使用的GPU由所述第一GPU调整为其它GPU,直至所述目标GPU的运行状态为健康状态。6.一种GPU资源管理装置,其特征在于,所述装置包括:监测单元,用于监测各主机...

【专利技术属性】
技术研发人员:王勇
申请(专利权)人:新华三大数据技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1