一种图像处理器GPU监控方法、装置、设备和存储介质制造方法及图纸

技术编号:37786476 阅读:28 留言:0更新日期:2023-06-09 09:16
本发明专利技术实施例提供了一种图像处理器GPU监控方法、装置、设备和存储介质,该方法包括:执行故障诊断脚本,通过故障诊断脚本检测GPU的不可纠正错误UCE和可纠正错误CE;当检测到发生UCE和CE,且发生UCE的次数和发生CE的次数达到预设次数阈值时,通过智能平台管理接口IPMI采集GPU的机器检查架构MCA寄存器数据;MCA寄存器数据包括GPU的运行时间;根据MCA寄存器数据,在预设诊断规则表中查询GPU的剩余使用寿命,向用户展示GPU的剩余使用寿命。本发明专利技术通过获取GPU的MCA寄存器数据确定GPU的剩余使用寿命,便于用户实时了解GPU的剩余使用寿命,从而实现对GPU的及时更换,降低宕机发生概率。降低宕机发生概率。降低宕机发生概率。

【技术实现步骤摘要】
一种图像处理器GPU监控方法、装置、设备和存储介质


[0001]本专利技术涉及计算机
,特别是涉及一种图像处理器GPU监控方法、装置、设备和存储介质。

技术介绍

[0002]基板管理控制器BMC(Baseboard Management Controller基板管理控制器)通过Pcie(peripheral component interconnect express,高速串行计算机扩展总线)或者SMBus(System Management Bus,系统管理总线)管理服务器设备,BMC支持I2C协议获取服务器设备的厂商信息、温度、电压、健康状态等,但无法监测GPU(Graphics processing unit,图形处理器)的剩余使用寿命,导致用户并不能对GPU进行及时更换,增加了宕机的可能性。

技术实现思路

[0003]鉴于上述问题,提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种图像处理器GPU监控方法、装置、设备和存储介质。
[0004]为了解决上述问题,本专利技术实施例公开本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种图像处理器GPU监控方法,其特征在于,应用于基板管理控制器BMC,所述BMC与所述GPU连接,所述方法包括:执行故障诊断脚本,通过所述故障诊断脚本检测所述GPU的不可纠正错误UCE和可纠正错误CE;当检测到发生所述UCE和CE,且发生UCE的次数和发生CE的次数达到预设次数阈值时,通过智能平台管理接口IPMI采集所述GPU的机器检查架构MCA寄存器数据;所述MCA寄存器数据包括所述GPU的运行时间;根据所述MCA寄存器数据,在预设诊断规则表中查询所述GPU的剩余使用寿命,所述预设诊断规则表中所述GPU的运行时间与所述GPU的剩余使用寿命一一对应;向用户展示所述GPU的剩余使用寿命。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述GPU的系统日志信息,根据所述系统日志信息判断所述GPU是否存在驱动错误信息;若所述GPU存在驱动错误信息,则确定所述GPU驱动错误,并输出所述驱动错误信息。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述GPU渲染图像的频率值;判断所述GPU渲染图像的频率值是否位于预设频率区间;若所述GPU渲染图像的频率值位于所述预设频率区间,则确定所述GPU渲染正常。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:若所述GPU渲染图像的频率值位于预设频率区间外,则对所述GPU的渲染配置参数进行调整,以使得所述GPU渲染图像的频率位于所述预设频率区间。5.根据权利要求4所述的方法,其特征在于,所述预设频率区间包括最小值和最大值,所述对所述GPU的渲染配置参数进行调整,包括:当所述GPU渲染图像的频率值低于所述最小值时,则上调所述GPU的渲染配置参数中的单帧渲染时长值;当所述GPU渲染图像的频率值高于所述最大值时,则下调所述GP...

【专利技术属性】
技术研发人员:麻书卫
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1