【技术实现步骤摘要】
故障GPU的预测方法、装置、电子设备及存储介质
[0001]本公开涉及计算机
,具体地,涉及一种故障GPU的预测方法、装置、电子设备及存储介质。
技术介绍
[0002]随着智能终端的快速普及,图形处理器(Graphic Processing Unit,GPU)在通用计算领域的使用越来越广泛,拥有几百个计算核心的GPU,在计算能力上可以达到每秒万亿次浮点运算(Tera Floating
‑
Point Operations Per Second,TFLOPS)。在通用计算领域,GPU强大的浮点运算能力是中央处理器(Central Processing Unit,CPU)无法比拟的,GPU的通用计算能力,可以弥补CPU并行计算能力的不足。
[0003]在相关技术为了便于了解GPU集群中的每个GPU的状态,会在每个GPU的节点上部署一个守护进程,通过守护进程收集GPU的型号、温度、功耗、使用时间、使用状态等GPU信息,然后展示GPU信息,并在根据GPU信息确定GPU产生故障时,进行报警。
[0004]然而,这种方式只有在检测到GPU产生故障时,才进行报警,告知用户端GPU产生了故障,此后,用户端才会更换GPU、或将产生故障的GPU的程序迁移到其他GPU上去执行,这样会影响业务的正常进行。
技术实现思路
[0005]提供该部分内容以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该部分内容并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用 ...
【技术保护点】
【技术特征摘要】
1.一种故障GPU的预测方法,其特征在于,包括:获取多个GPU中每个GPU的参数信息,得到参数信息集合;将所述参数信息集合输入到预先训练好的多个预测模型中,得到每个预测模型对应的预测结果;根据所述预测结果从所述多个GPU中确定故障GPU。2.根据权利要求1所述的方法,其特征在于,所述多个预测模型包括第一预测模型和第二预测模型,所述将所述参数信息集合输入到预先训练好的多个预测模型中,得到每个预测模型对应的预测结果,包括:将所述参数信息集合输入到所述第一预测模型,得到所述第一预测模型对应的第一预测结果,所述第一预测结果包括每个GPU对应的第一故障率;根据所述每个GPU对应的第一故障率,从所述多个GPU选取第一目标GPU;将所述第一目标GPU的参数信息输入到所述第二预测模型,得到所述第二预测模型对应的第二预测结果,所述第二预测结果包括所述第一目标GPU中的每个GPU对应的第二故障率;所述根据所述预测结果从所述多个GPU中确定故障GPU,包括:根据所述第一目标GPU中的每个GPU对应的第二故障率,从所述第一目标GPU中确定故障GPU。3.根据权利要求2所述的方法,其特征在于,所述根据所述每个GPU对应的第一故障率,从所述多个GPU选取第一目标GPU,包括:将所述第一预测结果中所述第一故障率最大的前m个GPU确定为第一目标GPU,其中,所述m为正整数;所述根据所述第一目标GPU中的每个GPU对应的第二故障率,从所述第一目标GPU中确定故障GPU,包括:将所述第二预测结果中所述第二故障率最大的前n个第一目标GPU确定为故障GPU,其中,所述n为正整数。4.根据权利要求2所述的方法,其特征在于,所述第一预测模型为1D
‑
CNN模型,所述第二预测模型为MLP模型;或者,所述第一预测模型为MLP模型,所述第二预测模型为1D
‑
CNN模型。5.根据权利要求1所述的方法,其特征在于,所述预测模型包括第一预测模型、第二预测模型以及第三预测模型,所述将所述参数信息集合输入到预先训练好的多个预测模型中,得到每个预测模型对应的预测结果,包括:将所述参数信息集合输入到所述第一预测模型,得到所述第一预测模型对应的第一预测结果,所述第一预测结果包括每个GPU对应的第一故障率;将所述参数信息集合输入到所述第二预测模型,得到所述第二预测模型对应的第二预测结果,所述第二预测结果包括每个GPU对应的第二故障率;将所述参数信息集合输入到所述第三预测模型,得到所述第三预测模型对应的第三预测结果,所述第三预测结果包括每个GPU对应的第三故障率;所述根据所述预测结果从所述多个GPU中确定故障GPU,包括:根据每个GPU对应的第一故障率,从所述多个GPU选取第一目标GPU;
根据每个GPU对应的第二故障率,从所述多个GPU选取第二目标GPU;根据每个GPU对应...
【专利技术属性】
技术研发人员:李志超,柳鹤婷,刘哲瑞,郭传雄,王剑,
申请(专利权)人:脸萌有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。