【技术实现步骤摘要】
本公开涉及计算机,尤其是一种故障管理方法、装置、电子设备和计算机程序产品。
技术介绍
1、生成式人工智能(artificial intelligence,ai)大模型对数据传输速度要求极高。目前,通过将高带宽内存(high bandwidth memory,hbm)集成到处理器封装内,以提升数据在内存与处理器之间的传输速率,进而满足ai大模型的需求。
2、这种复杂且高密度的封装方式一旦出现故障很难排查,且目前尚未建立完善的机制以应对hbm故障的发生。
技术实现思路
1、鉴于上述问题而提出了本公开。本公开提供了一种故障管理方法、装置、电子设备和计算机程序产品。
2、根据本公开的一个方面,提供了一种故障管理方法,应用于计算设备,方法包括:响应于高带宽内存故障,确定操作系统的运行状态;响应于运行状态满足第一状态时,基于接收到的由基本输入输出系统发送的第一故障信息,进行第一故障管理;响应于运行状态满足第二状态时,进行第二故障管理。
3、此外,根据本公开的一个方面
...【技术保护点】
1.一种故障管理方法,应用于计算设备,其特征在于,所述方法包括:
2.如权利要求1所述的故障管理方法,其特征在于,所述进行第一故障管理,包括:
3.如权利要求2所述的故障管理方法,其特征在于,所述进行第二故障管理,包括:
4.如权利要求3所述的故障管理方法,其特征在于,所述基于所述第二故障信息、所述第一预设规则和/或所述解析后的第一故障信息和/或第二预设规则,生成故障结果和/或预警信息,包括:
5.如权利要求1所述的故障管理方法,其特征在于,所述方法还包括:
6.如权利要求1-5任一项所述的故障管理方法,其特
...
【技术特征摘要】
1.一种故障管理方法,应用于计算设备,其特征在于,所述方法包括:
2.如权利要求1所述的故障管理方法,其特征在于,所述进行第一故障管理,包括:
3.如权利要求2所述的故障管理方法,其特征在于,所述进行第二故障管理,包括:
4.如权利要求3所述的故障管理方法,其特征在于,所述基于所述第二故障信息、所述第一预设规则和/或所述解析后的第一故障信息和/或第二预设规则,生成故障结果和/或预警信息,包括:
5.如权利要求1所述的故障管理方法,其...
【专利技术属性】
技术研发人员:韦炜玮,林祯,张俊龙,
申请(专利权)人:超聚变数字技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。