一种故障管理方法、装置、电子设备和计算机程序产品制造方法及图纸

技术编号:45868211 阅读:14 留言:0更新日期:2025-07-19 11:23
本公开涉及计算机技术领域,尤其是提供了一种故障管理方法、装置、电子设备和计算机程序产品。应用于计算设备的故障管理方法包括:响应于高带宽内存故障,确定操作系统的运行状态;响应于运行状态满足第一状态时,基于接收到的由基本输入输出系统发送的第一故障信息,进行第一故障管理;响应于运行状态满足第二状态时,进行第二故障管理。该方法对操作系统在正常状态下和异常状态下进行全面故障管理,通过对多个纠正问题和/或轻微未纠正问题的记录和/或处理,实现故障的及时预警和/或在发生严重或致命未纠正问题时的准确定位,从而提高系统的稳定性和可靠性。

【技术实现步骤摘要】

本公开涉及计算机,尤其是一种故障管理方法、装置、电子设备和计算机程序产品


技术介绍

1、生成式人工智能(artificial intelligence,ai)大模型对数据传输速度要求极高。目前,通过将高带宽内存(high bandwidth memory,hbm)集成到处理器封装内,以提升数据在内存与处理器之间的传输速率,进而满足ai大模型的需求。

2、这种复杂且高密度的封装方式一旦出现故障很难排查,且目前尚未建立完善的机制以应对hbm故障的发生。


技术实现思路

1、鉴于上述问题而提出了本公开。本公开提供了一种故障管理方法、装置、电子设备和计算机程序产品。

2、根据本公开的一个方面,提供了一种故障管理方法,应用于计算设备,方法包括:响应于高带宽内存故障,确定操作系统的运行状态;响应于运行状态满足第一状态时,基于接收到的由基本输入输出系统发送的第一故障信息,进行第一故障管理;响应于运行状态满足第二状态时,进行第二故障管理。

3、此外,根据本公开的一个方面的故障管理方法,其中本文档来自技高网...

【技术保护点】

1.一种故障管理方法,应用于计算设备,其特征在于,所述方法包括:

2.如权利要求1所述的故障管理方法,其特征在于,所述进行第一故障管理,包括:

3.如权利要求2所述的故障管理方法,其特征在于,所述进行第二故障管理,包括:

4.如权利要求3所述的故障管理方法,其特征在于,所述基于所述第二故障信息、所述第一预设规则和/或所述解析后的第一故障信息和/或第二预设规则,生成故障结果和/或预警信息,包括:

5.如权利要求1所述的故障管理方法,其特征在于,所述方法还包括:

6.如权利要求1-5任一项所述的故障管理方法,其特征在于,

...

【技术特征摘要】

1.一种故障管理方法,应用于计算设备,其特征在于,所述方法包括:

2.如权利要求1所述的故障管理方法,其特征在于,所述进行第一故障管理,包括:

3.如权利要求2所述的故障管理方法,其特征在于,所述进行第二故障管理,包括:

4.如权利要求3所述的故障管理方法,其特征在于,所述基于所述第二故障信息、所述第一预设规则和/或所述解析后的第一故障信息和/或第二预设规则,生成故障结果和/或预警信息,包括:

5.如权利要求1所述的故障管理方法,其...

【专利技术属性】
技术研发人员:韦炜玮林祯张俊龙
申请(专利权)人:超聚变数字技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1