总线设备不可纠正错误处理方法及服务器技术

技术编号:46535233 阅读:7 留言:0更新日期:2025-09-30 19:00
本申请公开了一种总线设备不可纠正错误处理方法及服务器,涉及服务器技术领域,通过设置总线设备的不可纠正错误的抑制标识以及不可纠正错误统计的时间窗口,降低不可纠正错误上报的频率,且在不可纠正错误首次触发时,将不可纠正错误上报,捕获不可纠正错误,确保初始错误不遗漏,并且在时间窗口的错误计数大于上报阈值时,再次进行上报,避免对于错误加剧的错误遗漏处理,减少冗余的错误上报,通过抑制标识抑制了错误上报风暴,进而降低由于错误频发触发对于服务器系统的可用性及其它业务正常运行的影响,提高服务器的可靠性,解决相关技术中不可纠正错误频繁触发,掩盖其它业务需求,且影响服务器系统的可用性的技术问题。

【技术实现步骤摘要】

本申请涉及服务器,尤其涉及一种总线设备不可纠正错误处理方法及服务器


技术介绍

1、在服务器系统中,pcie(peripheral component interconnect express,高速串行计算机扩展总线标准)设备可能因硬件故障或链路不稳定触发uce(uncorrectableerror,不可纠正错误)。

2、相关技术中,pcie错误处理主要依赖硬件寄存器记录错误状态,并通过bios固件优先上报机制,触发smi(system management interrupt,系统管理中断),由bios(basicinput/output system,基本输入/输出系统)处理后上报至bmc(baseboard managementcontroller,基板管理控制器)和通知到os(操作系统)。然而,当设备频繁触发uce错误时,系统会连续触发smi中断,导致cpu(central processing unit,中央处理器)反复进入smm(system management mode,系统管理模式)。这不仅消耗大量系统资源,还可能掩盖其他关键本文档来自技高网...

【技术保护点】

1.一种总线设备不可纠正错误处理方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的总线设备不可纠正错误处理方法,其特征在于,所述检测总线设备是否首次触发不可纠正错误,包括:

3.根据权利要求1所述的总线设备不可纠正错误处理方法,其特征在于,若所述错误计数大于或等于所述上报阈值,则触发所述不可纠正错误的上报事件之后,还包括:

4.根据权利要求1所述的总线设备不可纠正错误处理方法,其特征在于,若检测到所述总线设备首次触发所述不可纠正错误,则触发所述不可纠正错误的上报事件,包括:

5.根据权利要求1或4所述的总线设备不可纠正错误处理方法,...

【技术特征摘要】

1.一种总线设备不可纠正错误处理方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的总线设备不可纠正错误处理方法,其特征在于,所述检测总线设备是否首次触发不可纠正错误,包括:

3.根据权利要求1所述的总线设备不可纠正错误处理方法,其特征在于,若所述错误计数大于或等于所述上报阈值,则触发所述不可纠正错误的上报事件之后,还包括:

4.根据权利要求1所述的总线设备不可纠正错误处理方法,其特征在于,若检测到所述总线设备首次触发所述不可纠正错误,则触发所述不可纠正错误的上报事件,包括:

5.根据权利要求1或4所述的总线设备不可纠正错误处理方法,其特征在于,所述上报事件为上报所述不可纠正错误至服务器的基板管理控制器和...

【专利技术属性】
技术研发人员:管彦广
申请(专利权)人:苏州元脑智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1