The embodiment of the invention provides a fault processing method, apparatus and computer, the computer in the baseboard management controller (12) in the determination of the computer crashes, to computer processor (11) sends the read request message, the read request message for reading the processor (11) first error data recording, and receives the processor (11) in response to read the message back, according to the reading response message, the processor (11) recorded the first error data. The embodiment of the invention does not need to use the operating system, the baseboard management controller (12) can get the error data of computer crashes after a computer, to solve the computer in the prior art can not be unable to get serious mistakes in calculating the data machine problem in the correct cause system crashes after.
【技术实现步骤摘要】
一种故障处理方法、相关装置及计算机
本专利技术实施例涉及计算机技术,特别涉及一种故障处理方法、相关装置及计算机。
技术介绍
随着信息化技术的大规模发展,计算机普遍应用于各个领域。计算机的故障通常可包括软件故障、硬件故障、操作(配置)故障和其他故障。由于硬件故障具有复现难、主要靠人工经验进行判断、发生错误时问题定位难、需要多次插拔/更换等特点,因此最难以处理的一般是硬件故障,例如内存、处理器、输入输出(IO)设备等产生的故障。通常情况下,硬件故障将导致计算机产生不可纠正错误(Uncorrectableerror),不可纠正错误不仅可能导致计算机业务的中断,降低计算机可运行时间,甚至可能导致宕机事件。现有技术中,对计算机故障进行处理主要通过以下方法:当系统中出现不可纠正错误时,处理器对错误数据进行记录并通知操作系统(OperatingSystem,OS);OS在收到通知后抓取处理器记录的错误数据并打印出来,以供用户对故障进行分析、定位和恢复。现有技术中需要基于OS实现错误数据的抓取。然而,一旦计算机中出现严重的不可纠正错误导致计算机死机(在本专利技术中,计算机死机是指 ...
【技术保护点】
一种计算机,包括处理器和基板管理控制器,其特征在于,所述基板管理控制器用于在确定所述计算机死机时,向所述处理器发送读请求消息,所述读请求消息用于请求读取所述处理器记录的第一错误数据;所述处理器用于接收所述读请求消息,并向所述基板管理控制器发送读响应消息;所述基板管理控制器用于接收所述处理器返回的所述读响应消息,并根据所述读响应消息,获得所述处理器记录的所述第一错误数据。
【技术特征摘要】
1.一种计算机,包括处理器和基板管理控制器,其特征在于,所述基板管理控制器用于在确定所述计算机死机时,向所述处理器发送读请求消息,所述读请求消息用于请求读取所述处理器记录的第一错误数据;所述处理器用于接收所述读请求消息,并向所述基板管理控制器发送读响应消息;所述基板管理控制器用于接收所述处理器返回的所述读响应消息,并根据所述读响应消息,获得所述处理器记录的所述第一错误数据。2.根据权利要求1所述的计算机,其特征在于,所述处理器还用于获取所述第一错误数据,并记录所述第一错误数据;则所述基板管理控制器用于确定所述计算机死机具体为:所述基板管理控制器用于接收所述处理器发送的严重故障事件指示,所述严重故障事件指示是所述处理器在获取到所述第一错误数据并且所述第一错误数据属于严重的不可纠正错误类型时发送的;如果从接收到所述严重故障事件指示开始,在预设等待时间内,未接收到所述处理器发送的至少部分所述第一错误数据,则所述基板管理控制器用于确定所述计算机死机。3.根据权利要求1或2所述的计算机,其特征在于,所述基板管理控制器用于根据所述读响应消息,获得所述处理器记录的所述第一错误数据具体为:当所述读响应消息中携带所述第一错误数据时,所述基板管理器用于从所述读响应消息中获得所述处理器记录的所述第一错误数据。4.根据权利要求1或2所述的计算机,其特征在于,所述基板管理控制器用于根据所述读响应消息,获得所述处理器记录的所述第一错误数据具体为:当所述读响应消息中携带读失败指示时,所述基板管理控制器用于指示所述计算机的热重启模块或者用户对所述计算机进行热重启;其中,所述读失败指示用于指示从所述处理器中读取所述第一错误数据失败,以使得所述处理器在所述计算机热重启时,执行所述计算机的基本输入输出系统的故障收集指令,根据所述基本输入输出系统的故障收集指令,获取所述第一错误数据,并发送给所述基板管理控制器;所述基板管理控制器用于接收所述处理器发送的所述第一错误数据。5.根据权利要求1-4任一所述的计算机,其特征在于,所述基板管理控制器在根据所述读响应消息,获得所述处理器记录的所述第一错误数据之后,还用于向所述处理器发送清除数据消息,以指示所述处理器删除自身记录的所述第一错误数据。6.根据权利要求2所述的计算机,其特征在于,所述基板管理控制器还用于在接收所述处理器发送的严重故障事件指示后,向所述计算机的故障告警模块发送告警消息或进行打印操作,以将所述严重故障告警事件通知用户。7.根据权利要求1-6任一所述的计算机,其特征在于,所述基板管理控制器还用于根据故障解析机制,对所述第一错误数据进行解析,得到所述第一错误数据的故障解析信息。8.根据权利要求7所述的计算机,其特征在于,所述基板管理控制器还用于根据预设的故障处理机制,对所述第一错误数据的故障解析信息进行分析,得到故障处理建议。9.根据权利要求8所述的计算机,其特征在于,所述基板管理控制器在确定所述计算机死机之前,还用于接收所述处理器发送的第二错误数据,并根据所述故障解析机制,对所述第二错误数据进行解析,得到所述第二错误数据的故障解析信息,其中,所述第二错误数据为所述计算机产生所述第一错误数据之前预设时间内产生的错误数据;则,所述基板管理控制器用于根据预设的故障处理机制,对所述第一错误数据的故障解析信息进行分析,得到故障处理建议包括:所述基板管理控制器用于根据所述预设的故障处理机制,对所述第二错误数据的故障解析信息和所述第一错误数据的故障解析信息进行分析,得到所述故障处理建议。10.根据权利要求7-9任一项所述的计算机,其特征在于,所述基板管理控制器还用于打印所述第一错误数据的故障解析信息或所述故障处理建议。11.根据权利要求7-9任一项所述的计算机,其特征在于,所述基板管理控制器还用于将所述第一错误数据的故障解析信息、所述第二错误数据的故障解析信息、所述第一错误数据和所述第二错误数据中的至少一种保存到所述计算机的故障信息库。12.一种故障处理方法,用于包括基板管理控制器和处理器的计算机,其特征在于,所述方法包括:所述基板管理控制器在确定所述计算机死机时,向所述处理器发送读请求消息,所述读请求消息用于请求读取所述处理器记录的第一错误数据;所述基板管理控制器接收所述处理器返回的读响应消息,并根据所述读响应消息,获得所述处理器记录的所述第一错误数据。13.根据权利要求12所述的方法,其特征在于,所述方法还包括:所述基板管理控制器接收所述处理器发送的严重故障事件指示,所述严重故障事件指示是所述处理器在获取到所述第一错误数据并且所述第一错误数据属于严重的不可纠正错误类型时发送的;如果从接收到所述严重故障事件指示开始,在预设等待时间内,未接收到所述处理器发送的至少部分所述第一错误数据,则确定所述计算机死机。14.根据权利要求12或13所述的方法,其特征在于,所述基板管理控制器接收所述处理器返回的读响应消息,并根据所述读响应消息,获得所述处理器记录的所述第一错误数据包括:所述基板管理控制器在所述读响应消息中携带所述第一错误数据时,从所述读响应消息中获得所述处理器记录的所述第一错误数据。15.根据权利要求12或13所述的方法,其特征在于,所述基板管理控制器接收所述处理器返回的读响应消息,并根据所述读响应消息,获得所述处理器记录的所述第一错误数据包括:所述基板管理控制器在所述读响应消息中携带读失败指示时,指示所述计算机的热重启模块或者用户对所述计算机进行热重启,以使得所述处理器在所述计算机热重启时,执行所述计算机的基本输入输出系统的故障收集指令,根据所述基本输入输出系统的故障收集指令,获取所述第一错误数据,并发送给所述基板管理控制器;其中,所述读失败指示用于指示从所述处理器中读取所述第一错误数据失败;所述基板管理控制器接收所述处理器发送的所述第一错误数据。16.根据权利要求13所述的方...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。