从硬件故障模式的增强转储数据收集的方法和系统技术方案

技术编号:8489719 阅读:157 留言:0更新日期:2013-03-28 08:50
一种收集用于诊断计算机硬件设备的故障的方法和系统。在接收到导致全系统崩溃导致的计算机硬件设备的故障的指示之后,收集计算机硬件设备的中央处理单元(CPU)的地址转换表。检索计算机硬件设备的操作系统(OS)映像的调用栈帧的格式。基于收集的地址转换表和检索的多个调用栈帧的格式,检索调用栈帧并且将其输出到计算机文件。

【技术实现步骤摘要】

本专利技术涉及一种增强数据处理系统响应不期望硬件故障的能力的方法和系统,并且更具体地涉及一种收集诊断硬件故障的数据的技术。
技术介绍
许多中到大规模计算机处理系统包含一种类型的控制处理器、以及一个或多个能够在多操作系统下提供虚拟计算机处理系统的虚拟处理器。可以将硬件故障检测和终止机制建立在处理器、微代码(即,固件)和操作系统中。可以由硬件、微代码、固件或基于软件的代码流、事件或任务来引起系统范围(system-wide)的硬件级终止(例如,从物理硬件故障或逻辑设计问题)。可以收集并且存储故障数据,并且可以将其转发回处理器的提供商用于分析和恢复动作。
技术实现思路
在第一实施例中,本专利技术提供了一种用于诊断计算机硬件设备的故障的收集数据的方法。所述方法包括计算机接收导致全系统崩溃(crash)的计算机硬件设备的故障的指示。所述方法还包括计算机收集计算机硬件设备的中央处理单元(CPU)的地址转换表。所述方法还包括计算机检索计算机硬件设备的操作系统(OS)映像的调用栈(call stack)的多个调用栈帧的格式。所述方法还包括,基于收集的地址转换表和检索的多个调用栈帧的格式,计算机检索多个调用栈帧。所述方法还包括计算机将检索的多个调用栈帧输出到计算机文件。在第二实施例中,本专利技术提供了一种计算机系统,包括中央处理单元(CPU),耦接到CPU的存储器,以及耦接到CPU的计算机可读、有形存储设备。所述存储设备包含指令,该指令当经由存储器通过CPU执行时,实施收集用于诊断计算机硬件设备的故障的数据的方法。所述方法包括计算机系统接收导致全系统崩溃的计算机硬件设备的故障的指示。所述方法还包括计算机系统收集计算机硬件设备的CPU的地址转换表。所述方法还包括计算机系统检索计算机硬件设备的操作系统(OS)映像的调用栈的多个调用栈帧的格式。所述方法还包括,基于收集的地址转换表和检索的多个调用栈帧的格式,计算机系统检索多个调用栈帧。所述方法还包括计算机系统将多个调用栈帧输出到计算机文件。在第三实施例中,本专利技术提供了一种计算机程序产品,包括具有计算机可读程序指令存储其中的计算机可读、有形存储设备,计算机可读程序指令当通过计算机系统的中央处理单元(CPU)执行时,实施收集用于诊断计算机硬件设备的故障的数据的方法。所述方法包括计算机系统接收导致全系统崩溃的计算机硬件设备的故障的指示。所述方法还包括计算机系统收集计算机硬件设备的中央处理单元(CPU)的地址转换表。所述方法还包括计算机系统检索计算机硬件设备的操作系统(OS)映像的调用栈的多个调用栈帧的格式。所述方法还包括,基于收集的地址转换表和检索的多个调用栈帧的格式,计算机系统检索多个调用栈帧。所述方法还包括计算机系统将检索的多个调用栈帧输出到计算机文件。在第四实施例中,本专利技术提供了一种用于支持计算基础结构的过程。所述过程包括在包括处理器的计算机中提供用于创建、集成、主管(host)、维护、和部署计算机可读代码中至少一个的至少一个支持服务。所述处理器执行代码中包含的指令,使计算机进行收集用于诊断计算机硬件设备的故障的数据的方法。所述方法包括计算机接收导致全系统崩溃的计算机硬件设备的故障的指示。所述方法还包括计算机收集计算机硬件设备的中央处理单元(CPU)的地址转换表。所述方法还包括计算机检索计算机硬件设备的操作系统(OS)映像的调用栈的多个调用栈帧的格式。所述方法还包括,基于收集的地址转换表和检索的多个调用栈帧的格式,计算机检索多个调用栈帧。所述方法还包括计算机将检索的多个调用栈帧输出到计算机文件。本专利技术的实施例提供辅助服务设备或辅助服务处理器,来进行用于收集故障数据的增强数据收集技术,以便诊断和确定用于被认为硬件引起的故障,而实际上由软件触发的系统范围崩溃的恢复动作,所述故障数据与系统的操作系统实例(instance)有关或与管理程序有关。在此公开的实施例收集与不同分区的管理程序固件和内核/操作系统映像之间的交互有关的数据,以便保留不同分区的操作系统分离。附图说明图1是根据本专利技术的实施例的、收集用于诊断计算机硬件设备的软件造成的故障的数据的系统的框图。图2是根据本专利技术的实施例的、收集用于诊断计算机硬件设备的软件造成的故障的数据的过程的流程图,其中该过程在图1的系统中实施。图3是根据本专利技术的实施例的、在图1的系统中包括的并且实施图2的过程的计算机系统的框图。具体实施例方式概览本专利技术认识到在现有的中到大规模计算机处理系统中的故障终止和故障数据收集机制仅收集与很可能已经发生故障的项目直接相关的数据,因此为诊断可能由微代码/固件或基于软件的代码流、事件或任务触发的系统范围硬件级终止提供了不充足的数据。本专利技术还认识到其它已知数据收集机制通过关注于从没有导致硬件类型故障的、基于系统处理器的微代码和/或软件操作系统终止模式收集数据,也为诊断系统范围硬件级终止提供了不充足的数据。本专利技术还认识到虚拟化技术需要在系统处理器上执行的各操作系统之间的隔离,使得没有来自操作系统有效存储器映像(又称作,分区)的数据存在于系统及转储中。以上提及的隔离防止在与硬件设计逻辑故障的软件代码流交互的情况下的适当诊断。本专利技术的实施例可以提供一种用于在经历系统范围硬件级终止(例如,由于物理硬件故障或逻辑设计问题)的计算机系统中收集数据的方法和系统,所述系统范围硬件级终止被认为由硬件造成,而实际上由微代码、固件或基于软件代码流、事件或任务触发。如在此使用的,系统范围硬件级终止(又称作,硬件处理器故障模式)被定义为指示计算机硬件设备已经发生故障的全系统崩溃,并且可能是崩溃的原因。本专利技术的实施例利用这样的构思在系统存储器中的操作系统和管理程序固件使用一些关于它们的栈、页面转换机制(例如,用于虚拟化的公共页面表)和任务数据存储机制的相同的相互关联的架构和结构。因此,在可以将错误描述为在管理程序固件和操作系统微代码或内核之间的相互关联的区域中,在此公开的辅助服务设备(或辅助服务处理器)基于以上提及的相互关联架构和结构,并且基于每个操作系统映像的特征(诸如,每个操作系统映像的字节序(endian)格式、字大小、栈帧格式、寻址模式),从故障核收集数据点。由辅助服务设备收集的数据点包括,但不限于,在执行任务而不管任务所属的操作系统映像的情况下来自物理或虚拟处理器的调用栈。辅助服务设备不需要救护(ambulance)逻辑分区(LPAR)来收集以上提及的故障数据。收集用于诊断计算机硬件设备的软件造成的故障的数据的系统图1是根据本专利技术的实施例的、收集用于诊断计算机硬件设备的软件造成的故障的数据的系统的框图。系统100的实施例包括计算机系统102,计算机系统102包括系统主存储器104。系统主存储器104是用作计算机系统102的主存储器的有形计算机数据存储 设备。在一个实施例中,系统主存储器104是易失性存储器。计算机系统102运行操作系统(OS)映像106-1... 106-N和内核108-1... 108-N,其中N彡2。OS映像106-1...106-N与内核108-1...108-N以——对应形式相关联。管理程序(即,分区管理器)管理其中运行OS映像106-1··· 106-N和内核108-1··· 108-N的管理逻辑分区(未示出)本文档来自技高网...

【技术保护点】
一种收集用于诊断计算机硬件设备的故障的数据的方法,所述方法包括以下步骤:计算机接收导致全系统崩溃的计算机硬件设备的故障的指示;计算机收集计算机硬件设备的中央处理单元CPU的地址转换表;计算机检索计算机硬件设备的操作系统OS映像的调用栈的多个调用栈帧的格式;基于收集的地址转换表和检索的多个调用栈帧的格式,计算机的处理器检索多个调用栈帧;以及计算机将检索的多个调用栈帧输出到计算机文件。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:DJ麦科伊
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1