共同操作的多映像系统中的第二故障数据捕获技术方案

技术编号:9667764 阅读:114 留言:0更新日期:2014-02-14 06:03
公开了一种方法、计算机系统和计算机程序,用于捕获具有多个软件映像的计算机系统中的诊断跟踪信息。接收与所述多个软件映像的第一个中的第一故障有关的信息。将接收的信息分发到所述多个软件映像的其它软件映像。此外,捕获与所述多个软件映像中的另一个中的第二故障有关的信息。信息的分发可以包括将所述信息的第一部分分发到所述多个软件映像中的第一多个软件映像,并且将所述信息的第二部分分发到所述多个软件映像中的第二多个软件映像。

【技术实现步骤摘要】
用于捕获诊断跟踪信息的方法和计算机系统
本专利技术涉及计算机系统中的诊断数据的自动捕获,特别是共同操作的多映像计算机系统中的诊断数据的自动捕获。
技术介绍
诊断数据的自动捕获在计算机系统中是众所周知的。具体地,它通常用在复杂的和/或长时间运行应用中以允许问题的快速解决,而不需要现场再现故障或备份系统。已知的解决方案是以转储、日志和跟踪文件的形式提供第一故障数据捕获(FFDC),数据捕获在检测到问题时触发。该已知的解决方案的问题是在获得用于分析和解决问题的足够诊断信息的需求和产生该诊断信息的成本之间存在折中。产生诊断信息的成本可以包括a)用于连续日志记录和跟踪的应用的性能开销,b)对故障产生转储所花的时间(这可能延迟应用的重启),以及c)存储诊断信息输出要求的磁盘空间量。WO2012/026035A公开了一种故障处理系统,其具有:存储位置信息获取单元,用于从其中已经出现故障的组件的存储单元中获取表示在故障发生时生成的故障信息的存储位置的存储位置信息;故障信息获取单元,用于基于存储位置信息,从存储设备获取在故障发生时在信息处理设备中生成的、与故障有关的故障信息,该存储设备被连接以便能够与信息处理设备和故障处理设备通信;以及配置控制单元,用于基于获取的故障信息,根据信息处理设备修改故障处理设备的配置。从而,故障处理系统能够容易地再现在信息处理设备中出现的故障,以便有效地执行再现试验。因此,现有技术中存在处理上述问题的需要。
技术实现思路
本专利技术的实施例提供一种用于捕获诊断跟踪信息的方法,所述方法用于具有多个软件映像的计算机系统中,所述方法包括以下步骤:接收与所述多个软件映像的第一个中的第一故障有关的信息;将所述信息分发到所述多个软件映像的其它软件映像;捕获与所述多个软件映像中的另一个中的第二故障有关的信息。该方法的优点是,捕获跟踪诊断信息的成本被最小化,直到第一故障出现,此后,捕获的跟踪诊断信息的值被最大化,并且通过只捕获与第一故障有关的详细跟踪诊断信息,捕获跟踪诊断信息的成本被最小化。在实施例中,所述分发所述信息的步骤由负荷平衡器、管理程序、操作系统、监视软件或对等通信机构中的一个执行。在优选实施例中,所述将所述信息分发到所述多个软件映像的其他软件映像的步骤包括:将所述信息的第一部分分发到所述多个软件映像中的第一多个软件映像,并且将所述信息的第二部分分发到所述多个软件映像中的第二多个软件映像。这具有的优点是,分发了跨越软件映像收集诊断跟踪信息的负荷,并且仍然允许全面的跟踪诊断信息的收集。在优选实施例中,所述捕获信息的步骤在预定时间段之后过期。在可替代实施例中,所述捕获信息的步骤在第二故障之后过期。这些实施例具有的优点是,限制在其期间捕获另外的诊断跟踪信息的时间段,并且因此限制捕获诊断跟踪信息的另外成本。在另一实施例中,所述软件映像的每个还包括进程或线程;以及所述接收的信息与所述进程或线程的第一进程或线程中的第一故障有关;所述分发的信息分发到所述进程或线程的其他进程或线程;所述捕获的信息与所述进程或线程的另一个中的第二故障有关。在另一实施例中,所述接收的诊断跟踪信息识别所述软件映像的外部因素作为所述第一故障的原因。这具有的优点是,由于外部因素(如网络故障)导致的故障可能导致要在每个软件映像中收集的与外部因素有关的另外的跟踪诊断信息。在另一实施例中,所述方法还包括以下步骤:在所述接收步骤之后,检查所述多个软件映像的一个或多个其他软件映像是否正在执行与所述多个软件映像中的所述第一软件映像相同的软件。在另一实施例中,所述方法还包括以下步骤:将所述与所述多个软件映像的第一软件映像中的第一故障有关的信息和所述与所述多个软件映像的另一个中的第二故障有关的信息组合;分析所述组合的信息以便确定第一故障的原因。跟踪诊断信息的这种组合和分析允许确定故障的原因,而不需要现场再现故障或备份系统。在另一实施例中,所述捕获信息的步骤持续,直到所述分析所述组合的信息以便确定第一故障的原因的步骤结束。这允许捕获来自任何进一步故障的信息,同时组合和分析来自之前故障的跟踪诊断信息,而是允许在分析结束时停止捕获。本专利技术的实施例还提供了一种计算机系统和用于实现捕获诊断跟踪信息的上述方法的计算机程序产品。从另外的方面来看,本专利技术提供一种用于捕获诊断跟踪信息的计算机程序产品,所述计算机程序产品包括:计算机可读存储介质,其可由处理电路读取,并且存储由处理电路执行的指令,用于执行用于执行本专利技术的步骤的方法。从另外的方面来看,本专利技术提供一种计算机程序,其存储在计算机可读介质上并可加载到数字计算机的内部存储器中,包括软件代码部分,当所述程序在计算机上运行时,用于执行本专利技术的步骤。从另外的方面来看,本专利技术提供一种基本如参考附图描述的方法。从另外的方面来看,本专利技术提供一种基本如参考附图描述的系统。附图说明只通过示例的方式,参考附图现在将更详细描述本专利技术的优选实施例,附图中:图1是其中可以使用本专利技术的具有通信机构的多个软件映像的方块图;图2是图1的软件映像之一的方块图;图3是图2的应用软件的方块图;图4示出图1的多个映像、第一故障事件和第二故障事件之间的时间关系;图5是根据本专利技术实施例的捕获诊断跟踪信息的流程图;以及图6是分析由图5的实施例捕获的诊断跟踪信息的流程图。具体实施方式参考图1,具有软件映像102-112的应用服务器每个独立地操作处理数据,并且使用通信机构120相互通信。通信机构120可以是负荷平衡器、管理程序、操作系统或监视软件。在另一实施例中,通信机构120可以简单地是对等通信机构。图2示出图1的软件映像102之一。典型地,软件映像包括操作系统202、中间件204和应用软件206。这些元件的任何可以不存在于软件映像中,并且上面没提到的其他组件可以存在于软件映像中。在优选实施例中,每个软件映像与其他软件映像相同。在其他实施例中,每个软件映像具有与其他软件映像共同的组件。图3示出图2的应用软件。典型地,应用软件将执行为多个进程302,这些进程302的每个具有多个线程304。尽管图3只示出具有一个线程304的一个进程302,但是可以执行任何数量的进程,每个进程可以具有任何数量的线程。正在执行的进程302的每个可以具有不同数量的线程304。图4示出图1的系统的时间线。映像2104、映像3106、映像5110和映像6112每个开始执行并且连续执行而没有故障。映像1102在时间406开始执行。它连续执行直到出现故障时的时间408。该故障导致故障事件。故障事件导致跟踪诊断信息被记录到日志文件402。跟踪诊断信息典型地是设为一直开的第一故障数据捕获(FFDC)数据,也就是说,它是跟踪诊断信息的一般选择,该跟踪诊断信息优化为使得故障软件组件和故障的任何外部原因(如进程信号或I/O错误)能够被识别。因为产生诊断信息的成本,如性能开销、对故障产生转储所花的时间和存储诊断信息输出要求的磁盘量,详细的跟踪诊断信息不设为一直捕获。参考图5,本专利技术的实施例的方法在步骤502开始。在步骤504通过通信机构接收第一故障数据。进行检查506,以查看是否存在运行相同软件的任何其他映像。如上所述,在其他实施例中,每个软件映像具有与其他软件映像共同的组件。如果不存在在相同软件上运行的其本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/201310343980.html" title="共同操作的多映像系统中的第二故障数据捕获原文来自X技术">共同操作的多映像系统中的第二故障数据捕获</a>

【技术保护点】
一种用于捕获诊断跟踪信息的方法,所述方法用于具有多个软件映像的计算机系统中,所述方法包括以下步骤:接收与所述多个软件映像的第一个中的第一故障有关的信息;将所述信息分发到所述多个软件映像的其它软件映像;捕获与所述多个软件映像中的另一个中的第二故障有关的信息。

【技术特征摘要】
2012.08.08 GB 1214159.41.一种用于捕获诊断跟踪信息的方法,所述方法用于具有多个软件映像的计算机系统中,所述方法包括以下步骤:接收与所述多个软件映像的第一个中的第一故障有关的信息;将所述信息分发到所述多个软件映像的其它软件映像;捕获与所述多个软件映像中的另一个中的第二故障有关的信息,其中所述将所述信息分发到所述多个软件映像的其他软件映像的步骤包括:将所述信息的第一部分分发到所述多个软件映像中的第一多个软件映像,并且将所述信息的第二部分分发到所述多个软件映像中的第二多个软件映像。2.根据权利要求1所述的方法,其中所述分发所述信息的步骤由负荷平衡器、管理程序、操作系统、监视软件或对等通信机构中的一个执行。3.根据权利要求1所述的方法,其中所述捕获信息的步骤在预定时间段之后过期。4.根据权利要求1所述的方法,其中所述捕获信息的步骤在第二故障之后过期。5.根据权利要求1所述的方法,其中:所述多个软件映像的每个还包括进程或线程;以及所述接收的信息与所述进程或线程的第一进程或线程中的第一故障有关;所述分发的信息分发到所述进程或线程的其他进程或线程;所述捕获的信息与所述进程或线程的另一个中的第二故障有关。6.根据权利要求1所述的方法,其中所述接收的信息识别所述多个软件映像的第一个的外部因素作为所述第一故障的原因。7.根据权利要求1所述的方法,还包括以下步骤:在所述接收步骤之后,检查所述多个软件映像的一个或多个其他软件映像是否正在执行与所述...

【专利技术属性】
技术研发人员:RN张伯伦AJ皮尔金顿HJ赫利尔MF彼得斯
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1