故障检测设备、故障检测方法和程序记录介质技术

技术编号:8539174 阅读:140 留言:0更新日期:2013-04-05 04:29
对检测到的相关破坏估计可能发生的故障。故障检测设备(10)包括存储单元(12)和相关模型比较单元(25)。存储单元(12)存储相关破坏集合信息(33),该相关破坏集合信息指示相关模型中所包含的相互关系中的、与故障发生时检测到的相关破坏有关的相互关系,该相关模型表示系统中的多种类型的性能值之间的相互关系。相关模型比较单元(25)计算包含在相关破坏集合信息中的相互关系和与针对输入的性能值检测到的相关破坏有关的相互关系之间的共性程度。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及一种故障检测设备、故障检测方法和程序记录介质
技术介绍
大规模信息系统例如商业信息系统和IDC (因特网数据中心)系统中,随着作为社会基础结构的信息和通信服务(例如web服务和商业服务)的重要性增长,提供这些服务的计算机系统需要保持运行稳定性。此类计算机系统的运行管理通常由管理员手工执行。随着系统变得大规模和复杂化,管理员的负担急剧增加,由于判断失误或者误操作导致的服务挂起变得更加容易发生。出于这个原因,提供了一种集成的故障原因提取系统,该系统以统一方式监控和控制包含在上述系统中的硬件和软件的运行状态。在集成故障原因提取系统中,由该集成系统管理的多个计算机系统中的硬件和软件的运行状态信息被获取并输出至与该系统连接的故障原因提取设备。用于判别被管理系统的故障的装置包括预先对运行信息设置阈值的装置,以及评估该运行信息与其平均值之间的偏差的装置。例如,在该故障原因提取系统的故障原因提取设备中,为各个性能信息设置阈值,通过查找超过其各自阈值的各个性能信息来检测故障。故障原因提取设备预先设置一个指示异常的值作为阈值,检测各个元素的异常并且将其报告给管理员。当报告检测到异常时,管理员需要确定异常发生的原因以解决它。异常发生的典型原因是,例如,CPU超负荷、内存容量不足或者网络超负荷。为了识别异常发生的原因,需要识别可能与该异常相关的计算机,然后调查其系统日志和参数。该操作需要每个管理员具有高度的知识或者知道如何去做,并且需要每个管理员花费大量时间和精力。由于这一点,该集成故障原因提取系统基于从多个装置获得的事件数据(状态通知),通过对运行状态等的组合自动执行相关分析,为管理员提供针对异常的对策支持,从更广的角度估计问题或原因,然后将其通知给管理员。特别地 ,为了确保这些服务长期、连续运行的可靠性,其不仅需要针对已经发生的异常采取措施,还需要提取出成为未来异常可能原因的元素,即使这些异常目前还没有明显的发生,然后采取措施,例如以规划的方式强化设备。例如,以下所示的每个专利文献中描述了这样的故障原因提取系统,或者与该系统中的相关分析相关并且可应用于该系统的技术。专利文献I中公开的技术通过推导出关于正常状态下的任意两个性能信息的值(性能值)的时间序列的转换函数来生成相关模型,其中将一个序列作为输入,另一个作为输出。该技术将根据相关模型的转换函数的性能值与在另一时间获得的性能信息进行比较,并且基于相关破坏程度来检测故障。将更加详细地解释专利文献I中描述的技术。图17是示出根据专利文献I中描述的技术包括故障原因提取设备910的故障原因提取系统901的示意性整体配置的说明图。故障原因提取系统901包括作为多个被管理设备的被监控计算机902A,902B,902C,…,以及管理这些计算机902的运行的故障原因提取设备910,它们通过网络903连接从而可以相互通信。故障原因提取设备910从每个被监控的计算机902A,902B,902C,…获取包括多个性能项目(例如,CPU利用率或者剩余内存容量)中每个性能项目的性能值在内的性能信息,并且基于该性能信息执行如下所述的操作。此处,性能项目、被管理设备(被监控计算机902)或其组合被定义为性能信息中的一个元素(性能值的类型,或者仅仅是类型)。图18是示出如图17所示的故 障原因提取设备910和被监控计算机902的配置的说明图。如图17所示的被监控计算机902A,902B,902C,…具有与被监控计算机902A相同的配置,在图18中省略了详细描述,它们被共同命名为被监控计算机902。图19是示出图18中所示的故障原因提取设备910的处理流程的说明图。根据专利文献I所描述的技术,故障原因提取设备910,例如,是一个通用计算机设备,包括作为计算机程序执行的核心的主运算控制单元(CPU:中央处理单元)911,存储数据的存储单元912,通过网络903与其他计算机进行数据通信的通信单元913,以及接受用户(在此情形下为网络管理员)的操作并且呈现处理结果的输入/输出单元914。在该故障原因提取设备910的主运算控制单元911中,性能信息累积单元922、相关模型生成单元923、相关分析单元924、故障分析单元925和管理员交互单元926中的每个都以计算机程序的形式运行。进而,正常状态性能信息931、相关模型信息932和分析设置信息933中的每个均存储在存储单元912中。如故障原因提取设备910 —样,被监控计算机902也包括主运算控制单元951、存储单元952和通信单元953。当这些单元的功能分别与故障原因提取设备910中的主运算控制单元911、存储单元912和通信单元913相同时,被监控计算机902的主运算控制单元951中的服务执行单元961、信息收集单元962、对策执行单元963中的每个均以计算机程序的形式运行。被监控计算机902的服务执行单元961提供例如web服务和商业服务的信息和通信服务。信息收集单元962检测服务执行单元961的运行状态,获取包括在运行状态中的性能信息,并将信息发送给故障原因提取设备910的性能信息累积单元922。故障原因提取设备910的性能信息累积单元922接收来自每个被监控计算机902的信息收集单元962的性能信息,并将该信息作为正常状态性能信息931进行存储。相关模型生成单元923在某个时间段内从正常状态性能信息931获得性能信息,针对性能信息中的性能值的两种任意类型的时间序列推导出转换函数(相关函数),其中将两个时间序列中的一个作为输入,另一个作为输出。相关模型生成单元923将由该转换函数生成的性能值序列与该性能值的实际检测值序列进行比较,并且由这两个值的序列之间的差值来计算转换函数的权重信息。进而,通过对每对类型重复该过程,相关模型生成单元923针对服务执行单元961的总运行状态生成一个相关模型。相关模型生成单元923将生成的相关模型作为相关模型信息932进行存储。相关分析单元924接收来自性能信息累积单元922的、新检测到的性能信息,分析包含在接收的性能信息中的性能值是否在一定的误差范围内满足由存储在相关模型信息932中的相关模型的每个转换函数表示的关系,并输出分析结果。相关分析单元924基于第一元素的新检测性能值和相关函数,计算针对第二元素的预测性能值,然后,通过比较第二元素的新检测性能值与该预测性能值来计算预测误差。相关分析单元924分析该预测误差是否在预定的误差范围内。当预测误差超出预定的误差范围时,相关分析单元924判断第一和第二元素之间的相互关系被破坏。错误分析单元925接收由性能信息累积单元922收集的运行状态以及由相关分析单元924执行分析的结果,并且根据预先存储在分析设置信息933中的分析设置内容来执行故障分析。管理员交互单元926接收来自故障分析单元925的故障分析结果并且通过输入/输出单元14将其呈现给管理员。然后,管理员交互单元926接受来自管理员的操作输入,并指示被监测计算机902的对策执行单元963根据该操作输入执行对策。该对策执行单元963响应于来自管理员交互单元926的命令,执行针对服务执行单元961上的故障的对策过程。 管理员交互单元926通过输入/输出单元14将该故障分析结果呈现给管理员。当管理员通本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】2010.06.07 JP 2010-1298421.一种故障检测设备,包括存储装置,用于存储相关破坏集合信息,所述相关破坏集合信息指示相关模型中所包含的相互关系中的、与故障发生时检测到的相关破坏有关的相互关系,所述相关|旲型表不系统的多种类型的性能值之间的相互关系,以及相关模型比较装置,用于计算包含在所述相关破坏集合信息中的所述相互关系和与针对输入的性能值检测到的相关破坏有关的相互关系之间的共性程度。2.根据权利要求1所述的故障检测设备,其中所述相关模型比较装置计算相匹配的相互关系的数量与包含在所述相关破坏集合信息中的所述相互关系的数量的比值,以作为所述共性程度,所述相匹配的相互关系是包含在所述相关破坏集合信息中的所述相互关系和与针对所述输入的性能值检测到的相关破坏有关的所述相互关系之间相匹配的相互关系。3.根据权利要求1或2所述的故障检测设备,其中所述相关破坏集合信息包括所述故障的故障名称,并且如果所述共性程度等于或大于预定阈值,则所述相关模型比较装置输出所述故障的所述故障名称。4.根据权利要求1至3中任一项所述的故障检测设备,其中所述相关破坏集合信息包括指示与多个所述故障的每个故障名称相关联的所述相互关系的信息,所述相互关系与所述故障发生时检测到的相关破坏有关,以及所述相关模型比较装置针对所述多个故障中的每个故障计算所述共性程度,所述共性程度是包含在所述相关破坏集合信息中的所述相互关系和与针对所述输入的性能值检测到的相关破坏有关的所述相互关系之间的共性程度。5.根据权利要求1至4中任一项所述的故障检测设备,进一步包括相关破坏集合注册装置,用于当输入所述系统中发生的所述故障的所述故障名称时, 注册指示与所述故障名称相关联的所述相互关系的信息,所述相互关系与针对所述输入的性能值检测到的相关破坏有关。6.一种故障检测方法,包括存储相关破坏集合信息,所述相关破坏集合信息指示相关模型中所包含的相互关系中的、与故障发生时检测到的相关破坏有关的相互关系,所述相关模型表示系统的多种类型的性能值之间的相互关系,以及计算包含在所述相关破坏集合信息中的所述相互关系和与针对输入的性能值检测到的相关破坏有关的相互关系之间的共性程度。7.根据权利要求6所述的故障检测方法,其中所述计算共性程度计算相匹配的相互关系的数量与包含在所述相关破坏集合信息中的所述相互关系的数量的比值,以作为所述共性程度,所述相匹配的相互关系是包含在所述相关破坏集合信息中的所述相互关系和与针对所述输入的性能值检测到的相关破坏有关的所述相互关系之间相匹配的相互关系。8.根据权利要求6或7所述的故障检测方法,其中所述相关破坏集合信息包括所述故障...

【专利技术属性】
技术研发人员:石王坚
申请(专利权)人:日本电气株式会社
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1