性能事件故障排除系统技术方案

技术编号:36173035 阅读:18 留言:0更新日期:2022-12-31 20:25
本发明专利技术的各方面公开了一种用于故障排除的方法和系统。该方法包括识别提供传感器数据的数据源,包括第一组被测变量。该方法还包括处理器确定传感器数据的子集(由给定数据源提供,包括组件集合)的第二组被测变量的值指示异常。该方法还包括确定第三组被测变量,其是异常的根本原因候选。由组件集合提供第三组的被测变量。该方法还包括向相应的被测变量分配系数的集合。每个系数指示每个被测变量与第三组的被测变量的比较结果。该方法还包括使用系数集合来确定是否能够将组件集合中的特定子集识别为异常的根本原因。集识别为异常的根本原因。集识别为异常的根本原因。

【技术实现步骤摘要】
【国外来华专利技术】性能事件故障排除系统


[0001]本专利技术一般涉及数字计算机系统的领域,并且更具体地涉及性能事件故障排除。

技术介绍

[0002]拍字节数据被收集在公共和私有云中,其中时间序列数据来源于不同数据源,包括传感器网络、智能网格等。所收集的时间序列数据可具有非期望的变化或者指示异常的模式。用于实时检测根本原因的监测数据可以例如防止该异常累积和影响计算机系统的效率。

技术实现思路

[0003]本专利技术的各方面公开了用于故障排除系统的方法、计算机程序产品和系统。该方法包括一个或多个处理器识别数据源,数据源被配置成提供传感器数据以及将传感器数据加时间戳为一个或多个时间序列的第一集合,传感器数据包括第一组被测变量的值。该方法还包括一个或多个处理器确定传感器数据的子集的一个或多个被测变量的第二组的值指示异常。传感器数据的子集由数据源中的给定数据源提供并且覆盖时间窗口,给定数据源包括组件的集合。该方法还包括一个或多个处理器使用一种或多种相似度技术的集合来确定作为异常的根本原因候选的第三组的一个或多个被测变量,该一种或多种相似度技术用于在时间窗口中比较第二组被测变量的值和第三组被测变量的值。第三组的被测变量由组件的集合提供。对于相似度技术的集合中的每个相似度技术以及对于第二组中的每个被测变量,方法进一步包括一个或多个处理器将系数的集合分配给被测变量。使用相似度技术,系数的集合中的每个系数指示每个被测变量与第三组的被测变量的比较结果。方法进一步包括一个或多个处理器使用系数的集合确定给定数据源的组件的集合的特定子集是否可被识别为异常的根本原因。响应于确定给定数据源的组件的集合的特定子集可被识别为异常的根本原因,方法进一步包括一个或多个处理器提供组件的特定子集作为异常的根本原因。
[0004]在另一方面,响应于确定没有给定数据源的组件集合的特定子集可被识别为异常的根本原因,该方法还包括一个或多个处理器更新第三组被测变量。对于相似度技术的集合中的每个相似度技术以及对于第二组中的每个被测变量,方法进一步包括一个或多个处理器将系数的集合分配给被测变量。使用相似度技术,系数的集合中的每个系数指示每个被测变量与更新的第三组的被测变量的比较结果。方法进一步包括一个或多个处理器使用系数的集合确定给定数据源的组件的集合的特定子集是否可被识别为异常的根本原因。
[0005]本主题内容可以实现动态和自动的根本原因分析方法。本主题内容可以改进对真实数据的根本原因分析。例如,随着数据随时间累积,根本原因分析的准确性可能增加。本专利技术的实施例认识到,准确性的增加可以是有利的,因为最初可被视为异常的信息可能随后被揭示为不异常的偏差。本专利技术的各个实施例可以实时地执行根本原因分析(例如,在数据源提供时间序列数据时)。
[0006]本主题内容可以与现有的根本原因分析系统无缝地集成。例如,本专利技术的各个实施例可实现用于数据中心存储装置中的自动根本原因分析故障排除(RCA/TS)的基于组合体(resemble

based)的相似度检索工具。进一步,本专利技术的实施例可以提供及时且准确的根本原因分析故障排除,这可以确保云和数据中心托管的应用在没有访问、数据或性能损失的情况下操作。
附图说明
[0007]在下文中,参照附图,仅通过示例的方式更详细地解释本专利技术的实施例。
[0008]图1是根据本专利技术的实施例的计算机系统的框图。
[0009]图2是根据本专利技术的实施例的方法的流程图。
[0010]图3是示出根据本专利技术的实施例的方法的图。
[0011]图4表示根据本专利技术的实施例的适于实现一个或多个方法步骤的计算机化系统。
具体实施方式
[0012]本专利技术的不同实施例的描述将出于说明的目的而呈现,但并不旨在是详尽的或限于所公开的实施例。在不脱离所描述的实施例的范围和精神的情况下,对本领域普通技术人员许多修改和变化将是显而易见的。选择这里使用的术语来最好地解释实施例的原理、实际应用或对在市场中找到的技术的技术改进,或者使得本领域普通技术人员能够理解这里公开的实施例。
[0013]不同实施例提供了如独立权利要求的主题内容所描述的根本原因分析方法、计算机系统和计算机程序产品。在从属权利要求中描述了其他有利的实施例。如果本专利技术的实施例不相互排斥,则它们可以彼此自由组合。
[0014]时间序列可以例如是通常在以均匀时间间隔间隔开的连续时刻测量的一系列数据点。时间序列可以包括对或元组(v,t),其中,“t”是测量值“v”的时间。时间序列的值v可以被称为传感器数据。时间序列的传感器数据可以包括被测变量(measurand)的值v。被测变量可以是被测量的物理量、质量、状态或属性。例如,被测变量包括但不限于温度、中央处理单元(CPU)、CPU使用、计算负载、全局镜像次级写入滞后(ms/op)等中的一个或多个。
[0015]被测变量可以例如是全局镜像次级写入滞后(ms/op),其为服务于全局镜像的次级写入操作的平均毫秒数。该值可以不包括服务主要写入操作的时间。本专利技术的实施例可以监测全局镜像次级写入滞后的值以标识在向次级站点写入数据的过程期间发生的延迟(例如,所检测的增加可以是可能问题的标志)。
[0016]一个或多个时间序列可以具有同一被测变量的值。例如,不同位置处的两个温度传感器各自发送具有温度值和相关联时间戳的相应时间序列。在另一示例中,可使用两个或更多时间序列确定单个被测变量的值。例如,可以使用两个时间序列来定义作为温度和压力的比率的被测变量,两个时间序列中的一个是温度值,另一个是压力值。在另一示例中,所接收的时间序列中的每个时间序列具有相应的不同被测变量的值。也就是说,时间序列的第一集合和第一组被测变量的大小是相同的,因为第一组中的每个被测变量具有第一集合中的相应的时间序列。被测变量的值可能具有与被测变量的值的预定义正常行为不一致的模式,这可被称为异常或问题。
[0017]可以由一个或多个参考或阈值来定义被测变量的正常行为。在一个示例中,参考值可以是被测变量的最大可能值,当被测变量的值超过该最大可能值时,其可以指示异常。在一个示例中,参考值可以包括值的允许范围的下限和上限,使得当被测变量的值在该范围之外时,该值指示异常。在另一示例中,参考值可以是函数或模型的值,该函数或模型对被测变量的值随时间的变化进行建模。在另外的示例中,本专利技术的实施例可以通过机器学习模型(例如,异常检测算法可以是机器学习模型)从训练数据学习正常行为。经训练的机器学习模型可以是预测输入数据中的异常的等式或规则集合。规则可使用与参考值的比较。
[0018]在本专利技术的不同实施例中,如果组件提供被测变量,则被测变量的值指示组件(例如,指示组件的操作性能)。接收被测变量的值作为时间序列的第一集合的一部分。
[0019]在示例实施例中,系统可以是根本原因分析和性能系统。在进一步的示例实施例中,该方法可以是根本原因分析和性能方法。例如,异常可以是性能问题、配置问题和/或软件问题(例如,漏洞)等。
[0020本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:由一个或多个处理器识别数据源,所述数据源被配置为提供传感器数据并对所述传感器数据加时间戳为一个或多个时间序列的第一集合,所述传感器数据包括第一组被测变量的值;由一个或多个处理器确定所述传感器数据的子集中的第二组的一个或多个被测变量的值指示异常,其中,所述传感器数据的子集由所述数据源中的给定数据源提供并覆盖时间窗口,所述给定数据源包括组件的集合;由一个或多个处理器使用一种或多种相似度技术的集合确定作为所述异常的根本原因候选的第三组的一个或多个被测变量,所述一种或多种相似度技术用于在所述时间窗口中比较所述第二组被测变量和所述第三组被测变量的值,其中,所述第三组的被测变量由所述组件的集合提供;对于所述相似度技术的集合中的每个相似度技术以及对于所述第二组中的每个被测变量,由一个或多个处理器向所述被测变量分配系数的集合,其中,所述系数的集合中的每个系数指示使用所述相似度技术的每个被测变量与所述第三组的被测变量的比较结果;由一个或多个处理器使用所述系数的集合来确定是否能够将所述给定数据源的所述组件的集合的特定子集识别为所述异常的根本原因;以及响应于确定能够将所述给定数据源的所述组件的集合的所述特定子集识别为所述异常的所述根本原因,由一个或多个处理器提供所述组件的所述特定子集作为所述异常的所述根本原因。2.根据权利要求1所述的方法,进一步包括:响应于确定不能将所述给定数据源的所述组件的集合的特定子集识别为所述异常的所述根本原因,由一个或多个处理器更新所述第三组被测变量;对于所述相似度技术的集合中的每个相似度技术和对于所述第二组中的每个被测变量,由一个或多个处理器向所述被测变量分配更新的系数的集合,其中,所述更新的系数的集合中的每个系数指示使用所述相似度技术的每个被测变量与所述更新的第三组的被测变量的比较结果;以及由一个或多个处理器使用所述更新的系数的集合来确定是否能够将所述给定数据源的所述组件的集合的所述特定子集识别为所述异常的所述根本原因。3.根据权利要求2所述的方法,其中,更新所述第三组被测变量还包括从包括以下的组中选择的动作:由一个或多个处理器从所述第三组中移除一个或多个被测变量;以及由一个或多个处理器将一个或多个被测变量添加到所述第三组。4.根据权利要求3所述的方法,其中,由所述组件的集合中的选择的组件提供所移除的或所添加的被测变量,所述方法进一步包括:由一个或多个处理器针对下一次迭代从所述组件的集合中排除所选择的组件。5.根据权利要求4所述的方法,进一步包括:由一个或多个处理器根据所述组件的集合的预定义属性并且以单调排序顺序对所述组件的集合进行排名,其中,所选择的组件是排名第一的组件。6.根据权利要求5所述的方法,其中,所述属性是过载程度。
7.根据权利要求1所述的方法,其中,所述组件的所述特定子集是所述组件的集合中的单个组件。8.根据权利要求1所述的方法,其中,确定是否能够将所述给定数据源的所述组件的集合的特定子集识别为所述异常的根本原因进一步包括:对于所述第二组中的每个被测变量和对于所述第三组中的每个被测变量,由一个或多个处理器组合相应的系数的集合,得到组合的系数;以及使用所述组合的系数确定是否能够将所述给定数据源的所述组件的集合的所述特定子集识别为所述异常的所述根本原因。9.根据权利要求8所述的方法,其中,组合所述系数的组合包括对所述系数的集合求和。10.根据权利要求1所述的方法,进一步包括:在比较所述时间窗口中的所述第二组被测变量和所述第三组被测变量的值之前,由一个或多个处理器在所述时间窗口中归一化所述第二组的被测变量和所述第三组被测变量的值。11.根据权利要求1所述的方法,其中,所述相似度技术的集合包括曼哈顿距离、欧几里得距离、动态时间规整(DTW)距离、斯皮尔曼和皮尔森度量。12.根据权利要求1所述的方法,其中,确定所述传感器数据的子集中的第二组的一个或多个所述被测变量的值指示异常进一步包括:由一个或多个处理器从所述数据源接收事件票,所述事件票指示所述异常。13.根据权利要求1所述的方法,其中,响应于接收事件票来确定所述传感器数据的子集中的第二组的一个或多个所述被测变量的值指示异常启动。14.根据权利要求1所述的方法,其中,所述第二组的被测变量包括从包括以下的组中选择的被测变量:(i)所述第一组被测变量中的被测变量和(ii)所述第一组的被测变量的组合。15.根据权利要求1所述的方法,其中,所述时间序列的第一集合中的每个时间序列包括相应的被测...

【专利技术属性】
技术研发人员:M
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1