经由增量的系统警报关联技术方案

技术编号:13466663 阅读:55 留言:0更新日期:2016-08-04 22:31
概括而言,提供了针对经由增量对系统警报的关联的技术。可以通过将每个警报与时间上在其周围的、至多到特定的时间窗口的警报进行比较而生成警报对。接着,可以计算每一个警报对的增量,并且分析那些增量的集合以确定数值方面的差值。可以将阈值应用于数值,并且在彼此的某距离内的警报被认为表示关联。接着,每个警报被提供有所有其他相关的警报,因此降低了监视噪声,并且使得对警报的根本原因的标识更加容易。

【技术实现步骤摘要】
【国外来华专利技术】
技术介绍
在任何高度可用的复杂的分布式系统(例如,基于云的电子邮件服务)中,系统维护的一个关键方面是监视系统的健康状态以确保该系统确实可用。由于警报是从许多不同的硬件组件和软件组件发出的,因此监视可能会高度复杂并且存在噪声。经常地,单个根本原因问题可以生成多于一个警报,并且有时可以从许多不同的组件中生成许多警报。无论是手动地或者自动地处理这些警报都可能是困难的、昂贵的,并且如果该警报被单独处理,还有可能自我失败(self-defeating)。在复杂的分布式系统中将多个有关的警报关联在一起可以用于确保更快且更准确地标识和处理每个根本原因。针对这样的关联的典型的方法可以包括将每个警报作为n维空间中的点,并且使用聚类或其他机器学习技术来对关系进行标识。这可能会有困难,因为不是所有的实质属性都可以轻易地用数值来表征。此外,由于系统特性会变化,因此之前所形成的聚类可能不能创建针对未来进行概括的好的规则。
技术实现思路
提供了该
技术实现思路
以用简化的形式介绍在下文的具体实施方式中所进一步描述的概念的选择。该
技术实现思路
不旨在排他性地标识所要求保护的主题的关键特征或本质特征,也不旨在用于帮助确定所要求保护的主题的范围。实施例针对经由增量的系统警报的关联,所述增量是对警报之间的“距离”和“相似度”的测量。在一些示例中,可以通过将每个警报与时间上在其周围的、至多到特定的时间窗口的警报进行比较而生成警报对。接着,r>可以计算每一个警报对的增量,并且分析那些增量的集合以确定数值方面的差值。可以将阈值应用于数值,并且在彼此的一定距离内的警报被认为表示关联。接着,每个警报被提供有所有其他有关的警报,因此降低了监视噪声并且使得对警报的根本原因的标识更加容易。这些以及其他特征和优点将从以下的具体实施方式的阅读和对相关联的附图的回顾中显而易见。应当理解的是,前述的一般性描述和以下的具体实施方式都是解释性的,而不限制所要求保护的方面。附图说明图1示出了基于云的示例环境,其中,可以通过对增量进行使用的关联而分析警报。图2示出了针对两个示例警报的增量的概念性计算。图3示出了经由警报对的增量的计算以及与阈值的比较对警报的关联的框图。图4是网络化环境,其中,可以实现根据实施例的系统。图5是示例计算操作环境的框图,其中,可以实现实施例;并且图6示出了根据实施例的针对经由增量而将系统警报关联起来的过程的逻辑流程图。具体实施方式如在上文中简要地描述的,提供了系统以用于监视具有大量组件的复杂的、分布式系统中的系统警报。可以通过将每个警报与时间上在其周围的警报进行比较而生成警报对。接着,可以计算针对每个警报对的增量,并且可以分析那些增量的集合以用于确定在数值方面的差值。可以将数值与阈值进行比较以找到在彼此的一定距离内的、被认为表示关联(correlation)的警报。在以下的具体实施方式中,对形成了其一部分并且在其中作为说明而示出了具体的实施例或示例的附图进行了参考。可以组合这些方面、可以利用其它方面、并且可以做出结构改变而不脱离本公开的精神或范围。因此,以下的具体实施方式将不被看作是限制性意义,并且本专利技术的范围是由所附权利要求及其等同物所限定的。尽管将在结合在个人计算机的操作系统上运行的应用程序而执行的程序模块的一般性的上下文中描述一些实施例,但是本领域技术人员将理解的是,也可以结合其它程序模块来实现这些方面。通常而言,程序模块包括例程、程序、组件、数据结构、以及执行特定的任务或实现特定的抽象数据类型的其他类型的结构。此外,本领域技术人员将理解的是,可以利用包括手持设备、多处理器系统、基于微处理器的或可编程的消费性电子产品、微型计算机、大型计算机、以及类似的计算设备在内的其它计算机系统配置来实践实施例。还可以在其中任务是由通过通信网络链接的远程处理设备来执行的分布式计算环境中实现实施例。在分布式计算环境中,程序模块既可以位于本地的存储器存储设备中,也可以位于远程的存储器存储设备中。可以将实施例实现为计算机实现的过程(方法)、计算系统、或者诸如计算机程序产品或计算机可读介质之类的制品。计算机程序产品可以是可以由计算机系统读取的计算机存储介质,并且对包括指令的计算机程序进行编码以使得计算机或计算系统执行示例过程。计算机可读存储介质是计算机可读存储器设备。计算机可读存储介质可以例如经由易失性计算机存储器、非易失性存储器、硬盘驱动器、闪存驱动器、软盘、或者光盘、以及类似的介质中的一个或多个而被实现。在该说明书通篇中,术语“平台”可以是用于分析通过使用增量的关联的系统警报的软件组件和硬件组件的组合。平台的示例包括但不限于:在多个服务器上执行的托管服务、在单个计算设备上执行的应用、以及类似的系统。术语“服务器”通常是指通常在网络化环境中执行一个或多个软件程序的计算设备。然而,服务器还可以被实现为在被视为是网络上的服务器的一个或多个计算设备上执行的虚拟服务器(软件程序)。在下文中提供了关于这些技术和示例操作的更多的细节。图1示出了根据一些实施例的基于云的示例环境,其中,可以通过使用增量的关联而分析警报。如图100中所示,诸如基于云的电子邮件服务之类的分布式服务可以包括多个组件,例如服务器102、专用设备108以及类似的组件。这些服务器和专用设备可以单独地或者以共享的方式来执行各种任务。一些服务器可以是在不同环境下担任不同角色的通用服务器,而其它的服务器可以是执行特定的任务的专用服务器。例如,一些服务器可以管理订阅者档案;其他的服务器可以是在场服务器、目录服务器等。服务的订阅者可以通过多种客户端设备106对服务进行访问。除了硬件组件之外,本文中所描述的服务还可以包含大量的和多种软件组件。此外,每个订阅者(例如,客户端设备110)都可以与服务的每个组件进行交互。因此,分布式服务可能需要监视并确保其硬件和软件组件的无缝操作,以便维持订阅者的满意度。在具有大量的和多种组件(以及客户端设备)的情况下,由于许多警报是从许多不同的硬件和软件组件中发出的,因此监视可能是高度复杂的并且具有噪声。无论是手动地还是自动地处理这样的警报,都可能是困难的、昂贵的,并且如果与相同的根本原因相关联的警报被单独处理,还可能自我失败。在根据实施例的系统中,可以将警报作为对来处理(而不是单独地处理这些项目),并且使用警报对之间的增量作为待由机本文档来自技高网...

【技术保护点】
一种方法,其至少部分在计算设备中被执行以提供对使用增量的系统警报的分析,所述方法包括:检测新的警报;在检测到所述新的警报之前,确定预先确定的时间段内的多个警报;确定所述多个警报中的每个与所述新的警报之间的增量;计算针对每个增量的差值;确定关联阈值;以及将其差值高于所述关联阈值的警报标识为彼此相关。

【技术特征摘要】
【国外来华专利技术】2013.12.17 US 14/109,8661.一种方法,其至少部分在计算设备中被执行以提供对使用增量的系
统警报的分析,所述方法包括:
检测新的警报;
在检测到所述新的警报之前,确定预先确定的时间段内的多个警报;
确定所述多个警报中的每个与所述新的警报之间的增量;
计算针对每个增量的差值;
确定关联阈值;以及
将其差值高于所述关联阈值的警报标识为彼此相关。
2.根据权利要求1所述的方法,还包括:
将被标识为与所述新的警报相关的所述警报与所述新的警报一起呈现
给以下中的一个:支持工程师与系统健康监视服务。
3.根据权利要求1所述的方法,其中,确定所述增量包括:
将所述多个警报中的每个的一个或多个属性与所述新的警报的对应的
属性进行比较。
4.根据权利要求3所述的方法,其中,确定所述增量包括:
计算预先确定的范围内的每个增量的数值。
5.根据权利要求4所述的方法,其中,所述预先确定的范围是0和1
之间,0指示相同的属性而1指示区别的属性。
6.根据权利要求3所述的方法,还包括:
给每个属性分配权重。
7.根据权利要求6所述的方法,还包括:
采用机器学习算法来确定所述权重。
8.根据权利要求7所述的方法,其中,所述机器学习算法是梯度下降
算法。
9.根据权利要求1所述的方法,还包括:
基于确定与每个增量相关联的警报之间的距离来计算每个增量的差值。
10.根据权利要求1所述的方法,还包括以下中的一个:
接收用户反馈以确认所呈现的关联的有效性;以及
从与处理所述警报的系统的用户交互中推断所述用户反馈,以确认所
述所呈现的关联的所述有效性。
11.一种用于提供对使用增量的系统警报的分析的计算设备,所述计
算设备包括:
存储器;
耦合至所述存储器的处理器,所述处理器执行警报...

【专利技术属性】
技术研发人员:A·萨多夫斯基J·阿夫纳
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1