自动异常检测和解决系统技术方案

技术编号:17269308 阅读:24 留言:0更新日期:2018-02-14 18:42
公开了一种用于自动检测和解决计算环境中的异常的异常检测和解决系统(ADRS)。ADRS可以使用定义不同类型的异常(例如,已定义的异常和未定义的异常)的异常分类系统来实现。已定义的异常可以基于要被监视的任何度量的界限(固定的或季节性的)。异常检测和解决部件(ADRC)可以在定义计算系统中的服务的每个部件中实现。ADRC可能被配置成检测异常并尝试在本地解决异常。如果不能在部件中解决针对异常的异常事件,那么ADRC可以将异常事件传送到父部件的ADRC(如果存在的话)。部件中的每个ADRC可以被配置成在本地处置具体类型的异常,以减少用于解决异常的通信时间和资源使用。

Automatic anomaly detection and solution system

An abnormity detection and solution system (ADRS) used to automatically detect and resolve exceptions in the computing environment is disclosed. ADRS can be implemented using an exception classification system that defines different types of exceptions, such as defined Exceptions and undefined exceptions. The defined exceptions can be based on the limits of any measure to be monitored (fixed or seasonal). The exception detection and solution component (ADRC) can be implemented in every part of the service that defines the computing system. ADRC may be configured to detect exceptions and try to resolve exceptions locally. If the exception event is not resolved in the component, the ADRC can transfer the exception to the parent's ADRC (if it exists). Each ADRC in the component can be configured to dispose of specific types of exceptions locally to reduce the communication time and resource use for the exception.

【技术实现步骤摘要】
【国外来华专利技术】自动异常检测和解决系统对相关申请的交叉引用本申请要求于2016年5月26日提交的标题为“AUTOMATICANOMALYDETECTIONANDRESOLUTIONSYSTEM”的美国非临时专利申请No.15/165,298的权益和优先权,该申请要求以下申请的权益和优先权:1)于2015年5月28日提交的标题为“AutomaticAnomalyDetectionandResolution”的美国临时申请No.62/167,851;2)于2015年7月31日提交的标题为“AutomaticAnomalyDetectionandResolution”的美国临时申请No.62/199,895;以及3)于2015年10月23日提交的标题为“AutomaticAnomalyDetectionandResolution”的美国临时申请No.62/245,706。上述专利申请中的每一个的全部内容通过引用并入本文,用于所有目的。
技术介绍
云计算是用于启用对可配置的计算资源(例如,网络、服务器、存储空间、应用和服务)的共享池的便利的按需网络访问的模型。通过云计算诸如经由网络提供或访问的服务可以被称为云服务。有很多需要由云服务提供商执行的处理,以使云服务对订阅客户可用。由于其复杂性,这种处理的大部分仍然是手动完成的。例如,供应用于提供这种云服务的资源会是非常劳动密集的过程。支持云计算系统的数据中心的尺寸往往非常大,包括数千个计算和存储服务器以及数百个网络设备和其它设备。例如,最近的统计数据表明,用于Oracle公司在全球提供的云计算系统的有80000个或更多个的虚拟机,其具有540PB(拍字节)或更多的存储空间。至少有19个层、4个数据中心、6200万或更多的活跃用户,每天产生300亿或更多的事务。即使使用诸如MCollective或Chef之类的命令工具和诸如Graphite之类的监视工具,对云数据中心的手动管理也会增加云服务的成本并会降低服务的质量。这些工具不能以及时的方式对系统行为中的潜在异常(诸如影响服务水平协议(SLA)和安全漏洞的潜在异常)作出反应并校正这些潜在异常。一些云计算系统提供商已经实现了用于诊断和校正其云计算系统中检测到的问题的系统;然而,关于如何配置这些系统以检测问题的细节还没有针对整个云计算系统定义。一些云计算系统提供商已经实现了机器学习算法来评估日志文件,和/或开发了训练数据来确立什么是正常的系统行为。可以将日志文件和/或数据与正常模式进行比较,并将任何显著的偏差报告为异常。多变量分析技术(例如,MSET)可以同时比较多个日志文件。经由无监督机器学习技术仅仅从日志文件中推断正常行为会容易出错。计算仅在日志文件上识别出的问题而不考虑系统拓扑、处理流程或日志关系会引入大量噪声,因为日志文件的不相关组合可能会被分析,这会不利地影响对问题的诊断。由这种系统检测和报告的可能的错误是如此地广泛,以至于它不适合程序化的校正动作。人类可能需要参与解决问题。云计算系统或企业计算系统中的异常可以由许多因素造成,这些因素包括系统的负载尖峰、部件故障和/或恶意使用,并且这些异常表现为一个或多个容器中的错误的尖峰、资源使用增加、以及关键性能指标(KPI)恶化。作为上述挑战的结果,用于服务水平协议(SLA)的服务质量(QoS)保证常常不能被满足。在任何给定的时间,在云计算系统和企业计算系统中,数百万的硬件和软件部件可能在任何给定的时间发生故障。用户和运营商一样可能导致造成异常的人为错误和意外负载。恶意用户会导致影响数百万用户的停运(outage)。这些情况会导致令人不满的QoS,从而导致云计算环境违反SLA。为了应对异常,一些人试图近实时地监视异常。这些方法涉及将环境的状态(度量、日志等)收集在集中式存储空间中并且以编程方式针对异常来分析该状态。由于对这种数据的传送和聚合,环境状态的收集会引起延迟。分析涉及附加的时间,并且结果必须被传送给操作人员,以便遵循指导方针和脚本来手动校正异常。这种校正动作会导致异常发生的时间和采取校正动作的时间之间的长延迟。对所有日志条目和度量的收集和分析可以是对资源的低效使用,因为日志文件中的大部分数据都与正常状况对应。数据可能提供低信噪比,这是因为异常是要被识别的信号。另外,因为异常涉及不常发生的情况(诸如崩溃、死锁、长响应时间等),所以对正常状况的数据的分析可能提供最小价值。寻求对异常的细粒度检测以识别先兆事件,从而一开始就避免导致违反SLA的状况。
技术实现思路
在某些实施例中,公开了用于异常检测和解决系统(ADRS)的技术,以自动检测并解决计算环境(例如,云计算系统和企业计算系统)中的异常。这些技术启用对异常的自动检测和解决,以最小化(如果不能避免的话)对计算系统中所提供的服务的服务水平协议(SLA)违反。异常检测和解决涉及以最低可能的成本来最大化SLA合规期。本文公开的技术可以减少(如果不能消除的话)人类对解决大型计算系统(例如,云系统)的尺寸和复杂性的参与,并因此产生自主计算系统。ADRS可以自动检测和校正异常(诸如响应时间异常、负载异常、资源使用异常、部件故障和停运),所有这些异常都会影响计算系统中的操作的服务质量(QoS)。ADRS可以使用异常分类系统来实现,其中该异常分类系统是按照异常的不同类别(子类型)(诸如已定义的异常和未定义的异常)来定义的。已定义的异常可以由两个子类别来定义,诸如用户定义的异常和系统推断的异常。已定义的异常可以基于需要被监视的任何度量的界限,其中该界限是固定的或者是季节性的。固定界限是用于监视和强制实施与SLA相关联的QoS保证的不变量。通常,应用管理员或系统管理员将定义用于用户定义的异常的固定界限。系统管理员还可以定义附加的度量以监视资源使用、负载尖峰、恶意使用和部件故障从而防止违反SLA,但是它们的界限是季节性的,要从与和用户定义的异常相关联的度量的趋势相组合的历史数据中计算得到。这种类型的异常被称为系统推断的异常,其界限通常是季节性的。未定义的异常是经由机器学习和其它统计方法发现的异常(通常是离群值(outlier))。ADRS可以基于在用于异常的策略中定义的一个或多个规则来采取校正动作。可以用一个或多个异常检测和解决部件(ADRC)来实现ADRS。每个ADRC可以是模块或子系统。ADRC可以在定义由计算系统执行的服务或操作的部件中的每个部件中实现。每个ADRC可以被配置成在本地检测并尝试解决部件中异常。例如,当检测到部件(诸如服务运行于其中的容器)中的异常(例如,已定义的异常)时,ADRC可以确定它是否可以解决该异常。可以用特定于部件的解决策略来实现每个ADRC,其中特定于部件的解决策略用于管理该部件中检测到的异常。如果用于异常的异常事件可以被部件中定义的异常解决策略解决,那么ADRC可以尝试基于该策略来解决异常事件。在确定ADRC不能解决异常事件时(或者因为没有定义策略或者因为异常事件不能基于策略来解决),部件可以将异常事件传送到该部件的父部件(如果存在父部件的话)。可以将异常事件向上传送到当前部件的每个相继的父部件(如果存在父部件的话),直到父部件可以解决该异常事件为止。当确定部件没有父部件(例如,物理机器没有父代)时,就将异常事件发本文档来自技高网
...
自动异常检测和解决系统

【技术保护点】
一种方法,包括:由计算机系统确定定义异常界限的值集合,其中所述异常界限针对与云计算机系统所提供的服务有关的度量,其中所述服务由所述云计算机系统中的部件建立,并且其中所述部件包括在云计算机环境中执行的第一容器和第二容器,并且其中第一容器是第二容器中的孩子容器;将第一容器配置为包括异常检测和解决部件ADRC;由第一容器中的ADRC检测与所述云计算机系统中的所述服务的操作相关的异常的异常事件,其中基于所述度量的值不满足针对所述度量的所述异常界限来检测所述异常事件;识别用于在第一容器中解决所述异常的策略;确定所述策略中的规则被所述异常满足;以及发起校正动作以解决所述异常,所述校正动作是基于所述规则被满足而在所述策略中被识别的。

【技术特征摘要】
【国外来华专利技术】2015.05.28 US 62/167,851;2015.07.31 US 62/199,895;1.一种方法,包括:由计算机系统确定定义异常界限的值集合,其中所述异常界限针对与云计算机系统所提供的服务有关的度量,其中所述服务由所述云计算机系统中的部件建立,并且其中所述部件包括在云计算机环境中执行的第一容器和第二容器,并且其中第一容器是第二容器中的孩子容器;将第一容器配置为包括异常检测和解决部件ADRC;由第一容器中的ADRC检测与所述云计算机系统中的所述服务的操作相关的异常的异常事件,其中基于所述度量的值不满足针对所述度量的所述异常界限来检测所述异常事件;识别用于在第一容器中解决所述异常的策略;确定所述策略中的规则被所述异常满足;以及发起校正动作以解决所述异常,所述校正动作是基于所述规则被满足而在所述策略中被识别的。2.如权利要求1所述的方法,其中所述异常界限是为用户定义的异常定义的固定界限,并且其中所述值集合包括轮询间隔值、所述度量的最小量度、所述度量的软限制、所述度量的最大值,以及定义所述异常的最小发生次数的最小连续读数值。3.如权利要求2所述的方法,其中检测所述异常事件包括确定所述度量的值是否满足所述异常界限,并且其中,当所述度量的值小于所述最小量度以及等于或大于所述软限制时,该值不满足所述异常界限。4.如权利要求2或权利要求3所述的方法,其中基于所述最小连续读数被满足来进一步检测所述异常事件。5.如权利要求4所述的方法,其中所述异常界限是为用户定义的异常定义的季节性界限,并且其中所述值集合包括轮询间隔值、所述度量的最小量度、所述度量的软限制、所述度量的最大值、所述异常连续发生的持续时间、当所述季节性界限有效时的开始时间,以及当所述季节性界限有效时的结束时间。6.如权利要求5所述的方法,其中检测所述异常事件包括确定所述度量的值是否满足所述异常界限,并且其中,当所述度量的值小于所述最小量度以及等于或大于所述软限制时、当所述异常事件被检测达到所述持续时间以及所述异常事件在所述开始时间之后和所述结束时间之前被检测到时,该值不满足所述异常界限。7.如权利要求1至6中任一项所述的方法,其中确定所述值集合包括分析日志文件的时间序列数据,以计算用于所述异常界限的所述值集合。8.如权利要求1至7中任一项所述的方法,还包括:在确定用于在第一容器中解决所述异常的策略不能被识别时,通知第二容器所述异常不能在第一容器中被解决;以及识别用于在第二容器中解决所述异常的策略;确定在用于在第二容器中解决所述异常的策略中的规则被所述异常满足;以及基于该规则被满足,发起用于在第二容器中解决所述异常的策略中所识别出的校正动作。9.如权利要求1至8中任一项所述的方法,其中与所述服务相关的所述度量是针对提供所述服务的服务质量(QoS)而监视的多个度量中的一个。10.一种系统,包括:一个或多个处理器;以及存储器,所述存储器能够被所述一个或多个处理器访问,所述存储器存储指令,所述指令当由所述一个或多个处理器执行时,使所述一个或多个处理器:确定定义异常界限的值集合,其中所述异常界限针对与云计算机系统所提供的服务有关的度量,其中所述服务由所述云计算机系统中的部件建立,并且其中所述部件包括在云计算机环境中执行的第一容器和第二容器,并且其中第一容器是第二容器中的孩子容器;将第一容器配置为包括异常检测和解决部件ADRC;由第一容器中的ADRC检测与所述云计算机系统中的所述服务的操作相关的异...

【专利技术属性】
技术研发人员:R·阿哈德
申请(专利权)人:甲骨文国际公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1