用于任意时序的不受监督的异常检测制造技术

技术编号:13995216 阅读:40 留言:0更新日期:2016-11-15 01:22
从执行中的程序检查表示性能计数器的时序序列可提供关于潜在的故障、在网络上流量方面的繁忙时间段、密集的处理周期等的重要线索。不受监督的异常检测器可检测任意时序的异常。来自统计数据、信号处理和机器学习的已知技术的组合可被用于标识不受监督的数据上的异常值,并用于捕捉类似于边缘检测、尖峰检测和模式误差异常之类的异常。关于异常是否被检测到的布尔和概率结果可被提供。

【技术实现步骤摘要】
【国外来华专利技术】背景异常(也知晓为:离群值、新奇事物、噪音、偏差、罕见值或例外)可被定义为与预期不同的任何事物。在计算机科学中,异常检测指的是标识不符合预期模式或不符合组中的其他项的数据、事件或条件。在一些情况下遇到异常指示处理不正常并由此可呈现用于调查的起始点。传统地,异常可由人类研究踪迹来检测。踪迹是可来自于应用、进程、操作系统、硬件组件和/或网络的信息的日志。鉴于当今计算机系统的当前复杂性,这从来不是件容易的工作,而是正快速变得对于人类而言近似不可能完成的工作。基于用作用于定义什么是正常以及什么是异常的基线的参考数据的可用性,异常检测被分类为受监督的、半受监督的或不受监督的。受监督的异常检测通常涉及基于被标记为“正常”的第一类型的数据以及被标记为“不正常”的第二类型的数据来训练分类器。半受监督的异常检测通常涉及从一种类型的经标记的数据中构造表示正常行为的模型:从被标记为正常的数据中或从被标记为不正常的数据中,但是这两种类型的经标记的数据不被提供。不受监督的异常检测检测数据中的异常,其中数据不被用户手动地标记。概述用于不受监督的异常检测的系统和方法实现对于在任意时序序列中高度可能不正常的值的自动检测。如本文中使用的,一序列指集合中值的进展。时序序列或时序指任意数据序列,其中该序列中的每个项与时间点相关联。异常可通过监视并处理对应的时序来被实时地检测,即使时序具有发展中的分布,即时序不是固定的而是随着时间改变或发展。时序中的数据在被处理前不被标记。时序中的数据在被处理后不被标记。数据被评分,而不使用经标记的数据。不使用用于合并反馈或先验知识的系统。统计学、信号处理和机器学习技术可被应用来标识时序中的异常。异常检测可基于使用Z测试和处理遵循高斯分布模式的时序的技术的组合。Z测试是基于计算当前点的实际值与对应序列的平均值之间的距离(以其标准偏差为单位)的统计测试(知晓为z分数)。Z测试的结果是指示当前点是异常值还是不是异常值的布尔值。遵循高斯类型的分布的数据指落在对称钟形曲线形状中的数据。一个或多个异常的正式数学定义可被捕捉,而无需监督。取自于统计数据、信号处理和机器学习的统计方法可被用于建模时序并分析其分布来检测数据中的异常。输入时序的投影可基于各种算法,包括但不限于,线性预测编码、一阶导数、二阶导数等。投影指传入数据在其通过流水线中的各个阶段时取决于所应用的处理的转换。对评分(即,异常检测结果)频率的控制可基于使用变量范围的时间窗口的缓冲。算法的校准和/或训练可基于来自十个或更多个数据点中的可指定数量的数据点。当异常被标识时,布尔和概率结果的组合可被产生,从而潜在地提升可靠性。结果可基于分布以及检测到的异常的类型来被分类。时序的分布的改变可被动态地监视,使得对性能计数器数据点的处理的动态且自动的调整可发生。提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的一些概念。本
技术实现思路
并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所要求保护主题的范围。附图说明在附图中:图1a示出根据本文中描述的主题的各方面的系统100的一示例,其监视一组件和并检测由该组件产生的时序中的异常;图1b示出根据本文中描述的主题的各方面的系统101的一部分的更加详细的示例;图2a示出了根据本文中公开的主题的各方面的检测异常的方法200的示例;图2b示出根据本文中公开的主题的各方面的异常显示230的示例;图3是根据本文公开的主题的各方面的计算环境的示例的框图。具体实施方式概览可在时序中标识异常,而无需事先知晓特定序列的异常是什么。取自于统计数据、信号处理和机器学习的统计方法可被用于建模时序、分析其分布并预测异常是什么。本文中描述的各技术可广泛地应用:本文中描述的不受监督的异常检测器可检测任意执行中的应用或服务中的异常。为了给出一个非限制示例,一个应用是云计算平台和基础结构,诸如但不限于微软公司创建的AZURE。AZURE可被用于构建、部署和管理应用和服务。执行中的应用产生数个称为性能计数器的数据序列。性能计数器可反映运行在特定硬件上的对应的应用实例的健康。性能计数器可包括与CPU(中央处理单元)负载、存储器、网络I/O(输入/输出)、例外率、堆中的字节、存储器存储中的对象以及本领域的技术人员已知的许多其他事物相关联的计数器。通常,对于单个应用,针对每个硬件单元可使用多于一百个的计数器。自动地检测时序值中的异常可使得问题能够被更快速地发现并可使得问题能够在它们发生时就被修复。当今计数器通常被记录并在之后以离线方式来检查。这种方式在当今可能是不够的。许多其中性能计数器被监视的情况需要非常及时地检测异常、诊断问题并且改正情况。自动地检测被持续监视的组件中的异常可使得组件的所有者或操作者能够在异常行为发生时被通知该异常行为,并可因此产生降低的平均检测时间(MTTD)和减少平均缓解时间(MTTM)。描述应用在过去如何表现的历史数据可能不可用。根据本文中描述的主题的各方面的不受监督的异常检测器可在应用或其他类型的组件运行时确定应用应当如何表现。快速地推断组件的正常和不正常行为表明,通常没有足够的时间来等待大量的统计样本以做出关于时序内数据段的特征(正常相较于异常)的预测。本文中描述的异常检测器可基于从如十个数据点那么少的数据点中的可指定数量的数据点来校准和/或训练分类器。本文中描述的异常检测器可适于顺应动态地改变的时序。假肯定(被错误标记为异常的正常值)被最小化并且几乎没有假否定(被错误标记为正常的异常值)被产生。可在任意执行中的组件执行或操作时通过持续地监视和处理性能计数器数据点来在针对该组件的任意性能计数器中检测到异常。当异常被检测到时,该异常可被存储。异常可与任意相关信息一起被显示给观察者(例如,客户、用户界面、应用等)。检测到的异常的类型可至少包括:范围外值异常、尖峰异常、模式误差异常以及陡然变化或边缘异常。本文中描述的异常检测器可被实现为监视基础结构内的规则。这样的规则可封装被应用到时序的逻辑片段。规则可处理特定组件的特定性能计数器的数据点。根据本文中描述的主题的一些方面,在规则内,在一个阶段中数据的分布被检测,在另一个阶段中预处理被执行,在另一阶段中异常被检测并且在另一个阶段中后处理被执行。结果或另一类型的异常的指示可被提供。在以上列出的第一阶段中,性能计数器的时序的分布可被确定。时序的分布可以是每个可能值出现的相对次数的描述。例如,在CPU性能计数器的情况中,98%使用的值是罕见的,而20%-70%范围中的值可被认为是正常且常见的。在预处理步骤中,可从数据点中提取特征,诸如但不限于当前数据点值到时序的平均值的距离。异常检测算法可被应用到异常检测阶段中的数据。如果结果是肯定的(即,指示异常的标识的肯定),则结果可被发送到后处理阶段。取决于检测到的异常的类型,可跟随不同的处理路径。如果数据点被表征为多于一个的异常,(例如,尖峰和范围外值两者),则后处理可确保只产生一个异常事件,从而减少噪音。不同的分析处理路径可并行地执行。处理路径可将所有传入的性能计数器时序作为输入来接收。可在初始“预热阶段”中观察到时序的正常行为。在预热阶段期间,根据本文中描述的主题的一些方面,不产生异常警报。传入的数据点可被用于使本文档来自技高网
...

【技术保护点】
一种系统,包括:至少一个处理器;连接到所述至少一个处理器的存储器;以及包括异常检测器的至少一个模块,所述至少一个模块被加载到所述至少一个处理器内时致使所述至少一个处理器通过以下来标识包括由一组件生成的性能计数器的时序中的未预期值的异常:确定所述时序内数据点的分布;执行所述时序的预处理;检测所述时序内的异常;以及执行所检测的异常的后处理。

【技术特征摘要】
【国外来华专利技术】2014.03.18 US 14/218,1191.一种系统,包括:至少一个处理器;连接到所述至少一个处理器的存储器;以及包括异常检测器的至少一个模块,所述至少一个模块被加载到所述至少一个处理器内时致使所述至少一个处理器通过以下来标识包括由一组件生成的性能计数器的时序中的未预期值的异常:确定所述时序内数据点的分布;执行所述时序的预处理;检测所述时序内的异常;以及执行所检测的异常的后处理。2.如权利要求1所述的系统,其特征在于,提供给所述异常检测器以供训练的数据仅仅是未经标记的数据。3.如权利要求1所述的系统,其特征在于,由所述异常检测器检测到的异常是以下之一:范围外异常、尖峰异常、边缘异常或模式误差异常。4.如权利要求1所述的系统,其特征在于,进一步包括:模块,所述模块在被加载到所述至少一个处理器时致使所述至少一个处理器:使用包括Z测试和高斯分布技术的技术的组合来检测异常。5.如权利要求1所述的系统,其特征在于,进一步包括:模块,所述模块在被加载到所述至少一个处理器时致使所述至少一个处理器:检测具有发展中的分布的时序内的异常。6.一种方法,包括:由计算设备的处理器接收包括时序的未经标记的性能计数器;确定所述时序内数据点的分布;并行地将输入数据提供到多个处理路径;在缺乏定义异常数据的经标记的数据以及缺乏定义正常数据...

【专利技术属性】
技术研发人员:V·弗里诺夫P·佩里欧来里斯D·斯塔罗斯京A·德贝纳斯特E·阿克初林A·克利莫弗T·明卡A·施彭格勒
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1