事件流的偏差检测系统和/或方法技术方案

技术编号:8271424 阅读:168 留言:0更新日期:2013-01-31 03:38
本发明专利技术公开了一种事件流的偏差检测系统和/或方法。更具体地,本发明专利技术实施例涉及到更新进来的事件流数据的短期和长期的统计量。在一些实施例中,至少基于所述长、短期统计量计算当前的偏差。然后将当前的偏差与阀值进行比较。在某些实施例中,所述统计量需求的估算通过核密度估计完成。

【技术实现步骤摘要】
本专利技术实施例涉及一种事件流的偏差检测系统和/或方法。进一步地,本专利技术实施例涉及一种复杂事件处理(Complex event processing, CEP)中的事件流可被分析和检测偏差。在本专利技术的实施例中,CEP发动机接收一个或多个事件流,并利用基于密度的偏差检测检测事件流中的偏差。本专利技术实施例涉及到复杂事件处理、事件流处理、数据流处理和数据流挖掘等情况下的流向、异常值和/或偏向检测。
技术介绍
复杂事件处理(Complex event processing, CEP) 一般适用于处理每个高效率情况下的瞬时事件数据。CEP发动机通过过滤、聚集、相关性等方式连续分析进来的事件流,从而实时传递相关的业务模式。通常CEP应用中的事件流随着时间的推移不具备稳定性和连续性。在对应的CEP应用中,事件流的偏差可能为一个时机或一个威胁。相应地,早期的为与事件流紧密相关的或通过其他某种方式依赖或依靠事件流的业务的事件流探测可能是有利的(例如,高价值)。基于事件流处理的要求,希望基于事件流偏差的检测提供理由充分的分析结果。同样,也希望可以这种联机方式(例如,实时,正在处理以及非存储等等)的结果。在一些例子中,被处理的流的特性可能无法预先知道,该探测可能不具备流的特性等的适用的预备知识。现有技术中,包括多种用于探测一连串给定的数据的不规则性的传统技术。其中一个传统的方式是利用数据库探测置于数据中的数据的特性和不规则性。利用编程语言例如SQL或数据库上的数据挖掘算法,数据被设置且其相应的特性被分析。然而,不幸的是,对于大容量低延时的事件流处理的情况下,数据库方式并不是一直可行的。另外,由于典型的高计算机要求,数据挖掘方式也可能不可行。数据挖掘算法需要对数据多次起下作业,通常不适用于CEP场景中,该场景中事件流往往潜能无限地并连续地流入。CEP应用往往推行硬性处理要求例如单通道流和限制的计算机资源。因此,CEP发动机通常逐步处理近来的事件。通常地,CEP发动机通常依照SQL、基于规则的或基于状态的方式,并通过瞬时条款被扩展。这些条款可能允许事件流分析被限制或限定到一个瞬时窗口。例如,这允许每隔10分钟或其他时间间隔计算股价。因此,依赖时间窗口的建立,用户可以注重分析更多的最新数据。基于SQL的CEP发动机可以利用特定的SQL功能进行偏差检测。SQL提供包括例如MIN、MAX、VAR以及AVG等的集合。为了检测偏差,一个连续的SQL查询能够,例如,通过布林线计算最新值的偏差。布林线可以限定一个接近平均值的两个标准偏差的envelope。如果一个新值在布林线外,则归类为一个偏差。然而,这种方法具有限制,需要数据排布正常以获得可靠的分析结果。另外,标准的SQL集合表示有限。比如,它们仅提供基础分布的根据经验的摘要测量,但无法容易地检测不规则或多样模式的分布。例如,上述的这种利用布林线的方式,假设一个事件流的标准分布,以及无法支持随意的流的假设。因而,非标准分布的结果可能为低质量的,因为它们包括不规则的或多样模式的分布。基于规则的或基于状态的CEP发动机也可能提供简单的集合例如上述的SQL功能。那么规则或状态可能也利用这些集合从平均性能检测偏差。因此,利用基于规则的或基于状态的CEP发动机,基于SQL的CEP发动机的相关问题也仍然会发生在基于规则的或基于状态的CEP发动机上。一般标准集合只提供摘要测量,这些摘要测量不检测不规则的或多样模式的分布。另一个相关的新技术在流挖掘算法上毫无希望。流挖掘算法分析事件流是一种实时的行为。然而,这领域的成果只是发展初期,还需要更多的成果。因此,本领域需要一种提高的系统和/或方法以检测事件流的偏差,例如,提供一种CEP应用或类似的东西。
技术实现思路
本专利技术实施例的一个目的是能够在至少两个时间窗口内计算事件流的偏差。在某些实施例中,其中的一个时间可能围绕整个事件流。本专利技术实施例的另一个目的是通过使用核密度估计(KDEs)估算事件流的偏差。本专利技术实施例的再一个目的是一旦产生一个事件流的偏差,就会发送通知。本专利技术实施例的另一个目的是在事件流的理想性能和事件流性能的短期计算之间计算一个偏差。本专利技术实施例的再一个目的是比对一个长期时间窗口的偏差和短期时间窗口的偏差。本专利技术实施例的再一个目的是对比事件流的偏差和阀值。在本专利技术实施例中,提供了一种适用于处理系统如至少包括一个处理器上的偏差检测方法。处理系统接收至少一个事件流数据,其中该事件流数据包括至少一个属性。计算一个长期统计量,这个长期统计量相应于在第一个时间窗口中的至少一个事件流数据的至少一个监测属性的概率密度函数(PDF)的第一次估算。计算一个短期统计量,这个统计量相应于在第二个时间窗口中的至少一个事件数据流的至少一个监测属性的概率密度函数(HF)的第二次估算。分别计算理想的密度分布和长、短期统计量之间的第一和第二距离。至少基于第一、第二距离计算最新的偏差。最新的偏差与阀值比较。如果更多的监测事件通过至少一个事件数据流被传递,重复上述步骤。在本专利技术的实施例中,提供一种适用于处理系统如至少包括一个处理器上的偏差检测方法。处理系统接收至少一个事件流数据。在第一时间段中,为至少一个事件数据流的至少一个监测事件,需要提供一个短期的核密度估计(KDE)。在第二时间段中,为至少一个事件数据流的至少一个监测事件,需要提供一个长期的核密度估计(KDE)。依靠短期的、长期的核密度估计(KDE)计算一个至少预设定的概率密度函数(HF)的偏差。偏差与阀值比较以检测一个事件流偏差。本专利技术实施例也包括稳定的计算机易读存储介质,当在至少一个处理器上根据存储指令明白处理时,也执行上述和/和其他的方法。同样地,本专利技术实施例提供的系统也使用上述方法,包括用于接收至少一个事件数据流的适配器和执行上述和/或其他方法的处理器。某些实施例中提供数据存储以用于测井有关检测偏差的信息。这些信息包括,例如偏差的时间/日期,期待值或值的范围,实测值或值的范围等。这些方面的实施例可以单独使用和/或形成不同组合以获得更多的实施例。附图说明在图中至少实质上与功能符合的部件在这种情况下可以用同样的标记指出,这些部件不需要在所有图中指出或解释。在图中图I是根据本专利技术实施例的偏差检测方法的流程图。图2显示了根据本专利技术实施例的偏差检测方法得到的图表和基于密度的偏差计 晳奸里图3是根据本专利技术实施例的偏差检测方法的用于偏差检测的程序用户界面。图4为根据本专利技术实施例的执行CEP处理的处理系统的结构框图。具体实施例方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。在本专利技术的实施例中,提供一种计算机执行程序从期待的流属性中检测运行中的实值数据流的偏差(例如,检测事件流的属性)。实施例中可能使用非参数领域的技术,例如密度估计器,去估算提供的事件流的值分布。这种技术提供的分布可能传递一个压缩简要的实值数据流的统计模型和/或一个流的属性。在某些实施例中,根据各个不同时间域计算的多密度组合估计量,在细微的时间分辨率上检本文档来自技高网
...

【技术保护点】
一种适用于处理系统上的偏差检测方法,所述处理系统包括至少一个处理器,其特征在于,所述偏差检测方法包括步骤:(a)从处理系统中接收至少一个事件流数据,所述事件流数据包括至少一个属性;(b)通过至少一个处理器,更新一个长期统计量,所述长期统计量相对于在第一个时间窗口的至少一个事件流数据里的至少一个监测属性的概率密度函数的第一次估算;(c)通过至少一个处理器,更新一个短期统计量,所述长期统计量相对于在第二个时间窗口的至少一个事件流数据里的至少一个监测属性的概率密度函数的第二次估算,且所述第二个时间窗口持续的时间短于所述第一个时间窗口;(d)通过至少一个处理器,分别计算理想的密度分布和长、短期统计量之间的第一和第二距离;(e)通过至少一个处理器,至少基于所述第一、第二距离计算当前的偏差;(f)将当前的偏差与阀值进行比较;(g)对至少一个事件流数进一步提供的检测事件重复步骤(a)~(f)。

【技术特征摘要】
2010.12.17 US 12/971,4591.一种适用于处理系统上的偏差检测方法,所述处理系统包括至少一个处理器,其特征在于,所述偏差检测方法包括步骤 (a)从处理系统中接收至少一个事件流数据,所述事件流数据包括至少一个属性; (b)通过至少一个处理器,更新一个长期统计量,所述长期统计量相对于在第一个时间窗口的至少一个事件流数据里的至少一个监测属性的概率密度函数的第一次估算; (C)通过至少一个处理器,更新一个短期统计量,所述长期统计量相对于在第二个时间窗口的至少一个事件流数据里的至少一个监测属性的概率密度函数的第二次估算,且所述第二个时间窗口持续的时间短于所述第一个时间窗口; (d)通过至少一个处理器,分别计算理想的密度分布和长、短期统计量之间的第一和第二距离; (e)通过至少一个处理器,至少基于所述第一、第二距离计算当前的偏差; (f)将当前的偏差与阀值进行比较; (g)对至少一个事件流数进一步提供的检测事件重复步骤(a) (f)。2.根据权利要求I所述的方法,其特征在于,所述事件流数据的理想密度分布基于多种理想值。3.根据权利要求I所述的方法,其特征在于,所述短期统计量为短期的核密度估计,所述长期统计量为长期的核密度估计。4.根据权利要求I所述的方法,其特征在于,所述第二时间窗口基本围绕整个所述至少一个事件流数据。5.根据权利要求I所述的方法,其特征在于,所述阀值由用户设定。6.根据权利要求I所述的方法,其特征在于,所述阀值由处理系统自动决定。7.根据权利要求I所述的方法,其特征在于,所述计算长期统计量包括使用聚类核。8.根据权利要求I所述的方法,其特征在于,进一步包括步骤在显示屏上显示当前的偏差与阀值比较的结果,所述显示屏与处理系统连接。9.根据权利要求I所述的方法,其特征在于,进一步包括步骤在数据存储器或外部应用上输出当前的偏差与阀值比较的结果。10.根据权利要求I所述的方法,其特征在于,进一步包括步骤当所述当前的偏差超过阀值时发出通知。11.一种适用于处理系统上的偏差检测方法,所述处理...

【专利技术属性】
技术研发人员:迈克尔·卡马特克斯利多夫·海因茨尤尔根·克雷默托拜厄斯·里门施奈德
申请(专利权)人:德商赛克公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1