确定时间数据中的周期性效应制造技术

技术编号:7448580 阅读:310 留言:0更新日期:2012-06-21 13:04
为确定时间数据中的周期性效应,对于多个候选周期中的每一个,执行以下步骤。定义相应候选周期的间隔。将所述间隔划分(108)为包含各自时间数据集合的多个桶,以及计算相应桶的统计计量。使用所计算的统计计量来计算(112)相应候选周期的分数。为相应候选周期所计算的分数被用于识别所述候选周期中的哪个候选周期代表时间数据的周期性效应。

【技术实现步骤摘要】
【国外来华专利技术】确定时间数据中的周期性效应
技术介绍
为了更好地理解企业(如公司、教育机构、政府机构,等等)内的操作,企业可以收集与这样的操作有关的各方面的信息。例如,将监视器加入到信息技术(IT)系统以在IT 系统操作期间收集数据。企业还可以收集与企业的业务方面有关的信息,如与由企业提供的产品(货物和/或服务)有关的信息。所期望的是分析数据以执行异常检测,如检测故降情况,错误,或企业可能希望解决的任何其他情况。然而,由于所接收的数据中存在周期性(seasonality)(或周期性效应 (seasonal effect)),这样的数据分析是复杂的。附图说明本专利技术的一些实施例针对下图进行描述图1是根据一个实施例,检测时间数据中的周期性的过程的流程图;图2是根据一个实施例,说明时间数据和相应桶(bucket)之间的映射;图3是根据一个实施例,说明通过一过程计算的作为不同周期(season)的函数的误差分数的图表;图4是根据一个实施例,计算连续时间数据的误差分数的过程的流程图;图5是根据一个实施例,计算离散时间数据的误差分数的过程的流程图;图6是其中包括本专利技术实施例的示例性计算机的框图;以及图7是根据一个实施例的基线估计的过程的流程图。具体实施例方式为实现准确分析所收集的有关企业的时间数据,所期望的是识别时间数据的周期性效应(或周期性)。周期性效应指随时间的推移(在时间序列上)收集的时间数据中的时间相关模式,其中该模式趋向于每一定长度的周期(或循环)重复一次。长度可以是秒、 分钟、小时、天、月、年等等。时间数据的周期性行为可以基于不同的使用模式、系统内部过程,或其他因素。例如,相应于典型的系统访问模式,用户卷(user volume)往往显示每日和每周循环。在没有识别时间数据中的周期性的情况下,对时间数据执行的一些分析可能不会产生准确的结果,如假警报。可以对时间数据执行分析以用于异常检测,如确定故障情况、 错误、或企业可能希望解决的任何其他情况。根据一些实施例的周期性检测算法并不假定周期性效应是基于静态的周期,如小时、天、或星期。相反,根据一些实施例的周期性检测算法能够考虑到任意变化长度的周期, 以及识别周期之一来代表时间数据中的周期性效应。例如,考虑到的不同可能周期开始于一小时并以一小时的增量继续直到某一最大周期大小(例如,一星期、一月、或一年)。误差分数被用于帮助选择周期之一作为时间数据中的周期性的代表,其中基于在考虑到相应周期的同时基于时间数据计算的统计计量来得到误差分数。因此,对于多个考虑到的周期(候选周期),产生多个相应误差分数。以不同方式执行误差分数计算取决于时间数据是连续的时间数据还是离散的时间数据(如下文进一步所讨论的)。选择与最低 (或最优)误差分数相关联的候选周期作为最有可能代表时间数据中的的周期性效应的周期。在另一个实施例中,不是使用误差分数,而是可以使用可能性分数作为代替。即使在时间数据中存在间隙,根据一些实施例的周期性检测算法能够执行周期性识别。除此之外,周期性检测算法能够相对好地容许噪声输入数据。此外,周期性检测算法对时间数据(连续的或离散的)起作用而无需固定的(规则的)采样间隔。图1是根据一个实施例,识别时间数据中的周期性的周期性检测算法的流程图。 如图1所示,接收时间数据(在10 。所接收的时间数据是时间序列形式的数据,其包括沿时间点的数据值。时间数据可以由一个或多个监视器收集,例如,如计算机系统、存储系统、 网络系统等等中的监视器。可替换地,时间数据可以是与企业相关联的业务数据。根据一些实施例的技术适用于任何类型的时间数据。周期性检测算法还接收(在104) —组用于测试的候选周期。例如,候选周期可以是范围从0小时到目标小时数的周期。因此,候选周期可以是1小时周期、2小时周期、4小时周期、15小时周期、40小时周期,等等。鉴于周期性检测算法相对简单并因此可以及时地执行这一事实,被测试的候选周期的数可以相对较大。因为能够考虑相对大数量的任意长度的候选周期,所以能够实现时间数据中周期性的更准确识别。每个候选周期被称为周期 k,其中k = 1到nun^easons,其中nun^easons彡2代表所考虑的周期的数量。图1中的块106描绘了针对该组中每个候选周期要执行的处理。所考虑的周期的间隔被划分(在108)为多个桶i (其中i = 1到Nbk,Nbk 代表周期k中桶的数量)。例如,如果所考虑的周期是1小时周期,即间隔为1小时,并且该间隔可以被划分到15分钟的桶中。图2示出将周期间隔200划分到四个十五分钟桶202A、202B、202C、及202D中的例子。对于具有不同间隔的其他周期,可以确定不同长度的桶。接下来,基于每个样本的时间,将所接收的时间数据中的样本分配(在110)至相应的桶。特定样本的时间落入一个桶。在上面的例子中,如果特定样本的时间发生在小时后的15分钟和四分钟之间,则该特定样本将被分配至图2的第二桶202B中。这在图2中示出,其中小时后的第一个一刻钟中所取的所有数据样本被分配至桶202A中,小时后的第二个一刻钟中所取的所有数据样本被分配至桶202B中,小时后的第三个一刻钟中所取的所有数据样本被分配至桶202C中,并且小时后的第四个一刻钟中所取的所有数据样本被分配至桶202D中。因此,如图2所示,将12:00和12:14之间所取的数据样本分配至桶202A 中,将1:00和1:14之间所取的数据样本分配至桶202A中,以及将2:00和2:14之间所取的数据样本分配至桶202A中。接下来,基于周期k的桶中的数据样本,计算(在112)周期k的误差分数, error (k)。为确定误差分数,基于时间数据是连续的时间数据还是离散的时间数据执行不同的处理,如结合图4和图5所述。离散的时间数据指具有少于某预定义数量(如,10)的离散值的数据。针对每个考虑到的候选周期重复块106的处理,从而为相应的候选周期产生相应的误差分数。然后比较(在114)候选周期的误差分数。然后输出(在116)最小误差分数的指示。例如,相应候选周期的误差分数可以存储在误差向量中,并且在116输出的指示可以是该误差向量的索引。标识相应周期的输出索引(或其他指示)可以用于后续处理中以识别时间数据的周期性。在不同的实施例中,不是选择最小的误差分数,而是可以选择具有另外最优值(如,最大分数)的分数一具有“最优”值的分数取决于所计算的分数类型。图3示出根据图1的过程为不同候选周期所计算的示例误差分数的图表。在图3 的例子中,考虑到的候选周期在从0到168小时的范围变动。图表中每个点绘制出相应候选周期的误差分数。点300与最小误差分数相关联。在图3的例子中,点300对应于M小时的周期。因此,从中得出图3的误差分数的时间数据具有M小时的周期性。如上所述,误差分数的计算取决于时间数据是连续的还是离散的数据而不同。图 4是在时间数据是连续的情况下计算周期k的误差分数,error (k)的流程图,而图5是在时间数据是离散的情况下计算周期k的误差分数,error (k)的流程图。在图4中,为所考虑的周期的每个桶i计算(在40 统计计量。在一个例子中, 所述统计计量是被分配到桶的数据样本的中值(median)。在其他例子中,统计计量可以本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】

【专利技术属性】
技术研发人员:I·科亨K·埃森伯格L·阿什克纳兹A·克雷佩尔M·利安M·罗斯曼
申请(专利权)人:惠普开发有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术