一种异常状态在线识别方法技术

技术编号:11943411 阅读:223 留言:0更新日期:2015-08-26 14:39
一种异常状态在线识别方法,用于实时在线检测高维数据流中的潜在异常点。通过分析数据流的数据特性,提出运用基于角度分布的方法来获取数据流上每一个数据所对应的异常因子值。结合实时监控数据流的需要,提出建立基于正常集,边界集的小规模数据流型计算集,以此来加快异常状态在线识别方法的运算速度。针对大数据流的概念转移问题,提出建立正常集,边界集的实时更新机制,以此来保证异常状态在线识别方法在高维空间的检测精确度。采用本发明专利技术方法,不仅可以极大地降低对时间和物理存储的消耗,而且可以准确,实时地在线检测高维大数据流中的潜在异常点,为实现数据流的实时在线评估创造了条件,从而增强了大数据应用系统的稳定性。

【技术实现步骤摘要】

本专利技术涉及数据挖掘,异常点检测等技术,特别是涉及一种异常状态在线识别方 法。
技术介绍
异常点检测是数据挖掘领域中最重要的技术方法之一。随着科学技术的不断发 展,如电子商务,网络流量监控,无线通信,物流运输等许多实际应用都会产生时序,海量 的,以及迅速变化的无穷数据流。一般情况下,海量数据流具有高维与概念转移等特征。通 常,这些特征极大地阻碍了数据流上的异常检测。因此,如何从海量数据中实现对不安全因 素的有效挖掘是一个非常重要的课题。自从异常点检测的研究兴起以来,国内外的一些著名研究机构和学术单位都在这 个领域开展了大量研究工作,并且取得丰硕成果。归纳起来主要由三种异常检测方法,分别 是基于统计,基于距离,以及基于密度的异常检测方法。基于统计的异常检测方法一般需要 已知数据集的模型,分布参数,以及预期的异常点数目。然而,这些参数往往都是不容易被 获取的。基于距离的异常检测算法对维数较高的数据集有较好的效果,但是往往需要事先 设定相关参数,而且需要频繁的扫描整个数据集,因此不能满足数据流的快速挖掘要求。基 于密度的算法大多数对最近邻方法有依赖,最典型的是运用了索引数据结构的思想来提高 算法性能,但是计算复杂度依然较高。另外,随着维数的增加,在高维空间中,数据将会变得 越来越稀疏。在这种情况下,几乎所有的数据都是异常点。因此,基于密度的方法也不适用 于数据流上的异常点检测。 根据以上描述,传统的异常点检测方法都无法适应于数据流上的异常状态在线识 另IJ。因此迫切需要提供一种能够支持动态更新的异常状态检测方法,在保证检测精度的前 提下能够降低对时间和物理存储的消耗,从而实现对高维数据流的速处理和实时检测。
技术实现思路
针对上述背景中存在的问题,本专利技术提供了,以解决 传统异常点检测方法不适用于在线识别数据流上的异常状态的问题。 本专利技术采用的技术方案的步骤如下: -种异常状态在线识别方法,用于实时在线检测高维数据流中的潜在异常点,包 括步骤:A.实时采集数据流中的数据元素,获得含有一定数据元素的高维数据样本集X, 并对高维数据样本集X进行预处理;B.运用基于角度分布的异常因子公式对集合X中的每一个数据元素进行分析,以 此来获得集合X中每个数据元素的异常因子值;C.根据每一个数据元素的异常因子值,以及设定的正常集,边界集阈值划分集合 X中的所有数据元素。即是将数据元素纳入正常集,边界集,异常集中的一种。从而构造出 初始正常集,边界集; D.采集数据流中的最新数据元素X (i),与正常集,边界集建立小规模数据流型计 算集; E.运用基于角度分布的异常因子公式对最新数据元素X(i)进行分析,以此来获 得该数据元素的异常因子值;F.根据最新数据元素的异常因子值,以及设定的正常集,边界集阈值将最新数据 元素x(i)纳入正常集,边界集中的一种。如果该数据元素为异常点,则将其纳入异常集0, 并将其作为异常点输出;G.实时检测正常集,边界集是否发生溢出。若发生溢出,则将正常集,边界集按先 进先出(FIFO)方式进行更新; H.跳转至步骤D,直至检测完所有数据元素。 所述步骤A实时采集数据流中的数据元素,并把采集到的数据元素依次存储到数 据集X。当数据集X中的工况数据达到上限后,对数据集X中的数据元素进行预处理。预处 理包括对每个数据元素的物理或数学特征按顺序进行排列,并进行规范,简化处理。 所述步骤B运用基于角度分布的异常因子公式对数据集X中的每一个数据元素进 行运算分析,以此来获得数据集X中每一个数据元素对应的异常因子值。基于角度分布的 异常因子公式如下所示:【主权项】1. ,用于实时在线检测高维数据流中的潜在异常点,包括 步骤: A. 实时采集数据流中的数据元素,获得含有一定数据元素的高维数据样本集X,并对 高维数据样本集X进行预处理; B. 运用基于角度分布的异常因子公式对集合X中的每一个数据元素进行分析,以此来 获得集合X中每个数据元素的异常因子值; C. 根据每一个数据元素的异常因子值,以及设定的正常集,边界集阈值划分集合X中 的所有数据元素。即是将数据元素纳入正常集,边界集,异常集中的一种。从而构造出初始 正常集,边界集; D. 采集数据流中的最新数据元素X(i),与正常集,边界集建立小规模数据流型计算 集; E. 运用基于角度分布的异常因子公式对最新数据元素X(i)进行分析,以此来获得该 数据元素的异常因子值; F. 根据最新数据元素的异常因子值,以及设定的正常集,边界集阈值将最新数据元素 X(i)纳入正常集,边界集中的一种。如果该数据元素为异常点,则将其纳入异常集0,并将 其作为异常点输出; G. 实时检测正常集,边界集是否发生溢出。若发生溢出,则将正常集,边界集按先进先 出(FIFO)方式进行更新; H. 跳转至步骤D,直至检测完所有数据元素。2. 根据权利要求1所述,其特征在于:所述步骤A实时采 集数据流中的数据元素,并把采集到的数据元素依次存储到数据集X。当数据集X中的工况 数据达到上限后,对数据集X中的数据元素进行预处理。预处理包括对每个数据元素的物 理或数学特征按顺序进行排列,并进行规范,简化处理。3. 根据权利要求1所述,其特征在于:所述步骤B运用基 于角度分布的异常因子公式对数据集X中的每一个数据元素进行运算分析,以此来获得数 据集X中每一个数据元素对应的异常因子值。4. 根据权利要求1所述,其特征在于:所述步骤C根据正 常集,边界集阈值,以及步骤B获得的异常因子值来划分数据集X中的每一个数据元素。将 每一个数据元素的异常因子值分别与正常集阈值,边界集阈值进行比较。若该异常因子值 大于等于正常集阈值,则把该数据元素纳入正常集;若该异常因子值小于正常集阈值并且 大于等于边界集阈值,则把该数据元素纳入边界集;若该异常因子值满足小于正常集阈值, 并且也满足小于边界集阈值,则把该元素纳入异常集。以此来获得初始正常样本集,边界样 本集。5. 根据权利要求1所述,其特征在于:所述步骤D为获得 最新数据元素X (i)的异常因子值做准备。采集数据流中的最新数据元素X (i),并将该数据 元素与步骤C获得的正常集,边界集组成小规模数据流型计算集。6. 根据权利要求1所述,其特征在于:所述步骤E运用基 于角度分布的异常因子公式对步骤D采集到的最新数据元素X(i)进行分析,以此来获得元 素X (i)的异常因子值。分析该数据元素X (i)需要参考数据流型计算集中的正常点与边界 点。基于角度分布的异常因子公式与步骤B中的角度分布异常因子公式一致。7. 根据权利要求1所述,其特征在于:所述步骤F跟据正 常集,边界集阈值,以及步骤E获得的数据元素X (i)的异常因子值来决定数据元素X (i)的 归属。将数据元素X(i)的异常因子值分别与正常集阈值,边界集阈值进行比较。若该异常 因子值大于等于正常集阈值,则把该数据元素纳入正常集;若该异常因子值介于正常集阈 值与边界集阈值之间,则把该数据元素纳入边界集;若该异常因子值不仅满足小于正常集 阈值,并且也满足小于边界集阈值,则把该元素纳入异常集,并将元素X(i)作为异常点输 出。通过上述方式实现对数据流的实时检测。8. 根据权利要求1所述本文档来自技高网
...
一种异常状态在线识别方法

【技术保护点】
一种异常状态在线识别方法,用于实时在线检测高维数据流中的潜在异常点,包括步骤:A.实时采集数据流中的数据元素,获得含有一定数据元素的高维数据样本集X,并对高维数据样本集X进行预处理;B.运用基于角度分布的异常因子公式对集合X中的每一个数据元素进行分析,以此来获得集合X中每个数据元素的异常因子值;C.根据每一个数据元素的异常因子值,以及设定的正常集,边界集阈值划分集合X中的所有数据元素。即是将数据元素纳入正常集,边界集,异常集中的一种。从而构造出初始正常集,边界集;D.采集数据流中的最新数据元素X(i),与正常集,边界集建立小规模数据流型计算集;E.运用基于角度分布的异常因子公式对最新数据元素X(i)进行分析,以此来获得该数据元素的异常因子值;F.根据最新数据元素的异常因子值,以及设定的正常集,边界集阈值将最新数据元素X(i)纳入正常集,边界集中的一种。如果该数据元素为异常点,则将其纳入异常集O,并将其作为异常点输出;G.实时检测正常集,边界集是否发生溢出。若发生溢出,则将正常集,边界集按先进先出(FIFO)方式进行更新;H.跳转至步骤D,直至检测完所有数据元素。

【技术特征摘要】

【专利技术属性】
技术研发人员:张艳黄质權五景
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆;85

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1