一种异常状态在线识别方法技术

技术编号：11943411 阅读：223 留言：0更新日期：2015-08-26 14:39

一种异常状态在线识别方法，用于实时在线检测高维数据流中的潜在异常点。通过分析数据流的数据特性，提出运用基于角度分布的方法来获取数据流上每一个数据所对应的异常因子值。结合实时监控数据流的需要，提出建立基于正常集，边界集的小规模数据流型计算集，以此来加快异常状态在线识别方法的运算速度。针对大数据流的概念转移问题，提出建立正常集，边界集的实时更新机制，以此来保证异常状态在线识别方法在高维空间的检测精确度。采用本发明专利技术方法，不仅可以极大地降低对时间和物理存储的消耗，而且可以准确，实时地在线检测高维大数据流中的潜在异常点，为实现数据流的实时在线评估创造了条件，从而增强了大数据应用系统的稳定性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据挖掘，异常点检测等技术，特别是涉及一种异常状态在线识别方法。
技术介绍
异常点检测是数据挖掘领域中最重要的技术方法之一。随着科学技术的不断发展，如电子商务，网络流量监控，无线通信，物流运输等许多实际应用都会产生时序，海量的，以及迅速变化的无穷数据流。一般情况下，海量数据流具有高维与概念转移等特征。通常，这些特征极大地阻碍了数据流上的异常检测。因此，如何从海量数据中实现对不安全因素的有效挖掘是一个非常重要的课题。自从异常点检测的研究兴起以来，国内外的一些著名研究机构和学术单位都在这个领域开展了大量研究工作，并且取得丰硕成果。归纳起来主要由三种异常检测方法，分别是基于统计，基于距离，以及基于密度的异常检测方法。基于统计的异常检测方法一般需要已知数据集的模型，分布参数，以及预期的异常点数目。然而，这些参数往往都是不容易被获取的。基于距离的异常检测算法对维数较高的数据集有较好的效果，但是往往需要事先设定相关参数，而且需要频繁的扫描整个数据集，因此不能满足数据流的快速挖掘要求。基于密度的算法大多数对最近邻方法有依赖，最典型的是运用了索引数据结构的思想来提高算法性能，但是计算复杂度依然较高。另外，随着维数的增加，在高维空间中，数据将会变得越来越稀疏。在这种情况下，几乎所有的数据都是异常点。因此，基于密度的方法也不适用于数据流上的异常点检测。根据以上描述，传统的异常点检测方法都无法适应于数据流上的异常状态在线识另IJ。因此迫切需要提供一种能够支持动态更新的异常状态检测方法，在保证检测精度的前提下能够降低对...
一种异常状态在线识别方法

【技术保护点】
一种异常状态在线识别方法，用于实时在线检测高维数据流中的潜在异常点，包括步骤：A.实时采集数据流中的数据元素，获得含有一定数据元素的高维数据样本集X，并对高维数据样本集X进行预处理；B.运用基于角度分布的异常因子公式对集合X中的每一个数据元素进行分析，以此来获得集合X中每个数据元素的异常因子值；C.根据每一个数据元素的异常因子值，以及设定的正常集，边界集阈值划分集合X中的所有数据元素。即是将数据元素纳入正常集，边界集，异常集中的一种。从而构造出初始正常集，边界集；D.采集数据流中的最新数据元素X(i)，与正常集，边界集建立小规模数据流型计算集；E.运用基于角度分布的异常因子公式对最新数据元素X(i)进行分析，以此来获得该数据元素的异常因子值；F.根据最新数据元素的异常因子值，以及设定的正常集，边界集阈值将最新数据元素X(i)纳入正常集，边界集中的一种。如果该数据元素为异常点，则将其纳入异常集O，并将其作为异常点输出；G.实时检测正常集，边界集是否发生溢出。若发生溢出，则将正常集，边界集按先进先出(FIFO)方式进行更新；H.跳转至步骤D，直至检测完所有数据元素。

【技术特征摘要】

【专利技术属性】
技术研发人员：张艳，黄质，權五景，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：重庆;85

全部详细技术资料下载我是这个专利的主人