A high dimensional data stream outlier detection method is used to quickly detect potential outliers in high-dimensional data streams. By analyzing the characteristics of the high-dimensional data flow model, it is proposed to improve the stability of the algorithm on irregular data sets based on robust preprocessing. Because the algorithm is not suitable for high dimensional data, the clustering analysis based on the test data set based on the nearest neighbor and similarity is proposed, and the correlation data set is selected based on the angle vector estimation. In order to improve the robustness of the data by reducing the dimension in the high dimensional space, and speed up the operation speed of the anomaly detection method. Finally, the local anomaly factor of the test data set is calculated based on the angle outlier detection method, and the outliers are identified based on the local anomaly factors. This method can effectively improve the robustness of the algorithm in high dimensional space, and without reducing the precision of the algorithm, it optimizes the storage space of the algorithm and reduces the time overhead of the algorithm, which provides a theoretical basis for the real-time and rapid detection of the anomaly points in the high dimensional data flow model.
【技术实现步骤摘要】
一种高维数据流异常点识别方法
本专利技术涉及数据挖掘,异常点检测等技术,特别是涉及一种高维数据流异常点识别方法。
技术介绍
随着科学技术的日益发展和人类社会的不断进步,人们不管是在生活或是科研中都积累着海量的数据,而数据挖掘技术作为一种新兴而重要的领域,其迅速发展为海量数据的充分利用注入了新的活力。因此,如何有效的从海量数据中发现有价值的异常数据在当下是迫切并且有意义的研究方向。近年来,基于数据挖掘的异常点检测技术研究已经取得了丰硕的成果。国内外的学者们针对不同的领域提出了许许多多的异常点检测方法,对异常点检测研究起到了积极的推动作用。归纳起来主要由三种异常检测方法,分别是基于统计,基于距离,以及基于密度的异常检测方法。基于统计的异常检测方法一般需要知道数据的分布并对应建模,对符合特定分布的数据集有良好的效果。然而,这些数据并不总是符合特定模型的。基于距离的异常检测算法对高维数据集有较好的适应性,但是需要人工凭经验预设模型相关参数,对参数的依赖性较高,不符合我们数据流多变的特性。基于密度的算法对低维的数据集有良好的应用,但是随着维数的增加,数据集将变得越来越稀疏,该方法将会失效。因此,传统算法均不能针对高维数据有很好的应用。伴随着大规模的数据集,数据流模型也得到人们的关注。不同于传统的静态数据库中的数据,数据流模型是有序的,通常是连续的、规模巨大、高速迁移并且数据分布经常随时间变化。由于数据流的特点,这给当前传统面对静态数据集的异常点检测算法提出了新的挑战。第一,由于数据流的规模宏大,我们不可能把所有的数据存入硬盘或者内存;第二,高速的特性要求我们实时并且 ...
【技术保护点】
1.一种基于鲁棒预处理过程和特征子空间的角度分布异常点检测方法,用于高维数据流异常点检测,包括步骤:A.初始化局部异常因子数据集LOS和特征数据集S,并实时采集高维数据流数据的数据集X;B.对数据集X进行预处理,依次运用中位数标准化方法和最大最小标准方法化进行特征归一化为X*;C.基于K最近邻方法得到X*中每个点同其他点之间的距离,从小到大排序后得到最近邻列表为NNk;D.根据得到的最近邻列表NNk,运用SNN相似性方法计算得到数据集内每两个点之间的相似度基数构成数据集RP;E.求得相似度数据集RP的平均向量,并计算出该向量与其他所有维度之间的成对余弦值PCos;F.判断成对余弦值PCos与阈值G1之间的小大关系,若其大于阈值G1则保留其相关特征属性,否则剔除其相关特征属性;G.运用角度方法计算处理过后的特征数据集S的局部异常因子LOS,假如LOS大于阈值G2,判定为异常点,反之为正常点;H.更新LOS和S数据集并输出异常点。
【技术特征摘要】
1.一种基于鲁棒预处理过程和特征子空间的角度分布异常点检测方法,用于高维数据流异常点检测,包括步骤:A.初始化局部异常因子数据集LOS和特征数据集S,并实时采集高维数据流数据的数据集X;B.对数据集X进行预处理,依次运用中位数标准化方法和最大最小标准方法化进行特征归一化为X*;C.基于K最近邻方法得到X*中每个点同其他点之间的距离,从小到大排序后得到最近邻列表为NNk;D.根据得到的最近邻列表NNk,运用SNN相似性方法计算得到数据集内每两个点之间的相似度基数构成数据集RP;E.求得相似度数据集RP的平均向量,并计算出该向量与其他所有维度之间的成对余弦值PCos;F.判断成对余弦值PCos与阈值G1之间的小大关系,若其大于阈值G1则保留其相关特征属性,否则剔除其相关特征属性;G.运用角度方法计算处理过后的特征数据集S的局部异常因子LOS,假如LOS大于阈值G2,判定为异常点,反之为正常点;H.更新LOS和S数据集并输出异常点。2.根据权利要求1所述一种高维数据流异常点检测方法,其特征在于:所述步骤A创建数据集LOS用来存放每个点的局部异常因子,以及数据集S用来存放相关子集和每个保留特征属性的偏离度因子,初始化数据集LOS,S,并实时的采集高维的数据流数据,存放在数据集X中。3.根据权利要求1所述一种高维数据流异常点检测方法,其特征在于:所述步骤B对采集到的存放高维数据流数据的集合X,首先运用中位数标准化方法预处理数据集X排除偏差较大和偏差较小的数据对数据集的影响,然后运用最大最小标准化方法预处理数据集保证数据集的自然分布属性,预处理后数据集为X*。4.根据权利要求1所述一种高...
【专利技术属性】
技术研发人员:禄盛,胡子豪,谢颖,马艺纬,朴昌浩,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:重庆,50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。