一种高维数据流异常点识别方法技术

技术编号:18497969 阅读:70 留言:0更新日期:2018-07-21 20:36
一种高维数据流异常点检测方法,用于快速检测高维数据流中的潜在异常点。通过分析高维数据流模型的特点,提出运用基于鲁棒预处理过程来提高算法在不规范数据集上的稳定性。由于算法在面对高维数据时不适用,提出基于最近邻域和相似性生成测试数据集进行聚类分析,并基于角度向量估计选取相关数据集,以此对数据进行降维处理提高在高维空间的鲁棒性,并加快异常点检测方法的运算速度。最后基于角度异常点检测方法计算测试数据集的局部异常因子,并依据局部异常因子进行异常点的识别。采用本发明专利技术方法,能够有效提高算法在高维空间的稳健性,并在不降低算法精度的情况下,优化了算法的储存空间以及降低了算法的时间开销,为实时快速检测高维数据流模型中的异常点提供了理论基础。

A method for identifying abnormal points of high dimensional data flow

A high dimensional data stream outlier detection method is used to quickly detect potential outliers in high-dimensional data streams. By analyzing the characteristics of the high-dimensional data flow model, it is proposed to improve the stability of the algorithm on irregular data sets based on robust preprocessing. Because the algorithm is not suitable for high dimensional data, the clustering analysis based on the test data set based on the nearest neighbor and similarity is proposed, and the correlation data set is selected based on the angle vector estimation. In order to improve the robustness of the data by reducing the dimension in the high dimensional space, and speed up the operation speed of the anomaly detection method. Finally, the local anomaly factor of the test data set is calculated based on the angle outlier detection method, and the outliers are identified based on the local anomaly factors. This method can effectively improve the robustness of the algorithm in high dimensional space, and without reducing the precision of the algorithm, it optimizes the storage space of the algorithm and reduces the time overhead of the algorithm, which provides a theoretical basis for the real-time and rapid detection of the anomaly points in the high dimensional data flow model.

【技术实现步骤摘要】
一种高维数据流异常点识别方法
本专利技术涉及数据挖掘,异常点检测等技术,特别是涉及一种高维数据流异常点识别方法。
技术介绍
随着科学技术的日益发展和人类社会的不断进步,人们不管是在生活或是科研中都积累着海量的数据,而数据挖掘技术作为一种新兴而重要的领域,其迅速发展为海量数据的充分利用注入了新的活力。因此,如何有效的从海量数据中发现有价值的异常数据在当下是迫切并且有意义的研究方向。近年来,基于数据挖掘的异常点检测技术研究已经取得了丰硕的成果。国内外的学者们针对不同的领域提出了许许多多的异常点检测方法,对异常点检测研究起到了积极的推动作用。归纳起来主要由三种异常检测方法,分别是基于统计,基于距离,以及基于密度的异常检测方法。基于统计的异常检测方法一般需要知道数据的分布并对应建模,对符合特定分布的数据集有良好的效果。然而,这些数据并不总是符合特定模型的。基于距离的异常检测算法对高维数据集有较好的适应性,但是需要人工凭经验预设模型相关参数,对参数的依赖性较高,不符合我们数据流多变的特性。基于密度的算法对低维的数据集有良好的应用,但是随着维数的增加,数据集将变得越来越稀疏,该方法将会失效。因此,传统算法均不能针对高维数据有很好的应用。伴随着大规模的数据集,数据流模型也得到人们的关注。不同于传统的静态数据库中的数据,数据流模型是有序的,通常是连续的、规模巨大、高速迁移并且数据分布经常随时间变化。由于数据流的特点,这给当前传统面对静态数据集的异常点检测算法提出了新的挑战。第一,由于数据流的规模宏大,我们不可能把所有的数据存入硬盘或者内存;第二,高速的特性要求我们实时并且更快的对数据进行检测;第三,传统算法对于不断迁移分布(数据迁移)的数据效果不是很理想。因此,提出有效的适应高维数据流模型的异常点检测算法日益成为我们异常点检测研究中的重点方向。
技术实现思路
针对上述背景中存在的问题,本专利技术提供了一种高维数据流异常点识别方法,以解决传统异常点检测方法不适用于高维数据流模型上的异常点检测难题。本专利技术采用的技术方案的步骤如下:一种基于鲁棒预处理过程和特征子空间的角度分布异常点检测方法,用于高维数据流异常点检测,包括步骤:A.初始化局部异常因子数据集LOS和特征数据集S,并实时采集高维数据流数据的数据集X;B.对数据集X进行预处理,依次运用中位数标准化方法和最大最小标准方法化进行特征归一化为X*;C.基于K最近邻方法得到X*中每个点同其他点之间的距离,从小到大排序后得到最近邻列表为NNk;D.根据得到的最近邻列表NNk,运用SNN相似性方法计算得到数据集内每两个点之间的相似度基数构成数据集RP;E.求得相似度数据集RP的平均向量,并计算出该向量与其他所有维度之间的成对余弦值PCos;F.判断成对余弦值PCos与阈值G1之间的小大关系,若其大于阈值G1则保留其相关特征属性,否则剔除其相关特征属性;G.运用角度方法计算处理过后的特征数据集S的局部异常因子LOS,假如LOS大于阈值G2,判定为异常点,反之为正常点;H.更新LOS和S数据集并输出异常点。所述步骤A创建数据集LOS用来存放每个点的局部异常因子,以及数据集S用来存放相关子集和每个保留特征属性的偏离度因子,初始化数据集LOS,S,并实时的采集高维的数据流数据,存放在数据集X中。所述步骤B对采集到的存放高维数据流数据的集合X,首先运用中位数标准化方法预处理数据集X排除偏差较大和偏差较小的数据对数据集的影响,然后运用最大最小标准化方法预处理数据集保证数据集的自然分布属性,预处理后数据集为X*。其中中位数标准化公式和最大最小标准化公式如下所示:其中Si为数据的平均偏差,object[j]·fi和oi·fi为对象o的f特征属性,mi为数据集f特征的中位数,min为数据集的最小值,max为数据集的最大值,newMax和newMin为用户定义的期望数据分布的最大最小值,这里定义为1和-1。所述步骤C运用k最近邻域方法求采集到的最新数据与之前每个数据之间的欧式距离,按从小到大的顺序排序得到最近邻列表集NNk。K最近邻域方法通过在训练集中查找一组最接近测试对象的k对象组,并在此相邻关系下基于特殊类的突出的状态或性质来进行标记的分配。k大小的选取也十分关键,如果k选择的过小,则结果就会对异常点非常敏感;反之如果k选择的过大,则邻域就可能包含太多的其他类的点,在本研究中k取15。欧式距离公式如下所示:其中x1k为第一个数据点的第k维特征属性,x2k为第二个数据点的第k维特征属性。所述步骤D根据前面得到的最近邻列表集NNk,运用SNN相似性方法求得两两点之间的相似性基数,其中相似性基数为两点最近邻列表集NNk的交集,基数越大说明两点的生成机制越相似,反之亦然。点p和点q的SNN相似性公式如下所示:SimSNN(p,q)=Card(NNK(p)∩NNK(q))(5)其中函数Card返回NNK(p)和NNK(q)的交集,然后通过对p与数据集X中所有点的相似性基数排序,得到进一步的最近邻域表SNN(p)构成数据集RP。所述步骤E求得数据集RP的几何中心点q,向量为待检测点与中心点q的连接向量,定义为各个维度的轴平行向量,最后定义成对余弦PCos为向量与各个维度的轴平行向量的平均值。成对余弦PCos的定义如下公式所示:其中j-为不同于j的任意维度。所述步骤F根据成对余弦值PCos以及参数θ设定阈值G1,根据PCos的性质,PCos越大那么该维数的特征属性所占的权重也越大,反之亦然。因此假如PCos大于所设定的阈值G1,那么保留其相关特征属性,反之则剔除其相关属性。阈值G1的设定如以下公式所示:其中θ为依据经验设定的参数,在本文中θ取0.45。所述步骤G对数据集S的特征属性进行上一步处理后,基于角度异常点检测方法运用空间向量角度公式计算待检测数据的在保留子空间的局部异常因子LOS,假如局部异常因子大于设定的阈值G2,那么判定为异常点,反之为正常点。LOS的计算公式如下所示:LOS(p)=Var[Θapb]=MOA2(p)-(MOA1(p))2;(8)其中,公式(8)中的LOS(p)表示点P的异常因子值。公式(9)中的Θapb表示向量与向量构成的角度,点p与点a,点b互异,n表示数据集X中数据元素的个数。公式(10)中的Θ2apb表示向量与向量之间所构成角度的平方,n表示数据集X中数据元素的个数。所述步骤H返回上诉步骤计算得到的LOS值,以及处理过后的数据集S,并更新初始的数据集LOS,S。通过重复上诉步骤实现对高维数据流数据的异常点检测。本专利技术提出了一种全新的高维数据流异常点检测方法,具有以下优点:1.通过运用中位数标准化和最大最小值标准化技术对数据集进行归一化处理,有效的保证的数据集的规范性,避免了数据不规范对算法的影响,提高了算法的鲁棒性。2.通过运用基于KNN最近邻域和SNN相似度方法,可以对高维数据流上的数据流进行聚类分析,避免了采用所有数据集进行异常检测,节省了时间开销,为快速检测提供了条件。3.通过对数据集的所有维度进行权值计算,有效的将高维数据投影到了低维的子空间中,提高了算法在面对高维数据时的适应性,保证了算法在随着维度的增加时,能够稳定有效的运行。附图说明图1是本专利技术实施步骤A本文档来自技高网
...

【技术保护点】
1.一种基于鲁棒预处理过程和特征子空间的角度分布异常点检测方法,用于高维数据流异常点检测,包括步骤:A.初始化局部异常因子数据集LOS和特征数据集S,并实时采集高维数据流数据的数据集X;B.对数据集X进行预处理,依次运用中位数标准化方法和最大最小标准方法化进行特征归一化为X*;C.基于K最近邻方法得到X*中每个点同其他点之间的距离,从小到大排序后得到最近邻列表为NNk;D.根据得到的最近邻列表NNk,运用SNN相似性方法计算得到数据集内每两个点之间的相似度基数构成数据集RP;E.求得相似度数据集RP的平均向量,并计算出该向量与其他所有维度之间的成对余弦值PCos;F.判断成对余弦值PCos与阈值G1之间的小大关系,若其大于阈值G1则保留其相关特征属性,否则剔除其相关特征属性;G.运用角度方法计算处理过后的特征数据集S的局部异常因子LOS,假如LOS大于阈值G2,判定为异常点,反之为正常点;H.更新LOS和S数据集并输出异常点。

【技术特征摘要】
1.一种基于鲁棒预处理过程和特征子空间的角度分布异常点检测方法,用于高维数据流异常点检测,包括步骤:A.初始化局部异常因子数据集LOS和特征数据集S,并实时采集高维数据流数据的数据集X;B.对数据集X进行预处理,依次运用中位数标准化方法和最大最小标准方法化进行特征归一化为X*;C.基于K最近邻方法得到X*中每个点同其他点之间的距离,从小到大排序后得到最近邻列表为NNk;D.根据得到的最近邻列表NNk,运用SNN相似性方法计算得到数据集内每两个点之间的相似度基数构成数据集RP;E.求得相似度数据集RP的平均向量,并计算出该向量与其他所有维度之间的成对余弦值PCos;F.判断成对余弦值PCos与阈值G1之间的小大关系,若其大于阈值G1则保留其相关特征属性,否则剔除其相关特征属性;G.运用角度方法计算处理过后的特征数据集S的局部异常因子LOS,假如LOS大于阈值G2,判定为异常点,反之为正常点;H.更新LOS和S数据集并输出异常点。2.根据权利要求1所述一种高维数据流异常点检测方法,其特征在于:所述步骤A创建数据集LOS用来存放每个点的局部异常因子,以及数据集S用来存放相关子集和每个保留特征属性的偏离度因子,初始化数据集LOS,S,并实时的采集高维的数据流数据,存放在数据集X中。3.根据权利要求1所述一种高维数据流异常点检测方法,其特征在于:所述步骤B对采集到的存放高维数据流数据的集合X,首先运用中位数标准化方法预处理数据集X排除偏差较大和偏差较小的数据对数据集的影响,然后运用最大最小标准化方法预处理数据集保证数据集的自然分布属性,预处理后数据集为X*。4.根据权利要求1所述一种高...

【专利技术属性】
技术研发人员:禄盛胡子豪谢颖马艺纬朴昌浩
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1