一种高维大数据离群点检测方法技术

技术编号：28717543 阅读：15 留言：0更新日期：2021-06-06 02:33

本发明专利技术公开了一种高维大数据离群点检测方法，属于离群点检测技术领域。该方法首先利用主成分分析法对输入的高维大数据进行降维处理，解决了孤立森林算法不适用于高维数据的问题，然后对降维后的数据用iForest算法进行异常值检测，具体地是对降维后的数据用基于k

全部详细技术资料下载

【技术实现步骤摘要】
一种高维大数据离群点检测方法

[0001]本专利技术涉及离群点检测方法，具体涉及一种高维大数据离群点检测方法。

技术介绍

[0002]随着数据挖掘技术的飞速发展，人们越来越关注数据的整体趋势以及与趋势明显偏离的数据点，通常这些离群的数据点包含着比整体趋势更加重要的信息。对离群点的研究是为了能够有效地识别大数据中的异常数据，进而挖掘出数据集中的重要潜在信息。当异常值被识别出时，数据分析人员将对离群点进行分析和异常挖掘。这种思路可以应用到很多场景中，例如对违法行为的监测、工业生产中的不良产品检测以及股票市场异常交易等等。
[0003]而当前针对离群点检测的方法主要是传统的低维离散点检测方法和高维大数据离散点检测方法。常规的异常检测方法通常依赖于索引结构或网格划分，并且通常仅适用于维数较小的数据。对于低维数据而言，最简单有效的检测算法便是iForest(Isolation Forest，孤立森林)算法。随着数据维数的增加，常规异常检测算法的性能也会迅速下降。目前学术研究中对异常有许多的定义。IForest算法适用于连续数据检测，并且异常点通常被描述为“易于区分的无关值”，可以将其理解为很少分布且远离高密度组的点。iForest是一种基于集成学习的快速异常检测方法。它具有线性时间复杂度和高精度的特点，可满足大数据处理要求。但是在高维空间中，数据稀疏，并且数据点几乎等距。从密度或距离的角度来看，每个点都可以看作是一个离群值，并且几乎不可能对高维数据进行聚类。iForest算法由于每次切数据空间都是随机选取一个维度和该维...

【技术保护点】

【技术特征摘要】
1.一种高维大数据离群点检测方法，其特征在于，包括：步骤1：利用主成分分析法对输入的高维大数据进行降维处理；步骤2：对降维后的数据用iForest算法进行异常值检测。2.根据权利要求1所述的高维大数据离群点检测方法，其特征在于，步骤1所述的利用主成分分析法对输入的高维大数据进行降维处理，包括如下内容：首先分别求解大数据样本点各属性的属性值的平均值，使各属性的每一属性值减去对应的平均值；然后将每个属性值作为变量，根据各属性值与对应的平均值的差值，求解属性的协方差矩阵；再然后通过协方差矩阵求解特征值和特征向量；又然后将特征值按照从大到小的顺序排序，选择其中最大的k个，最后将其对应的k个特征向量分别作为列向量组成特征向量矩阵，并将样本点投影到选取的k个特征向量上。3.根据权利要求1或2所述的高维大数据离群点检测方法，其特征在于，所述步骤2为对降维后的数据用基于k
‑
means的iForest算法进行异常值检测。4.根据权利要求3所述的高维大数据离群点检测方法，其特征在于，所述步骤2包括如下步骤：步骤2.1：从降维处理后得到的一组连续性数据组成的训练集中随机选择多个样本数据点作为子采样集，将该子采样集作为iTree的根节点；步骤2.2：从当前子采样集中随机选择一个维度，维度的值构成一个集合，利用k
‑
means聚类算法将该集合的最大值和最小值之间的数值分为多个簇，每个簇作为一个子节点；步骤2.3：对步骤2.2得到的子节点随机选择一个其...

【专利技术属性】
技术研发人员：郭鹏飞，李鑫，
申请(专利权)人：辽宁工程技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人