The present invention provides a method of mining outlier mining and device, which includes the outlier mining method, the multidimensional data set is divided into a plurality of grid elements, and to determine the elements of each data point in the cube is located; according to the number of each of the plurality of grid units the grid unit within the data point, the boundary unit determines that the plurality of grid cells; LOF algorithm for mining outliers on the boundary of the data unit based on point. Through the technical scheme of the invention, the amount of data needed to be detected in the outlier mining can be effectively reduced, thereby reducing the calculation amount of the mining algorithm and reducing the running time of the mining algorithm.
【技术实现步骤摘要】
离群点的挖掘方法及挖掘装置
本专利技术涉及数据处理
,具体而言,涉及一种离群点的挖掘方法和一种离群点的挖掘装置。
技术介绍
例外数据挖掘是数据挖掘中的一个重要研究内容,其目的是发现数据集中行为异常的少量数据对象。其中的例外即为离群点,所谓离群点是指在数据集中,常常存在一些数据对象,它们不符合数据的一般模型,因此称这样的数据对象为离群点。例外数据挖掘技术都需要对于异常情况做出快速而敏感的检测,这些都为离群点的挖掘提供了潜在的应用背景。离群点挖掘可以描述如下:对于给定的N个数据点或对象的集合,及预期的离群点的数目k,是指发现与剩余的数据相比是有显著异常的或不一致的前k个对象。近年来,基于数据挖掘思想的离群点挖掘研究取得了一系列重要的成果和挖掘方法,例如基于深度的方法、基于距离的方法和基于密度的方法。但是,现有的离群点挖掘算法均是对点集中的所有点进行检测,以选择出符合条件的点作为挖掘结果。由于点集中点的数量较多,若对点集中的所有点均进行检测以确定离群点,无疑会增加数量繁多的计算量,同时也会增加算法的运行时长。因此,如何能够在进行离群点的挖掘时,减少挖掘算法的计算量 ...
【技术保护点】
一种离群点的挖掘方法,其特征在于,包括:将多维数据集划分为多个网格单元,并确定所述多维数据集中的每个数据点所在的网格单元;根据所述多个网格单元中的每个网格单元内的数据点的个数,确定所述多个网格单元中的边界单元;基于LOF算法对所述边界单元中的数据点进行离群点的挖掘。
【技术特征摘要】
1.一种离群点的挖掘方法,其特征在于,包括:将多维数据集划分为多个网格单元,并确定所述多维数据集中的每个数据点所在的网格单元;根据所述多个网格单元中的每个网格单元内的数据点的个数,确定所述多个网格单元中的边界单元;基于LOF算法对所述边界单元中的数据点进行离群点的挖掘。2.根据权利要求1所述的离群点的挖掘方法,其特征在于,所述将多维数据集划分为多个网格单元的步骤具体包括:根据所述多维数据集中每一维数据集的相邻数据点之间的平均距离,计算所述每一维数据集的划分间隔值;基于所述每一维数据集的划分间隔值将所述多维数据集划分为多个网格单元。3.根据权利要求2所述的离群点的挖掘方法,其特征在于,根据所述多维数据集中每一维数据集的相邻数据点之间的平均距离,计算所述每一维数据集的划分间隔值的步骤具体包括:将所述每一维数据集中的数据点进行排序,以确定所述每一维数据集的值域;计算所述每一维数据集中相邻数据点之间的间隔值,并统计每个间隔值的个数;根据以下公式计算所述每一维数据集的划分间隔值:其中,si表示维标记,表示si维的网格划分的间隔值,li表示在si维中具有不同间隔值的个数,每个间隔值及出现的次数分别为Invt、mt。4.根据权利要求1所述的离群点的挖掘方法,其特征在于,确定所述多个网格单元中的边界单元的步骤具体包括:通过哈希表存储所述多个网格单元中的非空网格单元的信息;根据所述非空网格单元的相邻单元内的数据点的数量,确定所述多个网格单元中的边界单元。5.根据权利要求1至4中任一项所述的离群点的挖掘方法,其特征在于,基于LOF算法对所述边界单元中的数据点进行离群点的挖掘的步骤具体包括:基于所述LOF算法计算所述边界单元中的每个数据点的LOF值;按照LOF值从大到小的顺序,取出所述边界单元...
【专利技术属性】
技术研发人员:于冰,
申请(专利权)人:北大方正集团有限公司,北京北大方正电子有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。