System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于期望核密度离群因子的离群点检测方法技术_技高网
当前位置: 首页 > 专利查询>燕山大学专利>正文

一种基于期望核密度离群因子的离群点检测方法技术

技术编号:40200950 阅读:18 留言:0更新日期:2024-01-27 00:06
本发明专利技术公开了一种基于期望核密度离群因子的离群点检测方法,包括如下步骤;步骤1,输入初始数据集D和近邻参数k,为每个数据对象获取拓展邻域空间ENS(xi);步骤2,计算数据对象xi与数据对象xj之间的核带宽函数h(xj),通过核密度估计方法计算每个数据对象的局部密度;步骤3,针对初始数据集D,计算出期望k距离Ek_dist;在指定k值时,计算每个数据对象的期望距离Edist(xi);步骤4,计算每个数据对象的期望核密度离群因子EKDOF(xi);通过对期望核密度离群因子进行大小比较,输出n个离群点,本发明专利技术能够有效且较为全面的检测出离群点,提高检测精度。

【技术实现步骤摘要】

本专利技术涉及一种基于期望核密度离群因子的离群点检测方法,属于离群点检测,主要为离群点检测算法的改进优化。


技术介绍

1、离群点是指数据集中偏离大多数数据的少量数据对象,它们与正常数据对象存在明显的差异。离群点检测技术致力于消除噪音和干扰或发现潜在的、有价值的信息,是数据挖掘的一个重要研究方向。目前,离群点检测技术已经广泛应用于各大领域中,例如,网络入侵检测、金融欺诈检测、工业损伤检测、垃圾邮件检测、医疗与公共卫生检测等领域。

2、目前离群点检测方法大致可分为基于统计的、基于距离的、基于聚类的和基于密度的。

3、基于统计的方法采用统计学中的标准分布模型拟合数据,若某个数据点与假设的分布模型偏差较大,则视其为离群点。此类方法不适用于高维数据集,并且当数据集不服从任何标准分布或无法判断分布特征时,离群点检测效率将会大大的降低。

4、基于距离的方法通过计算数据对象之间的距离远近,将距离更远的数据对象标记为离群点,避免了数据分布假设。然而,此类方法只考虑了全局离群点,没有顾及到局部离群点。对此,ramaswamy等人提出了一种基于距离的改进离群点检测算法knn(k-nearestneighbors)。该算法首先对原始数据聚类,计算簇中样本点的k近邻距离的上下界,排除距离过小的簇,将剩余数据点中k近邻距离较大的点标记为离群点。文献针对knn算法对近邻参数k值敏感的问题,提出了一种基于自然最近邻的离群点检测算法,通过在不同数据集上自适应获取近邻参数,避免了人为设置。

5、基于聚类的方法将远离正常簇的离群聚类中的数据点以及不属于任何聚类的数据点视为离群点,此类方法通常会引入新的参数。文献提出了一种基于累积全熵的子空间聚类离群点检测算法sodch(subspace outlier detection based-on cumulativeholoentropy),该算法通过计算子空间的累积全熵值选取最优聚类子空间,提高检测效率。文献提出了一种基于聚类离群因子和相互密度的离群点检测算法,算法根据相互邻居而非k邻域来计算数据的相互密度,通过构造决策图完成聚类,进而识别出离群点。

6、基于密度的方法是当下离群点检测领域的研究热点。传统的基于密度的方法大多将密度视作距离的倒数,通过数据对象间的距离来计算局部密度,离群点与位于密集区域的正常对象相比密度更低。lof(local outlier factor)算法通过计算每个数据对象的局部离群因子来检测数据集中的离群点,作为迄今为止最为经典的离群点检测算法,仍存在精确率低、参数设置敏感等问题。huang等人针对lof近邻参数k选取困难的问题,提出了无参数的基于自然邻居的离群点检测算法—nof(natural outlier factor)算法,该算法合并k邻域和反k邻域,自适应获取近邻参数k,通过定义离群因子nof检测离群点。li等人提出了一种基于密度-距离决策图的离群点检测算法,将传统核密度估计与局部可达距离相结合检测局部离群点,根据密度提升距离的度量标准检测全局离群点,通过密度比和密度提升距离生成决策图,同时检测出局部、全局和聚类离群点。


技术实现思路

1、本专利技术针对基于密度的离群点检测方法在不同分布的数据集上检测精度低的问题,提供一种基于期望核密度离群因子的离群点检测方法ekdof(outlier detectionmethod based on expected kernel density outlier factor),能够利用期望距离与核密度估计的比值定义期望核密度离群因子来刻画数据对象的离群程度,有效且较为全面的检测出离群点,提高检测精度。

2、为解决上述技术问题,本专利技术所采用的技术方案是:

3、一种基于期望核密度离群因子的离群点检测方法,包括以下步骤:

4、步骤1,输入初始数据集d和近邻参数k,为每个数据对象获取拓展邻域空间ens(xi);

5、步骤2,计算数据对象xi与数据对象xj之间的核带宽函数h(xj),通过核密度估计方法计算每个数据对象的局部密度;

6、步骤3,针对初始数据集d,计算出期望k距离ek_dist;在指定k值时,计算每个数据对象的期望距离edist(xi);

7、步骤4,计算每个数据对象的期望核密度离群因子ekdof(xi);通过对期望核密度离群因子进行大小比较,输出n个离群点。

8、本专利技术技术方案的进一步改进在于:所述步骤1的具体操作为:

9、步骤1.1:在给定的k值下,将点p到点m之间的欧氏距离定义为k距离dk(p);

10、步骤1.2:将到数据对象xi的距离不大于数据对象xi的k距离的点的集合,定义为数据对象xi的k近邻空间knn(xi):

11、knn(xi)={xj∈d|d(xi,xj)≤dk(xi)}

12、步骤1.3:将数据对象xi看作k最近邻居的数据对象xj所构成数据集合,定义为数据对象xi的反向近邻空间rnn(xi):

13、rnn(xi)={xj∈d|xi∈knn(xj)}

14、步骤1.4:将数据对象xi的k近邻空间knn(xi)和反向近邻空间rnn(xi)的并集构成的集合,定义为扩展邻域空间ens(xi):

15、ens(xi)=knn(xi)∪rnn(xi)。

16、本专利技术技术方案的进一步改进在于:所述步骤2的具体操作为:

17、步骤2.1:将数据对象xi的k近邻空间平均距离定义为度量参数mi:

18、

19、其中,|knn(xi)|表示数据点xi的k邻域范围内数据点的个数,d(xi,xl)表示数据点xi到数据点xl的欧式距离;

20、步骤1.2:给定近邻参数k值时,将两个数据对象xi和xj度量参数乘积定义为自适应核带宽h(xj):

21、

22、其中,数据对象xj位于数据对象xi的扩展邻域空间内,即xj∈ens(xi)。

23、步骤1.3:kde是指通过估计样本集中样本的概率密度函数,得出样本集的总体分布情况,定义为:

24、

25、其中,n表示数据集d的规模,h(xj)表示在数据对象xj上的带宽,d表示数据的维度,||xi-xj||表示数据对象xi到数据对象xj的欧式距离;

26、步骤1.4:在xi的扩展邻域空间内,结合多元高斯函数和传统核密度估计得到的密度视为核密度估计denens(xi),计算数据对象xi的核密度估计denens(xi):

27、

28、其中,d为数据对象的维度,|ens(xi)|表示数据点xi的扩展邻域空间内数据对象的个数。

29、本专利技术技术方案的进一步改进在于:所述步骤3中的期望k距离ek_dist为数据集d中所有数据对象到其各自的第k个近邻的距离的平均值,公式如下:

30、

31、其中,本文档来自技高网...

【技术保护点】

1.一种基于期望核密度离群因子的离群点检测方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的一种基于期望核密度离群因子的离群点检测方法,其特征在于:所述步骤1的具体操作为:

3.根据权利要求1所述的一种基于期望核密度离群因子的离群点检测方法,其特征在于:所述步骤2的具体操作为:

4.根据权利要求1所述的一种基于期望核密度离群因子的离群点检测方法,其特征在于:所述步骤3中的期望k距离Ek_dist为数据集D中所有数据对象到其各自的第k个近邻的距离的平均值,公式如下:

5.根据权利要求1所述的一种基于期望核密度离群因子的离群点检测方法,其特征在于:所述步骤3中在指定k值时,计算每个数据对象的期望距离Edist(xi)具体操作为:

6.根据权利要求1所述的一种基于期望核密度离群因子的离群点检测方法,其特征在于:所述步骤4中每个数据对象的期望核密度离群因子EKDOF(xi)为数据对象xi的期望距离与核密度估计的比值,计算数据对象xi的期望核密度离群因子EKDOF(xi):

7.根据权利要求1所述的一种基于期望核密度离群因子的离群点检测方法,其特征在于:所述步骤4中输出n个离群点的具体操作为:

...

【技术特征摘要】

1.一种基于期望核密度离群因子的离群点检测方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的一种基于期望核密度离群因子的离群点检测方法,其特征在于:所述步骤1的具体操作为:

3.根据权利要求1所述的一种基于期望核密度离群因子的离群点检测方法,其特征在于:所述步骤2的具体操作为:

4.根据权利要求1所述的一种基于期望核密度离群因子的离群点检测方法,其特征在于:所述步骤3中的期望k距离ek_dist为数据集d中所有数据对象到其各自的第k个近邻的距离的平均值,公式如下:

5.根据权利要...

【专利技术属性】
技术研发人员:张忠平孙光旭姚春辰刘硕
申请(专利权)人:燕山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1