一种基于双参数离群因子的离群点检测方法技术

技术编号:19859023 阅读:19 留言:0更新日期:2018-12-22 12:02
本发明专利技术公开了一种基于双参数离群因子的离群点检测方法,具体按照以下步骤实施:步骤1,给定一个空间分布数据集χ={X1,X2,...XN},计算数据集中每一个数据点Xi的局部密度,并将每个数据点Xi的局部密度按大小降序排列,形成一个密度集合;步骤2,根据步骤1的密度集合计算数据集中每一个数据点Xi的全局距离;步骤3,求取密度距离双参数离群因子DDPOS(Xi);步骤4,判断是否为离群点,若DDPOS(Xi)的值等于1或者收敛于1那么点Xi就是一个正常的数据点,否则判断其为离群点。本发明专利技术的目的是提供一种基于双参数离群因子的离群点检测方法,提出了一种新的离群因子且应用提出的离群因子对离群点进行检测时检测精度高。

【技术实现步骤摘要】
一种基于双参数离群因子的离群点检测方法
本专利技术属于数据挖掘方法
,涉及一种基于双参数离群因子的离群点检测方法。
技术介绍
信息数据在社会的发展起到越来越重要的作用,离群点检测方法研究在数据挖掘领域中已成逐渐成为与分类方法、聚类方法同等重要的一项课题。在一些特定的领域中,对于离群数据的挖掘价值要高于正常数据挖掘的价值,其目的是有效的将数据集中的异常数据识别出来,并且挖掘出数据集中有意义的潜在信息。离群数据挖掘是一种无监督的分类,保证发掘出那些与正常数据明显不同的数据点,即离群点。在其他一些文献中,离群点也称为异常点(anomaly)、冲突点(discordantobservation)或者是噪声(noise)等,不同术语称谓代表着不同领域的用户看待数据角度的差异。现有的离群点挖掘方法一般分为基于统计学习的方法、基于密度的方法、基于距离的方法和基于聚类的方法。此外,现在大部分研究的数据对象都是空间分布数据,将其他的数据转换为符合空间模型的数据同样也能够处理。基于统计学习的方法主要是根据数据集的知识背景,应用统计技术对整体数据建立统计分析模型,主要步骤是对于输入的数据点,验证该点是否符合建立的模型,进而判断该点是否是离群点,目前该方法应用的已经很少了,因为遵循数据集的规律建立检测模型,不符合随机检测的核心内容,从未知数据集中检测出离群点才是现阶段离群点检测方法的核心任务。基于密度的方法考察的是数据集中对象和它近邻的密度,如果一个对象的密度相对于它自己的近邻低得多,那么该对象被认为是一个离群点,基于密度的方法分为全局密度和局部密度两种,随着研究的深入,局部密度已经是现在的主流趋势。基于密度方法中有以下几种成熟的算法:LOF(LocalOutlierFactor),INFLO(ImprovingInfluencedOutlierness),COF(ConnectivityBasedOutlierFactor)等,这些方法理论上是合理的,但应用于离群点检测时效果却十分不同,已有研究比较了上述几种经典的离群点检测算法,实验结果表明,INFLO方法最佳;LOF比COF略好,但是LOF的算法复杂度是最低的,而且也容易实现。基于距离的方法考虑的是数据集中对象给定半径内的邻域,如果一个对象的距离邻域内有足够多的其它点,那么该对象被认为是一个离群点。基于距离方法中有以下几种经典的算法:DB(p,D)-outlier和LDOF(LocalDistance-basedOutlierFactor)等,LDOF是对DB(p,D)-outlier的拓展和改进,LDOF的算法更加优越一些。基于聚类的方法全部都是在聚类方法的基础上进行改进的,聚类方法无需知道空间数据的分布情况,依靠单个样本在空间中按照相似度划分类别。有些优秀的聚类算法甚至能够发现数据中任意形状的簇,大大增加了检测算法的精确度和客观性。常用的聚类方法有:K-means,K-modes,DBSCAN,BRICH等。以上几种离群点检测方法全部都是在单一的领域内发展的,单独考虑一种参数已经很难再突破离群点检测方法效率的瓶颈了。
技术实现思路
本专利技术的目的是提供一种基于双参数离群因子的离群点检测方法,提出了一种新的离群因子且应用提出的离群因子对离群点进行检测时检测精度高。本专利技术所采用的技术方案是,一种基于双参数离群因子的离群点检测方法(ODA-DDPOS),具体按照以下步骤实施:步骤1,给定一个空间分布数据集χ={X1,X2,...XN},其中Xi∈Rd,i=1,2,...N,计算数据集中每一个数据点Xi的局部密度ρ(Xi),并将每个数据点Xi的局部密度按大小降序排列,形成一个密度集合步骤2,根据步骤1的密度集合计算数据集中每一个数据点Xi的全局距离d(Xi);步骤3,求取密度距离双参数离群因子步骤4,判断是否为离群点,若DDPOS(Xi)的值等于1或者收敛于1那么点Xi就是一个正常的数据点,否则判断其为离群点。本专利技术的特征还在于,步骤1中数据集中每一个数据点Xi的局部密度ρ(Xi)的计算方法为:其中为核函数,dc为数据点Xi的截断距离,||Xi-Xj||是Xi与Xj之间的欧几里得距离,则数据点Xi的截断距离dc的计算方法为:计算数据点Xi与数据集中其余点的欧几里得距离,然后将计算的欧几里得距离升序排列选出前K个不重复的距离中最大的距离作为数据点Xi的截断距离。步骤2全局距离d(Xi)的计算公式如下:其中,Si代表包括对象Xi的前K个对象集合,d(Xi)代表了对象Xi与Xj的平均距离,就是全局距离,并且对象Xi的密度要大于对象Xj的密度,limε=0。在计算全局距离d(Xi)时,当Xi前面的包括Xi的对象少于K个时,则无法满足前K个对象的平均距离,不足的使用0填充。本专利技术的有益效果是:1.本专利技术的方法综合考虑离群点检测算法的查准率和查全率,使用综合评估分数F1对算法的性能进行评估,对比传统的LOF,INFLO,LDOF以及RDOS算法,将本专利技术的离群因子用于离群点检测方法上检测的F1分数要高于其余4个对比算法,主要原因是:本专利技术在定义离群因子时,采用了密度、距离的双参数来计算离群因子分数,综合考虑离群数据的空间分布特性,这将有效的提高检测的查准率和查全率。2.本专利技术在确定离群因子时将密度和距离两种离群因子参数结合起来,使用二者结合共同计算离群因子分数,并且全部过程只有一个手动参数K,大大增加了检测算法的客观性,时间、空间复杂度也经过严格的控制,相比较于LOF,INFLO,LDOF以及RDOS算法,本专利技术能够更好的检测出空间数据中的离群点,从而提高检测精度。附图说明图1是离群点的种类图;图2是离群点检测算法的流程图;图3是人造数据集的分布图;图4是UCI真实数据集的分布图;图5是IONSPHERE和KDDCUP99的实验结果F1曲线;图6是LYMPHOGRAPHY和SHUTTLE的实验结果F1曲线;图7是WAVEFORM和WBC的实验结果F1曲线;图8是WDBC和WPBC的实验结果F1曲线;图9是所有算法的平均性能图。具体实施方式下面结合附图和具体实施方式对本专利技术进行详细说明。本专利技术中的相关定义如下:定义1(离群点)离群点(Outlier)是一数据对象,它显著不同于其他数据对象,是被不同的机制产生的一样,正常的数据对象又称为“正常”或期望数据,离群点则称为“异常”数据,离群点在不同的观察角度来看分类也是不同的。图1是离群点的种类,从图1中可以看出三个坐标轴上的刻度代表在不同分类下相应离群点的类型。定义2(F1曲线)F1曲线是准确率(Precision,P)和召回率(Recall,R)的综合评价指标。在评估一个算法的性能时,P和R的值越大,算法的性能也就越好,但是P和R实际上是一对矛盾的度量,因此我们选择F1曲线来综合的评价实验结果,准确率、召回率和F1曲线的计算公式如下:其中TP是真正例(TruePositive),FP是假正例(FalsePositive),TN是真反例(TrueNegative),FN是假反例(FalseNegative),M是数据样本的总数量。定义3(离群因子)离群因子是判断离群点的依据,它是点的离群程度,可以通过计算对象的偏离程度来给对象打分,本文档来自技高网
...

【技术保护点】
1.一种基于双参数离群因子的离群点检测方法,其特征在于,具体按照以下步骤实施:步骤1,给定一个空间分布数据集χ={X1,X2,...XN},其中Xi∈R

【技术特征摘要】
1.一种基于双参数离群因子的离群点检测方法,其特征在于,具体按照以下步骤实施:步骤1,给定一个空间分布数据集χ={X1,X2,...XN},其中Xi∈Rd,i=1,2,...N,计算数据集中每一个数据点Xi的局部密度ρ(Xi),并将每个数据点Xi的局部密度按大小降序排列,形成一个密度集合步骤2,根据步骤1的密度集合计算数据集中每一个数据点Xi的全局距离d(Xi);步骤3,求取密度距离双参数离群因子步骤4,判断是否为离群点,若DDPOS(Xi)的值等于1或者收敛于1那么点Xi就是一个正常的数据点,否则判断其为离群点。2.根据权利要求1所述的一种基于双参数离群因子的离群点检测方法,其特征在于,所述步骤1中数据集中每一个数据点Xi的局部密度ρ(Xi)的计算方法为:其中为核函数,dc为数据点Xi的截断距离,||Xi-Xj||是Xi与Xj之...

【专利技术属性】
技术研发人员:周红芳刘虹江张英杰张尧刘艺彬奚冰彦
申请(专利权)人:西安理工大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1