基于改进的快速密度峰值聚类和LOF离群点检测算法制造技术

技术编号:19935162 阅读:23 留言:0更新日期:2018-12-29 04:53
本发明专利技术提出基于改进的快速密度峰值聚类和LOF离群点检测算法,将快速密度峰值聚类算法和基于密度的LOF离群点检测算法进行结合,利用快速密度峰值聚类算法的计算简单性,快速求得样本数据集的聚类中心和可能的离群点集合,同时将样本数据集进行剪枝处理,从而弥补了LOF离群点检测算法求解离群点时,算法时间复杂度较高的不足;同时对快速密度峰值聚类算法求得的离群点进行再次验证,从而提高整个算法的准确性。

【技术实现步骤摘要】
基于改进的快速密度峰值聚类和LOF离群点检测算法
本专利技术涉及的是一种数据挖掘领域的方法,具体是一种基于改进的快速密度峰值聚类和LOF离群点检测算法。
技术介绍
近年来,随着计算机技术及数据库技术的飞速发展,数据挖掘技术得到了快速发展并广泛地应用于各个领域中。数据挖掘,即从有噪声的、大量的数据中,提取出人们事先未知却又有潜在价值的知识。离群点检测作为数据挖掘领域中的一个重要而活跃分支,它用于从数据集中找出明显偏离其他数据对象、或不满足一般对象行为特征的对象,并且挖掘出数据集中有意义的潜在信息。目前,离群点检测广泛地应用于诸多领域,如电信欺诈分析、信用卡欺诈检测、网络攻击行为检测、医疗诊断和极端天气气象预报等。离群点检测的一个目标是从看似杂乱无章的大量数据中挖掘有价值的信息,使这些数据更好地为我们的日常生活所服务。但是现实生活中的数据往往具有成百上千的维度,并且数据量极大,这无疑给目前现有的离群点检测方法带来大难题。传统的离群点检测方法虽然在各自特定的应用领域里表现出很好效果,但在高维大数据集中却不再适用,而且算法较复杂、精度不高,使得整个离群点检测算法的时间复杂度大大提高。因此如何把离群点检测方法有效地应用于大数据、高维度数据,是目前离群点检测方法的首要目标之一。
技术实现思路
本专利技术针对上述现有技术的不足,提供了一种基于改进的快速密度峰值聚类和LOF离群点检测算法,通过将快速密度峰值聚类算法和基于密度的LOF离群点检测算法相结合,将求解得到的离群点进行再次验证,从而提高整个算法的精确性。基于改进的快速密度峰值聚类和LOF离群点检测算法,包括快速密度峰值聚类算法和基于密度的LOF离群点检测算法两部分,其中:所述的快速密度峰值聚类算法,求得样本数据中每个点的局部密度和距离,分别以这两个参数为横坐标轴和纵坐标轴绘制平面决策图,决策图中同时具有较大密度和较大距离值的点被认为是样本数据点的聚类中心,并将样本数据划分为几个聚类簇,而同时具有局部密度较小、距离较大的点被初步识别为样本数据点中的离群点,并获得可能的离群点集合;所述的基于密度的LOF离群点检测算法,对快速密度峰值聚类算法中获得的离群点集中的每个离群点,计算其局部离群因子LOF,并将每个离群点的局部离群点因子值进行降序排列,离群因子LOF的值越大于1,则越可能为离群点。进一步地,所述的快速密度峰值聚类离群点检测算法包括如下具体步骤:步骤1:对于样本数据中的每个样本点,都需要计算每个样本点与其他样本点之间的欧式距离,并将计算结果按照升序排列;步骤2:对于所有的样本点,需要选取一个截断距离,使得每个数据点的平均邻居个数约为样本数据点总数的1%~2%;步骤3:对于样本数据中的每个样本点,都需要计算局部密度和距离这两个参数,这两个量都取决于样本点之间的欧式距离;步骤4:对于样本数据中的每个样本点,计算出样本的局部密度和距离之后,分别以这两个参数为横坐标轴和纵坐标轴绘制平面决策图,并计算出一个综合考虑量:局部密度和距离的乘积;步骤5:决策图中同时具有较大密度和较大距离值的点,即局部密度和距离的乘积较大的点,被认为是样本数据点的聚类中心,并将样本数据划分为几个聚类簇,而同时具有局部密度较小、距离较大的点被初步识别为样本数据点中的离群点,并获得可能的离群点集合;步骤6:对于样本数据集中的异常点,应满足以下条件:局部密度小于局部密度阈值,且距离大于距离阈值,则该样本点可以判定为离群点。进一步地,所述的基于密度的LOF离群点检测算法包括如下具体步骤:步骤1:对快速密度峰值聚类算法中获得的离群点集,计算每个离群点与其他样本数据点之间的欧式距离,并进行升序排列;步骤2:利用每个离群点与其他样本数据点之间的欧式距离,计算每个离群点的第k距离以及第k邻域;步骤3:利用每个离群点的第k距离以及第k邻域,计算每个离群点的可达距离和局部可达密度;步骤4:利用每个离群点的第k邻域和局部可达密度,计算每个离群点的局部离群点因子,并对每个离群点的局部离群点因子进行降序排列,之后输出;步骤5:如果某点的局部离群点因子值越接近1,说明其邻域点密度差不多,该点可能和邻域同属一簇;如果局部离群点因子值越小于1,说明该点的密度高于其邻域点密度,该点为密集点;如果这个比值越大于1,说明该点的密度小于其邻域点密度,该点越可能是异常点。本专利技术达到的有益效果为:通过将快速密度峰值聚类算法和基于密度的LOF离群点检测算法相结合,将求解得到的离群点进行再次验证,从而提高整个算法的精确性,同时对聚类结果进行整理,将不可能是离群点簇进行剪枝,然后对剩余数据点进行离群点检测,弥补了LOF离群点检测算法求解离群点时间复杂度较高的不足。附图说明图1是本专利技术所述的基于改进的快速密度峰值聚类和LOF离群点检测算法的方案设计示意图。图2是本专利技术所述的基于改进的快速密度峰值聚类和LOF离群点检测算法实施例的流程示意图。具体实施方式下面结合说明书附图对本专利技术的技术方案做进一步的详细说明。基于改进的快速密度峰值聚类和LOF离群点检测算法,包括快速密度峰值聚类算法和基于密度的LOF离群点检测算法两部分,其中:所述的快速密度峰值聚类算法,求得样本数据中每个点的局部密度和距离,分别以这两个参数为横坐标轴和纵坐标轴绘制平面决策图,决策图中同时具有较大密度和较大距离值的点被认为是样本数据点的聚类中心,并将样本数据划分为几个聚类簇,而同时具有局部密度较小、距离较大的点被初步识别为样本数据点中的离群点,并获得可能的离群点集合;所述的基于密度的LOF离群点检测算法,对快速密度峰值聚类算法中获得的离群点集中的每个离群点,计算其局部离群因子LOF,并将每个离群点的局部离群点因子值进行降序排列,离群因子LOF的值越大于1,则越可能为离群点。本专利技术所述基于改进的快速密度峰值聚类和LOF离群点检测算法的流程示意图如图2所述,包括以下方法和步骤:所述的快速密度峰值聚类离群点检测算法包括如下具体步骤:步骤1:对于含m个样本数据集合S中的每个样本点i,都需要计算每个样本点i与其他样本点j之间的欧式距离dij,并将计算结果按照升序排列;如果在n维欧式空间的两点的坐标分别为:i=(xi1,xi2,…,xin)与j=(xj1,xj2,…,xjn),那么从点i到点j(或从点j到点i)的距离为:步骤2:对于所有的样本点,需要选取一个截断距离dc,使得每个数据点的平均邻域个数约为样本数据点总数的1%~2%;步骤3:对于样本数据中的样本点i,都需要计算两个参数:局部密度ρi和距离δi,这两个量都取决于样本点之间的欧式距离dij;1)局部密度ρi:数据集S中样本点i的局部密度ρi的定义为:由公式(1-2)可知,与点i的距离小于截断距离dc的数据点越多,局部密度ρi的值越大。2)距离δi:δi用来表示样本点i和比它密度大的样本点j之间的最小距离:设表示的一个降序排列下标序,即它满足ρq1≥ρq2≥…≥ρqm(1-3)则可定义由公式(1-4)可知,当样本点i具有最大局部密度时,δi表示样本集合S中与i距离最大的数据点与i之间的距离;否则,δi表示在所用局部密度大于i的数据点中与i距离最小的那个(或哪些)数据点与i之间的距离。对于数据集中密度最大的样本点,则该样本点会同时具有最本文档来自技高网...

【技术保护点】
1.基于改进的快速密度峰值聚类和LOF离群点检测算法,其特征在于,所述改进算法包括快速密度峰值聚类算法和基于密度的LOF离群点检测算法两部分,其中:所述的快速密度峰值聚类算法,求得样本数据中每个点的局部密度和距离,分别以这两个参数为横坐标轴和纵坐标轴绘制平面决策图,决策图中同时具有较大密度和较大距离值的点被认为是样本数据点的聚类中心,并将样本数据划分为几个聚类簇,而同时具有局部密度较小、距离较大的点被初步识别为样本数据点中的离群点,并获得可能的离群点集合;所述的基于密度的LOF离群点检测算法,对快速密度峰值聚类算法中获得的离群点集中的每个离群点,计算其局部离群因子LOF,并将每个离群点的局部离群点因子值进行降序排列,离群因子LOF的值越大于1,则越可能为离群点。

【技术特征摘要】
1.基于改进的快速密度峰值聚类和LOF离群点检测算法,其特征在于,所述改进算法包括快速密度峰值聚类算法和基于密度的LOF离群点检测算法两部分,其中:所述的快速密度峰值聚类算法,求得样本数据中每个点的局部密度和距离,分别以这两个参数为横坐标轴和纵坐标轴绘制平面决策图,决策图中同时具有较大密度和较大距离值的点被认为是样本数据点的聚类中心,并将样本数据划分为几个聚类簇,而同时具有局部密度较小、距离较大的点被初步识别为样本数据点中的离群点,并获得可能的离群点集合;所述的基于密度的LOF离群点检测算法,对快速密度峰值聚类算法中获得的离群点集中的每个离群点,计算其局部离群因子LOF,并将每个离群点的局部离群点因子值进行降序排列,离群因子LOF的值越大于1,则越可能为离群点。2.根据权利要求1所述的基于改进的快速密度峰值聚类和LOF离群点检测算法,其特征在于:所述的快速密度峰值聚类离群点检测算法包括如下具体步骤:步骤1:对于样本数据中的每个样本点,都需要计算每个样本点与其他样本点之间的欧式距离,并将计算结果按照升序排列;步骤2:对于所有的样本点,需要选取一个截断距离,使得每个数据点的平均邻居个数约为样本数据点总数的1%~2%;步骤3:对于样本数据中的每个样本点,都需要计算局部密度和距离这两个参数,这两个量都取决于样本点之间的欧式距离;步骤4:对于样本数据中的每个样本点,计算出样本的局部密度和距离之后,分别以这两个参数为横坐标轴和...

【专利技术属性】
技术研发人员:黄波黄爽
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1