基于密度的数据预处理优化方法技术

技术编号:33834079 阅读:14 留言:0更新日期:2022-06-16 11:24
本发明专利技术是公开了一种基于密度的数据预处理优化方法,首先计算样本对象的欧氏距离与平均距离,然后进行粗聚类;利用密度权重找出聚类的中心点,将中心点为中心,平均距离为半径里的所有数据对象归为一类,得到聚类数目;最后,将预处理后得到的聚类中心点与聚类数目利用K

【技术实现步骤摘要】
基于密度的数据预处理优化方法


[0001]本专利技术涉及聚类分析
,具体是一种基于密度的数据预处理优化方法。

技术介绍

[0002]聚类分析已经被广泛研究和使用了多年,它是数据挖掘中非常重要的一部分,通过挖掘海量数据中的有效信息,通过了解数据的分布情况,找出所需的关键信息。聚类将数据对象分组为若干类或簇,使得在同一簇中的对象之间具有较高的相似度,而不同簇中的对象之间相似度尽可能低。
[0003]根据聚类方法的不同,聚类方法可以分为基于划分的方法、基于层次的方法、基于密度的方法等。划分的方法中最经典的是K

medoids算法,它是选取最靠近中心点的样本来代表整个簇,所以它在存在噪声和离群点时更加鲁棒,但是算法的时间复杂度很高。
[0004]在进行数据聚类之前,如果不对数据进行预处理,那么聚类分析出的结果将产生较大误差,划分和层次的方法的预处理步骤往往采用Canopy方法,Canopy算法需要设置两个距离阈值T1和T2,并且随机选取聚类中心点,计算样本对象与聚类中心之间的欧氏距离,根据阈值将样本对象划分到相应的簇中,最后讲数据划分为k个簇。Canopy算法难以确定阈值T1和T2,阈值对结果影响很大。
[0005]从上述分析可以看出K

medoids算法时间复杂度较高,Canopy算法阈值的取值存在缺陷,这两个算法会使聚类结果出现较大误差。

技术实现思路

[0006]本专利技术的目的是提出一种利用密度优化中心点的方法,将K
r/>medoids算法与Canopy算法结合,并利用密度优化结合后的算法,解决算法时间复杂度过高,数据对象聚类结果误差大的问题。
[0007]本专利技术目的可以通过采用如下技术方案达到:
[0008]基于密度的数据预处理优化方法,包括以下步骤:
[0009]计算数据集中数据对象之间的欧氏距离,并以此欧氏距离计算数据集中所有数据元素的平均距离AverD,通过求出的AverD来计算每个数据对象的密度值ρ,密度值以落在数据对象为中心,AverD为半径的区域中的数据对象的数量来表示。
[0010]计算出所有的数据对象的密度,选取最大的密度数据对象b1作为第1个聚类中心,将聚类中心b1添加到中心点集合中,同时将所有满足剩余数据对象与第1个聚类中心之间的距离小于AverD的数据对象从数据集中删除。
[0011]计算余下数据的类簇距离与数据对象间的平均距离,数据对象间的平均距离由欧氏距离和密度共同决定,类簇距离表示为两个数据对象簇间的距离,将类簇距离、数据对象间的平均距离、密度三者结合得到一个密度的权重,第2个聚类中心b2由最大密度权重决定,并将b2添加到中心点集合中,同样将满足条件的数据从数据集中删除。
[0012]每一次的删除数据让已经被判断的数据不会重复进行判断过程,重复上述步骤,
直至数据集为空,数据集被划分为几个类簇,计算得到的每个类簇中的数据对象到簇内其他数据对象距离之和最小的数据对象作为聚类中心,得到最优的聚类数目K和初始聚类中心。
[0013]最后基于得到的聚类数目K和初始聚类中心进行K

medoids聚类算法的操作,将前面已经得到的K个数据样本作为质点,遍历簇中所有点,将剩余的数据对象根据质点最相近原则分到当前最佳的簇中,对于第i个类中除对应质点外的所有其他点,按顺序计算当其为新的质点是,准则函数的值,遍历所有可能,选取准则函数最小时对应的点作为新的质点,重复此过程,直到所有质点不再发生变化或已到达设定的最大迭代次数,最终确定出K个类。至此,聚类过程结束。
[0014]为了更好地评价方法的性能,选取机器学习数据库中4种数据集进行数十次运行,判断本专利技术的稳定性,同时选用平均聚类代价E和平均准确率T作为评价指标进行对比。
[0015]与现有的专利技术技术对比,本专利技术具有如下优点:
[0016]本专利技术提出的预处理方法在对存在噪声点和离群点的数据集有极好的处理效果,针对算法时间复杂度过高的问题,引入密度优化,大大缩短了聚类过程所耗费的时间,也提高了聚类结果的准确性。
附图说明
[0017]图1为本专利技术所述数据预处理流程图
[0018]图2为本专利技术所述方法的聚类结果图
[0019]图3为数据预处理前的聚类结果图
[0020]图4为本专利技术所述的实施步骤示意图
具体实施方式
[0021]下面结合实例及附图对本专利技术作进一步详细的描述,但本专利技术的实施方式不限于此。
[0022]如图4所述为本专利技术的实施步骤示意图,该方法包括以下步骤:
[0023]步骤一、输入待处理的数据集D={x1,x2,

,x
n
}.
[0024]步骤二、计算每个数据对象的密度,选择最大的密度数据对象b1作为第1个聚类中心,将聚类中心b1添加到中心点集合中,所有满足剩余数据对象与第1个聚类中心之间的距离小于AverD的数据对象从数据集中删除。
[0025]具体的所有数据对象的平均距离AverD:
[0026]步骤三、计算余下的数据集元素的类簇距离s与数据对象间的平均距离α
i

[0027]类簇中样本对象间的平均距离α
i
为:
[0028]类簇距离s
i
表示数据对象x
i
和另一个数据对象x
j
之间的距离
[0029]步骤四、计算每个数据对象的密度权重w,选取最大密度权重的数据对象作为第2个聚类中心b2,并将b2添加到中心点集合中,同样将满足条件的数据从数据集中删除。
[0030]密度权重w为:
[0031]重复步骤三和步骤四,直到数据集D为空。
[0032]步骤五、计算得到的每个类簇中的数据对象到簇内其他数据对象距离之和最小的数据对象作为聚类中心。
[0033]步骤六、以步骤五得得到最优的聚类数目K和初始聚类中心,然后对D中的数据进行K

medoids聚类算法的操作。
[0034]步骤七、在总体n个样本点选择步骤六选好的K个点作为中心点,按照与中心点最相近的原则,将剩余的n

K个点分配到当前最佳的中心点代表的类中。
[0035]步骤八、对于第i个类中除对应中心点外的所有其他点,按顺序计算当其为新的中心点时准则函数的值,遍历所有可能,选取准则函数最小时对应的点作为新的中心点(准则函数:当前类中所有其他点到该中心点的距离之和最小)。
[0036]步骤九、重复步骤七、八,直到所有的中心点不在发生变化或已经达到设定的最大迭代次数,最终确定K个类。
[0037]综上所述,本专利技术让聚类的数据相似性更高,使方法所消耗的时间更短,在分类器上表现性能更加良好。
本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于密度的数据预处理聚类优化方法,包括以下步骤:(1)计算数据集中数据对象之间的欧氏距离,并计算数据集中所有数据元素的平均距离AverD,通过求出的AverD来计算每个数据对象的密度值ρ,密度值以落在数据对象为中心,AverD为半径的区域中的数据对象的数量来表示。(2)计算出所有的数据对象的密度,选取最大的密度数据对象b1作为第1个聚类中心,将聚类中心b1添加到中心点集合中,同时将所有满足剩余数据对象与第1个聚类中心之间的距离小于AverD的数据对象从数据集中删除。(3)计算余下数据的类簇距离与数据对象间的平均距离,数据对象间的平均距离由欧氏距离和密度共同决定,类簇距离表示为两个数据对象簇间的距离,将类簇距离、数据对象间的平均距离、密度三者结合得到一个密度的权重,第2个聚类中心b2由最大密度权重决定,并将b2添加到中心点集合中,同样将满足条件的数据从数据集中删除。(4)重复上述步骤(2)(3),直至数据集为空,数据集被划分为几个类簇,计算得到的每个类簇中的数据对象到簇内其他数据对象距离之和最小的数据对象作为聚类中心,得到最优的聚类数目K和初始聚类中心。(5)基于得到的聚类数目K和初始聚类中心进行K

medoid,将前面已经得到的K个数据样本作为质点,遍历簇中所有点,将剩余的数据对象根据质点最相近原则分到当前最佳的簇中,对于第i个类中除对应质点外的所有其他点,按顺序计算当其为新的质点是,准则函数的值,...

【专利技术属性】
技术研发人员:弋琨万静赫斌
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1