【技术实现步骤摘要】
一种基于改进K-means算法和新聚类有效性指标的聚类分析方法
本专利技术属于数据挖掘聚类分析领域,尤其涉及一种基于密度参数计算初始聚类中心和中心点替换方法的改进K-means算法和新聚类有效性指标的聚类分析方法。
技术介绍
聚类分析是研究分类问题的一种统计分析方法也是数据挖掘的一个重要方法。聚类分析的研究主要包括两个方面,即聚类算法的研究和聚类有效性指标的研究。聚类算法将待分析的数据集分为多个类,使得同一个类内的数据具有更高的相似性,不同类之间的数据具有更高的差异性。作为无监督学习方式,聚类算法产生的结果的优劣通常用聚类有效性指标来衡量或者评价。当前,已有许多聚类算法被提出来并用于对各种类型的数据集进行处理。总体来讲,这些聚类算法可以分为基于划分的聚类算法,基于层次的聚类算法,基于密度的聚类算法,基于网格的聚类算法以及基于模型的聚类算法。K-means算法是一种基于划分的聚类算法。由于K-means算法具有实现简单,准确率高等特点,因此被广泛应用于解决各种领域的数据划分问题。然而,初始聚类中心点的随机选取, ...
【技术保护点】
1.一种基于改进K-means算法和新聚类有效性指标的聚类分析方法,其特征在于,包括以下步骤:/n(1)输入数据集,所述数据集包含n个数据点,每个数据点包含m维的数值型属性,设定数据集待聚类的聚类簇数上限K
【技术特征摘要】
1.一种基于改进K-means算法和新聚类有效性指标的聚类分析方法,其特征在于,包括以下步骤:
(1)输入数据集,所述数据集包含n个数据点,每个数据点包含m维的数值型属性,设定数据集待聚类的聚类簇数上限Kmax,Kmax为不大于的最大正整数;
(2)计算每两个数据点之间的欧几里得距离;
(3)寻找欧几里得距离中的最大值和最小值,分别记为Dmax与Dmin;
(4)根据Dmax与Dmin确定阈值;
(5)统计与各数据点的欧几里得距离小于阈值的数据点个数,作为数据点的密度信息;
(6)标记密度信息为0的点为离群点;
(7)定义第一集合,第一集合中包含密度信息不为0的数据点及数据点对应的密度信息;
(8)定义第二集合,从第一集合中选取密度信息最大的数据点和第二大的数据点放入第二集合;从第一集合中移除该两个数据点;
(9)将步骤(8)得到的第二集合中的数据点作为初始的中心点进行K-means聚类;
(10)分别计算第一集合中的每个数据点与两个初始聚类中心点的欧几里得距离,选择聚类较近的聚类中心点作为该数据点的中心点类别,并将每个数据点的类标签标记为该中心点类别;
(11)对每个类别内的数据,设置虚拟中心点类标签为类内数据类别,虚拟中心点各维度的坐标信息为类内数据不包含密度信息的各维度坐标信息算术平均值;
(12)若虚拟中心点与真实的数据点重合,则更新该类别的聚类中心点为该虚拟中心点;若虚拟中心点与数据点不重合,则更新该类别的聚类中心点为类内距离虚拟中心点最近且距离离群点最远的点;
(13)计算更新后的聚类中心点与更新前的聚类中心点之间的欧几里得距离,若为0则聚类完成,执行步骤(14);若不为0跳转执行步骤(10);
(14)根据聚类结果计算聚类有效性指标的值;
(15)统计第二集合中的聚类中心点个数,若聚类中心点个数小于Kmax,则从第一集合中选取密度信息最大的数据点放入第二集合,作为新的聚类中心点,然后从第一集合中移除该数据点并跳转步骤(9);否则执行步骤(16);
(16)输出在聚类有效性指标最佳时的聚类结果。
2.根据权利要求1所述的基于改进K-means算法和新聚类有效性指标的聚类分析方法,其特征在于,步骤(1)中,每个数据点具有m维属性,记数据集为D={x1,x2,…,xn},xi表示第i个数据点;记数据点为xi=(xi1,xi2,…,xim),xij表示第i个数据点的第j维属性。
3.根据权利要求2所述的基于改进K-means算法和新聚类有效性指标的聚类分析方法,其特征在于,步骤(2)中,第i个数据点xi与第j个数据点xj之间的欧几里得距离d(xi,xj)的计算方法为:
4.根据权利要求1至3任一所述的基于改进K-means算法和新聚类有效性指标的聚类分析方法,其特征在于,步骤(4)中,设阈值为ε,根据Dmax与Dmin确定阈值ε的方法为:
ε=(Dmax+Dmax)/(2*Km...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。