【技术实现步骤摘要】
一种基于KNN的密度峰值聚类方法
本专利技术涉及数据聚类
,特别涉及一种基于KNN的密度峰值聚类方法。
技术介绍
当前是一个数据的时代,每时每刻都有大量的数据产生。需要从大量的数据中发现有用的知识和规律,因此数据挖掘技术由此而生,而聚类就是数据挖掘技术中的一个重要分支。聚类是根据用户定义的样本相似度计算方式将数据划分成若干个类簇的过程,最终的结果是希望簇中样本的相似度高,而簇间的相似度低。由于聚类不需要类标签,常常作为其他挖掘步骤的先行分析方式。聚类在模式识别、机器学习、智能推荐、图像处理等多个领域已经有非常广泛的应用。聚类方法的研究已经有数十年,已有的聚类方法主要分为以下几类:基于划分的聚类、基于密度的聚类、基于层次的聚类、基于网格的聚类和基于模型的聚类。K-Means算法是典型的基于划分的聚类方式,该算法首先随机选取K个聚类中心,然后将剩余样本划分到距离其最近的聚类中心所在的簇并重新计算聚类中心,多次迭代直至结果不再划分;其中K由用户指定。K-Means算法是将样本划分至距离最近的簇中,因此该算法无法发现任意类型的簇,且K值的指定需要用户对数据有一定的认 ...
【技术保护点】
1.一种基于KNN的密度峰值聚类方法,其特征在于,包括以下几个步骤:S1:通过自然邻居搜索算法得到数据集中每个样本点的K值;S2:计算数据集中每个样本点的K个近邻信息,得到第一聚类集合;S3:计算第一聚类集合中每个样本点的密度,对密度进行降序排列,标记排列前G的密度对应的样本点为核心点,对核心点进行分类形成第二聚类集合;S4:对数据集中所有样本点进行分配,得到第三聚类集合。
【技术特征摘要】
1.一种基于KNN的密度峰值聚类方法,其特征在于,包括以下几个步骤:S1:通过自然邻居搜索算法得到数据集中每个样本点的K值;S2:计算数据集中每个样本点的K个近邻信息,得到第一聚类集合;S3:计算第一聚类集合中每个样本点的密度,对密度进行降序排列,标记排列前G的密度对应的样本点为核心点,对核心点进行分类形成第二聚类集合;S4:对数据集中所有样本点进行分配,得到第三聚类集合。2.如权利要求1所述的一种基于KNN的密度峰值聚类方法,其特征在于,所述S1中,自然邻居搜索算法通过对K值从1递增进行计算,每次递增都会查找每个样本点的自然邻居,直到所有样本点都有自然邻居或者没有自然邻居的样本点的数量在达到预设的搜索次数后不再发生改变,算法停止。3.如权利要求1所述的一种基于KNN的密度峰值聚类方法,其特征在于,所述S2中,包括以下步骤:S2-1:计算每个样本点的K个近邻信息,计算公式如下:KNN(Xi)={Xj|Xj∈sorted(Dist(i))(a)};(1)公式(1)中,KNN(Xi)表示样本点Xi的K个近邻信息,Xj表示Xi的近邻,Dist表示N*N的距离矩阵,N表示样本点的个数,Dist(i)表示样本Xi到其余样本点的距离矩阵,大小为1*N,sorted表示对距离矩阵进行升序排序,a=1、2···K。S2-2:计算样本点之间的共享K近邻信息,形成第一聚类集合;共享K近邻信息SKNN(Xi,Xj)的计算公式为:SKNN(Xi,Xj)=KNN(Xi)∩KNN(Xj)(2)公式(2)中,SKNN(Xi,Xj)表示样本点Xi和Xj的共享K近邻信息,KNN(Xi)表示样本点Xi的K近邻信息,KNN(Xj)表示样本点Xj的K近邻信息,∩表示交集。4.如权利要求1所述的一种基于KNN的密度峰值聚类方法,其特征在于,所述S3中,所述样本点的密度计算公式为:d(Xi)=∑d(Xi,Xj)|Xj∈KNN(Xi)(4)公式(...
【专利技术属性】
技术研发人员:朱庆生,姚成亮,粟铭瑶,冉谨铭,张智勇,程东东,
申请(专利权)人:重庆大学,
类型:发明
国别省市:重庆,50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。