【技术实现步骤摘要】
一种基于主成分分析和最近邻图的密度峰值聚类方法及系统
本专利技术涉及模式识别和机器学习领域,具体涉及一种基于主成分分析和最近邻图的密度峰值聚类方法及系统。
技术介绍
聚类分析的密度是通过找出以“簇”的形式存在于数据集内部的结构,用以发现数据集的内部组织。这一词指的是由近似数据点组成的被分离开来的群。直觉上讲,簇的分割具有簇内相似及簇间相异的特点。因此,数据数据被分解成许多群,这些群有相似的对象构成,同时不同的群包含了各不相同的元素。该方法论被广泛的应用于多元统计学和机器学习。传统的聚类大致被分为4类:划分聚类、层次聚类、密度聚类和模型聚类。每类方式都各有利弊,如,划分聚类通常需要指定簇个数,且需要迭代;层次聚类同样很难找到最优的聚类个数;而传统的密度聚类算法参数调节困难;模型聚类通常需要对数据的分布情况进行假设。2014年,《Science》上发表了一篇全新的聚类方法,密度峰值聚类(DensityPeaksClustering,DPC)。密度峰值聚类具有如下特点:无需指定簇个数;适用于任意形状的数据集;无需迭代,也不会陷入局部最优;只有一个参数,易于调节控制;无需 ...
【技术保护点】
一种基于主成分分析和最近邻图的密度峰值聚类方法及系统,其特征在于,利用主成分分析方法对原始数据进行特征转换,然后计算预处理过后的数据相似度矩阵,再依据相似度矩阵求解每个数据点的近邻图,由得到的近邻图计算ρi和δi,最后绘制决定图,选择聚类中心点,分配所有数据点,得出聚类结果。
【技术特征摘要】
1.一种基于主成分分析和最近邻图的密度峰值聚类方法及系统,其特征在于,利用主成分分析方法对原始数据进行特征转换,然后计算预处理过后的数据相似度矩阵,再依据相似度矩阵求解每个数据点的近邻图,由得到的近邻图计算ρi和δi,最后绘制决定图,选择聚类中心点,分配所有数据点,得出聚类结果。2.根据权利要求1所述的方法,其特征是,所述的数据集是一个n×d的矩阵,矩阵的每行表示一个数据点,每列表示一种属性,故这个矩阵包含n个数据点,每个数据点有d种属性,可以表示为χ={x1,x2,…,xn}(xi∈Rd)。3.根据权利要求1所述的方法,其特征是,所述的特征转换是指:以主成分分析为代表的数据降维方式,其需要将原始数据作初步的初始化,然后求解出协方差矩阵的特征值与特征向量,将原始数据降维。4.根据权利要求1或3所述的方法,其特征是,所述的加权包括:1:初步预处理。将所有的数据点都转化为均值为0,方差相等的数据:χ′={x′1,x′2,…,x′n}(x′i∈Rd)。2:计算协方差矩阵。计算初步预处理过后的数据的协方差矩阵Σ。3:计算特征值和特征向量。求解协方差矩阵Σ的特征值λi和特征向量ui。并将特征向量堆积成矩阵的形式,用U表示。4:求解旋转后数据。将初步转化的数据点xi′左乘矩阵UT得到转换过的xrot,i。5:降维。保留90%的主成分,形成新的数据χ″={x″1,x″2,…,x″n}(x″i∈Rd″)。5.根据权利要求1所述的方法,其特征是,所述的相似度矩阵是依据欧式距离公式对...
【专利技术属性】
技术研发人员:丁世飞,其他发明人请求不公开姓名,
申请(专利权)人:中国矿业大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。