一种无参的复杂流形聚类方法技术

技术编号:22689597 阅读:50 留言:0更新日期:2019-11-30 03:57
本发明专利技术公开了一种无参的复杂流形聚类方法,包括:使用预设聚类算法求得目标数据集的待确定聚类集合;确定目标数据集中所有的自然核心点;从目标数据集中提取初始聚类结果;计算每两个自然核心点之间的簇距离;计算每两个自然核心点之间的最短路径距离;计算每个待确定类的紧密性及间隔性;基于每个待确定类的紧密性及间隔性计算评价值,若评价值满足预设条件,则将待确定聚类集合作为最终的聚类结果。本发明专利技术提出新的簇距离概念,并根据簇距离提出了最短路径距离概念。通过综合考虑类的紧密性和间隔性,采用自然评价标准,实现了对含有噪声点和复杂流形数据集的聚类结果进行有效评价,从而形成了一种新的无参的复杂流形聚类方法。

A clustering method of complex manifold without parameters

The invention discloses a complex manifold clustering method without parameters, which comprises: obtaining the cluster set to be determined of the target data set by using the preset clustering algorithm; determining all the natural core points in the target data set; extracting the initial clustering result from the target data set; calculating the cluster distance between each two natural core points; calculating the shortest path distance between each two natural core points Calculate the compactness and interval of each class to be determined; calculate the evaluation value based on the compactness and interval of each class to be determined. If the evaluation value meets the preset conditions, the cluster set to be determined will be the final clustering result. The invention proposes a new concept of cluster distance and a concept of shortest path distance according to cluster distance. By considering the compactness and interval of the class and using the natural evaluation standard, the clustering results with noise points and complex manifold data sets are evaluated effectively, thus a new nonparametric complex manifold clustering method is formed.

【技术实现步骤摘要】
一种无参的复杂流形聚类方法
本专利技术涉及数据挖掘领域,具体涉及一种无参的复杂流形聚类方法。
技术介绍
聚类是一种无监督的机器学习方法,其能挖掘出数据集中数据对象之间的关联关系,进而获得有价值的信息和知识。近年来聚类已成为数据挖掘中的热点课题之一。然而对于同一个数据集,采用不同的聚类分析方法,有可能得到不同的聚类结果。即使同一个聚类分析算法,采用不同参数也有可能得到不同的聚类结果。那么在这些聚类结果中,哪一种聚类结果最符合目标数据集的分类情况,便成为了聚类分析面临的一个难题之一。如若用户任选一种结果作为最终聚类结果,有可能导致从数据中挖掘出的信息价值低或无效。这时就需要聚类评价标准对聚类分析结果进行有效性评价,将聚类评价效果最好的聚类结果作为最终的聚类结果,从而挖掘出有用的信息。目前聚类评价分为两种:外部评价标准和内部评价标准。著名的外部评价标准有:①准确率,被聚类算法正确聚类的数据对象数目与整个数据集中包含的数据对象数目的比值,其值越大证明聚类结果越好;②召回率,在聚类的过程中,有可能存在有些数据对象没有被聚到任何一个类中的情况,利用召回率来表示数据及中被聚类的数据对象的比例,其值越大越好;③兰德指数(RI),RI的取值范围是[0,1],值越大意味着聚类结果与真实情况越吻合。除了以上外部评价标准外,基于兰德指数改进的调整兰德系数、互信息以及标准互信息也是非常具有代表性的外部评价标准。然而,利用外部评价标准对聚类进行有效性评价必须有一个前提:数据集中每个对象的类标签是已知的。所以外部评价标准的主要目的是分析某个聚类算法的聚类结果与数据集的真实分类的符合程度,从而衡量该聚类分析算法是否适用于该类数据。显然,外部评价标准无法对数据对象类标签未知的数据集进行聚类有效性评价。内部评价标准是根据数据集内部数据对象之间的关联关系(相似度或不相似度等)对聚类结果进行有效性评价,因此内部评价标准能对数据对象类标签未知的数据集进行聚类有效性分析。内部评价标准中最基本的两个概念就是类内紧密性(CP)和类间分隔性(SP)。类内紧密性描述的是数据集中每个类内部数据对象之间的相似度,相似度越高,类内紧密性的值越大,说明聚类结果越合理。类间分隔性描述的是数据集中属于不同类的数据对象之间的不相似度,不相似度越高,类间分隔性的值越大,说明聚类结果越合理。但是若单独考虑CP和SP,聚类结果有可能出现局部最优的情况,例如一个类被分为的两个小类,那么类内紧密性的值很大,但是类间分割性的值却很小。类内紧密性的值越大,同时类间分隔性的值也越大,这样才能说明一个聚类结果是有效的。因此,为了解决局部最优问题,一些综合了CP和SP的内部评价标准被提出,例如Davies-Bouldin(DB)指标、Calinski-Harabasz(CH)指标、Silhouette指标等,但这些指标仅适用于球形数据集。MinimumDescriptionLength(MDL)指标适用于球形和凹形数据集,但是却不适用于流形数据集。最近也有部分适用于流形数据的聚类评价指标被提出,例如CSP指标、Liu等人提出的CVNN指标等。然而,现有的内部评价标准还是存在以下问题:①对复杂流形数据评价效果不理想;②需要人工设置邻域参数且对参数敏感,即相同的聚类结果使用不同的参数有可能导致得到的聚类有效性评价不一样。因此,本专利技术公开了一种无参的复杂流形聚类方法,用于解决现有技术中聚类过程中的评价过程不适用于复杂流形数据集且对参数敏感的问题。
技术实现思路
针对现有技术存在的上述不足,本专利技术要解决的技术问题是:如何提供一种适用于复杂流形数据集且对参数不敏感的聚类方法。为解决上述技术问题,本专利技术采用了如下的技术方案:一种无参的复杂流形聚类方法,包括:S1、获取目标数据集D;S2、使用预设聚类算法A求得所述目标数据集D的待确定聚类集合C,C={C1,C2,…,CM};S3、确定所述目标数据集D中所有的自然核心点;S4、从所述目标数据集D中提取初始聚类结果c,c={c1,c2,…,cm};S5、计算每两个自然核心点之间的簇距离;S6、计算每两个自然核心点之间的最短路径距离;S7、基于待确定聚类集合C,以及每个自然核心点与其他自然核心点之间的最短路径及最短路径距离,计算每个待确定类的紧密性及间隔性;S8、基于每个待确定类的紧密性及间隔性计算评价值,若评价值满足预设条件,则将所述待确定聚类集合C作为最终的聚类结果。优选地,步骤S3中:计算目标数据集D中每个目标数据对象的密度Den(p),Dis(p,q)为目标数据对象p与目标数据对象q之间的欧氏距离,目标数据对象q为目标数据对象p的第K个自然邻居,若第一目标数据对象在第二目标数据对象的K-邻域内,且第二目标数据对象在第一目标数据对象的K-邻域内,则第一目标数据对象与第二目标数据对象相互为自然邻居,第一目标数据对象与第二目标数据对象为任意两个不相同的目标数据对象;若目标数据对象p的密度在其K-邻域内最大,或者目标数据对象p的密度在其逆K-邻域内最大,则目标数据对象p为目标数据集D中的一个自然核心点。优选地,步骤S4中:S401、将所有自然核心点设为未被访问状态;S402、随机选择一个未被访问的自然核心点,将所述自然核心点及其稀邻居合并为一个初始簇C(i),i初始值为1,将所述自然核心点设为已被访问状态,若第一目标数据对象在第二目标数据对象的K-邻域内,且第一目标数据对象的密度小于第二目标数据对象的密度,则第一目标数据对象为第二目标数据对象的稀邻居;S403、在所述初始簇C(i)中随机选择一个未被访问的数据对象,将所述数据对象的稀邻居合并到所述初始簇C(i)中,将所述数据对象设为已被访问状态;S404、若所述初始簇C(i)中所有数据对象均为已被访问状态,则执行S405,否则返回执行S403;S405、若所有自然核心点均为已被访问状态,将已经得到的初始簇作为准聚类中心组成初始聚类结果,否则将i的值加1并返回执行S402。优选地,步骤S5中:任意两个不相同的初始簇C(i)与C(j)的簇距离为Dis(Ci,Cj);式中,|Ci|表示初始簇C(i)中目标数据对象的数目,|Cj|表示初始簇C(j)中目标数据对象的数目,当初始簇C(i)和C(j)之间无交集时,将计算出的有交集的初始簇间的簇距离中的最大值加1作为无交集的初始簇之间的距离。优选地,步骤S6中:任意两自然核心点pk及pk+1之间的距离为pk及pk+1对应的两初始簇之间的簇距离;任意一最短路径P={p1,p2,…,pk,…,pn}中自然核心点p1到pn的最短路径距离为D(p1,pn),D(p1,pn)=max{Dis(pk,pk+1)}。优选地,步骤S7中:待确定聚类集合C中任一待确定类Cl的紧密性为CP(Cl);式中,nl(Cl)为待确定类Cl中的自然核心点数量;...

【技术保护点】
1.一种无参的复杂流形聚类方法,其特征在于,包括:/nS1、获取目标数据集D;/nS2、使用预设聚类算法A求得所述目标数据集D的待确定聚类集合C,C={C

【技术特征摘要】
1.一种无参的复杂流形聚类方法,其特征在于,包括:
S1、获取目标数据集D;
S2、使用预设聚类算法A求得所述目标数据集D的待确定聚类集合C,C={C1,C2,…,CM};
S3、确定所述目标数据集D中所有的自然核心点;
S4、从所述目标数据集D中提取初始聚类结果c,c={c1,c2,…,cm};
S5、计算每两个自然核心点之间的簇距离;
S6、计算每两个自然核心点之间的最短路径距离;
S7、基于待确定聚类集合C,以及每个自然核心点与其他自然核心点之间的最短路径及最短路径距离,计算每个待确定类的紧密性及间隔性;
S8、基于每个待确定类的紧密性及间隔性计算评价值,若评价值满足预设条件,则将所述待确定聚类集合C作为最终的聚类结果。


2.如权利要求1所述的无参的复杂流形聚类方法,其特征在于,步骤S3中:
计算目标数据集D中每个目标数据对象的密度Den(p),Dis(p,q)为目标数据对象p与目标数据对象q之间的欧氏距离,目标数据对象q为目标数据对象p的第K个自然邻居,若第一目标数据对象在第二目标数据对象的K-邻域内,且第二目标数据对象在第一目标数据对象的K-邻域内,则第一目标数据对象与第二目标数据对象相互为自然邻居,第一目标数据对象与第二目标数据对象为任意两个不相同的目标数据对象;
若目标数据对象p的密度在其K-邻域内最大,或者目标数据对象p的密度在其逆K-邻域内最大,则目标数据对象p为目标数据集D中的一个自然核心点。


3.如权利要求2所述的无参的复杂流形聚类方法,其特征在于,步骤S4中:
S401、将所有自然核心点设为未被访问状态;
S402、随机选择一个未被访问的自然核心点,将所述自然核心点及其稀邻居合并为一个初始簇C(i),i初始值为1,将所述自然核心点设为已被访问状态,若第一目标数据对象在第二目标数据对象的K-邻域内,且第一目标数据对象的密度小于第二目标数据对象的密度,则第一目标数据对象为第二目标数据对象的稀邻居;
S403、在所述初始簇C(i)中随机选择一个未被访问的数据对象,将所述数据对象的稀邻居合并到所述初始簇C(i)...

【专利技术属性】
技术研发人员:黄金龙程东东张素兰邢昌元
申请(专利权)人:长江师范学院
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1