The invention discloses a complex manifold clustering method without parameters, which comprises: obtaining the cluster set to be determined of the target data set by using the preset clustering algorithm; determining all the natural core points in the target data set; extracting the initial clustering result from the target data set; calculating the cluster distance between each two natural core points; calculating the shortest path distance between each two natural core points Calculate the compactness and interval of each class to be determined; calculate the evaluation value based on the compactness and interval of each class to be determined. If the evaluation value meets the preset conditions, the cluster set to be determined will be the final clustering result. The invention proposes a new concept of cluster distance and a concept of shortest path distance according to cluster distance. By considering the compactness and interval of the class and using the natural evaluation standard, the clustering results with noise points and complex manifold data sets are evaluated effectively, thus a new nonparametric complex manifold clustering method is formed.
【技术实现步骤摘要】
一种无参的复杂流形聚类方法
本专利技术涉及数据挖掘领域,具体涉及一种无参的复杂流形聚类方法。
技术介绍
聚类是一种无监督的机器学习方法,其能挖掘出数据集中数据对象之间的关联关系,进而获得有价值的信息和知识。近年来聚类已成为数据挖掘中的热点课题之一。然而对于同一个数据集,采用不同的聚类分析方法,有可能得到不同的聚类结果。即使同一个聚类分析算法,采用不同参数也有可能得到不同的聚类结果。那么在这些聚类结果中,哪一种聚类结果最符合目标数据集的分类情况,便成为了聚类分析面临的一个难题之一。如若用户任选一种结果作为最终聚类结果,有可能导致从数据中挖掘出的信息价值低或无效。这时就需要聚类评价标准对聚类分析结果进行有效性评价,将聚类评价效果最好的聚类结果作为最终的聚类结果,从而挖掘出有用的信息。目前聚类评价分为两种:外部评价标准和内部评价标准。著名的外部评价标准有:①准确率,被聚类算法正确聚类的数据对象数目与整个数据集中包含的数据对象数目的比值,其值越大证明聚类结果越好;②召回率,在聚类的过程中,有可能存在有些数据对象没有被聚到任何一个类中的情况,利用召回率来表示数据及中被聚类的数据对象的比例,其值越大越好;③兰德指数(RI),RI的取值范围是[0,1],值越大意味着聚类结果与真实情况越吻合。除了以上外部评价标准外,基于兰德指数改进的调整兰德系数、互信息以及标准互信息也是非常具有代表性的外部评价标准。然而,利用外部评价标准对聚类进行有效性评价必须有一个前提:数据集中每个对象的类标签是已知的。所以外部评价标准的主要目的是分析某
【技术保护点】
1.一种无参的复杂流形聚类方法,其特征在于,包括:/nS1、获取目标数据集D;/nS2、使用预设聚类算法A求得所述目标数据集D的待确定聚类集合C,C={C
【技术特征摘要】
1.一种无参的复杂流形聚类方法,其特征在于,包括:
S1、获取目标数据集D;
S2、使用预设聚类算法A求得所述目标数据集D的待确定聚类集合C,C={C1,C2,…,CM};
S3、确定所述目标数据集D中所有的自然核心点;
S4、从所述目标数据集D中提取初始聚类结果c,c={c1,c2,…,cm};
S5、计算每两个自然核心点之间的簇距离;
S6、计算每两个自然核心点之间的最短路径距离;
S7、基于待确定聚类集合C,以及每个自然核心点与其他自然核心点之间的最短路径及最短路径距离,计算每个待确定类的紧密性及间隔性;
S8、基于每个待确定类的紧密性及间隔性计算评价值,若评价值满足预设条件,则将所述待确定聚类集合C作为最终的聚类结果。
2.如权利要求1所述的无参的复杂流形聚类方法,其特征在于,步骤S3中:
计算目标数据集D中每个目标数据对象的密度Den(p),Dis(p,q)为目标数据对象p与目标数据对象q之间的欧氏距离,目标数据对象q为目标数据对象p的第K个自然邻居,若第一目标数据对象在第二目标数据对象的K-邻域内,且第二目标数据对象在第一目标数据对象的K-邻域内,则第一目标数据对象与第二目标数据对象相互为自然邻居,第一目标数据对象与第二目标数据对象为任意两个不相同的目标数据对象;
若目标数据对象p的密度在其K-邻域内最大,或者目标数据对象p的密度在其逆K-邻域内最大,则目标数据对象p为目标数据集D中的一个自然核心点。
3.如权利要求2所述的无参的复杂流形聚类方法,其特征在于,步骤S4中:
S401、将所有自然核心点设为未被访问状态;
S402、随机选择一个未被访问的自然核心点,将所述自然核心点及其稀邻居合并为一个初始簇C(i),i初始值为1,将所述自然核心点设为已被访问状态,若第一目标数据对象在第二目标数据对象的K-邻域内,且第一目标数据对象的密度小于第二目标数据对象的密度,则第一目标数据对象为第二目标数据对象的稀邻居;
S403、在所述初始簇C(i)中随机选择一个未被访问的数据对象,将所述数据对象的稀邻居合并到所述初始簇C(i)...
【专利技术属性】
技术研发人员:黄金龙,程东东,张素兰,邢昌元,
申请(专利权)人:长江师范学院,
类型:发明
国别省市:重庆;50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。