聚类评估方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号:33717087 阅读:43 留言:0更新日期:2022-06-08 21:07
本申请实施例提供了一种聚类评估方法、装置、电子设备及计算机可读存储介质,涉及聚类技术领域。该方法用于对数据聚类后形成的多个数据簇进行评估,每个数据簇包括至少两个簇数据,所述方法包括:分别计算每个数据簇中,该数据簇的每个簇数据相对该数据簇中其他簇数据的簇内平均距离;分别计算每个数据簇中,该数据簇的每个簇数据相对该数据簇的中心距离最近的两个数据簇中每个簇数据的簇间平均距离;根据所述簇内平均距离和所述簇间平均距离计算聚类轮廓系数;根据所述聚类轮廓系数评估聚类结果。本申请实施例实现了快速确定聚类轮廓系数及聚类评估结果,大幅降低了聚类评估结果的评估时间,提高了聚类评估的效率。提高了聚类评估的效率。提高了聚类评估的效率。

【技术实现步骤摘要】
聚类评估方法、装置、电子设备及计算机可读存储介质


[0001]本申请涉及聚类
,具体而言,本申请涉及一种聚类评估方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]聚类算法作为机器学习领域主要的无监督算法,通常被用于在大量无标签数据中寻找存在某些相同或者近似性质的数据,按照物以类聚的思想生成各不相同的数据集合,进而用于大数据挖掘及分析,以求从海量数据中提取有用的成分。例如,对于时间维度的数据,可以按照发生时间的远近,将时间相近的数据聚合为一个事件,对于空间维度的数据,可以按照空间距离的远近,将距离相近的数据聚合为一个区域,诸如此类。
[0003]而为了高效且准确地获取尽可能相似的数据,就要求存在一种方法能够对聚类算法的结果进行评估,以指导数据集合的生成,即如何判断聚类算法的效果是否真的尽可能将性质类似的数据放在了一起,而把性质相异的数据区分了开来。现有的聚类评估方法,如轮廓系数(Silhouette index)方法,邓恩指数(Duun index)方法等,确定聚类效果的方案较为复杂,耗时较长,效率较低。
专本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种聚类评估方法,其特征在于,用于对数据聚类后形成的多个数据簇进行评估,每个数据簇包括至少两个簇数据,所述方法包括:分别计算每个数据簇中,该数据簇的每个簇数据相对该数据簇中其他簇数据的簇内平均距离;分别计算每个数据簇中,该数据簇的每个簇数据相对该数据簇的中心距离最近的两个数据簇中每个簇数据的簇间平均距离;根据所述簇内平均距离和所述簇间平均距离计算聚类轮廓系数;根据所述聚类轮廓系数评估聚类结果。2.根据权利要求1所述的聚类评估方法,其特征在于,所述分别计算每个数据簇中,该数据簇的每个簇数据相对该数据簇中其他簇数据的簇内平均距离,包括:分别针对每个数据簇,分别计算该数据簇中每个簇数据相对该数据簇中其他簇数据的距离之和;根据所述该数据簇中每个簇数据相对该数据簇中其他簇数据的距离之和,计算该数据簇中所有簇数据的簇内总距离;根据所述簇内总距离与该数据簇中簇数据的个数计算所述簇内平均距离。3.根据权利要求2所述的聚类评估方法,其特征在于,所述根据所述该数据簇中每个簇数据相对该数据簇中其他簇数据的距离之和,计算该数据簇中所有簇数据的簇内总距离,包括:将所述该数据簇中每个簇数据相对该数据簇中其他簇数据的距离之和相加,以得到该数据簇中所有簇数据的簇内总距离。4.根据权利要求1所述的聚类评估方法,其特征在于,所述分别计算每个数据簇中,该数据簇的每个簇数据相对该数据簇的中心距离最近的两个数据簇中每个簇数据的簇间平均距离,包括针对每个数据簇,获取该数据簇的中心;针对每个数据簇,根据该数据簇的中心和该数据簇的簇数据的个数,计算所述簇间平均距离。5.根据权利要求4所述的聚类评估方法,其特征在于,所述根据该数据簇的中心和该数据簇的簇数据的个数,计算所述簇间平均距离,包括:计算该数据簇中小于该数据簇的中心的簇数据与距离该数...

【专利技术属性】
技术研发人员:朱诗逸孟祥德王云鹏
申请(专利权)人:亚信科技中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1