当前位置: 首页 > 专利查询>南昌大学专利>正文

一种基于距离平方和差值比的聚类有效性评估方法技术

技术编号:25691326 阅读:61 留言:0更新日期:2020-09-18 21:02
本发明专利技术公开了一种基于距离平方和差值比的聚类有效性评估方法,该方法采用一种新的聚类有效性指标——距离平方和差值比RDSED,该方法适用于聚类分析中近似最佳聚类数动态确定。首先,在分析类内与类间关系的基础上,提出了簇内平方和SSW、簇间平方和SSB、总平方和SST、簇内距离和SID、簇间平均距离ADB等概念,基于这些概念构建了一种新的聚类有效性评估指标——距离平方和差值比RDSED;其次,设计了一种基于RDSED的聚类有效性评估方法,用于动态确定近近似最佳聚类数,该方法通过在聚类数范围内由大到小依次计算RDSED值,并利用该指标值动态终止聚类有效性验证过程,最终得到近似最优的聚类数和聚类划分结果。

【技术实现步骤摘要】
一种基于距离平方和差值比的聚类有效性评估方法
本专利技术涉及一种聚类有效评估方法领域。
技术介绍
常用的聚类有效性评价方法是利用数学知识对聚类有效性指标进行建模和构建。然后在聚类算法完成对某一数据集的聚类后,通过计算CVI来评价聚类的质量。CVI不仅是衡量聚类结果有效性的客观指标,也是衡量聚类算法性能的客观依据。聚类有效性指标可以定量研究聚类有效性问题,其主要目的是找到一个性能较好的CVI,使该指标能够正确评价聚类结果,自动获得最优的聚类数目。基于CVI的聚类有效性评价主要包括五个步骤,这五个步骤紧密相关,最终得到最优的聚类数目。图1给出了聚类有效性验证流程图,它包括5个步骤。这些步骤密切相关并最终得出近似最佳聚类数:1.对数据集赋予外部信息;2.在预设的聚类数范围[mmin,mmax]内连续多次运行聚类算法;3.获取聚类结果:聚类划分和真正划分。根据每个聚类数计算其对应的指标值;4.绘制“聚类数-指标值”关系图,根据指标的最优值来确定“最佳”划分结果,进而确定近似最佳聚类数m;5.根据CVI得出的近似最本文档来自技高网...

【技术保护点】
1.一种基于距离平方和差值比的聚类有效性评估方法,其特征在于:/n给定数据集D,基于距离平方和差值比的聚类有效性评估方法步骤如下:/nS1:划定近似最佳聚类数的选择范围。若数据集D含数据对象个数为n,则设置最小聚类数,最大聚类数;/nS2:在数据集D上,在预设的聚类数范围[mmin,mmax]内连续运行聚类算法;/nS3:根据S2中所得聚类数m对应的聚类结果在聚类数范围内从大到小依次计算DSED(m)及RDSED(m);/nS4:当RDSED(m)小于设定阈值时,表明当前的聚类解决方案是可以接受的,则继续计算下一个聚类数对应的聚类结果及相应指标值;当RDSED(m)大于等于设定阈值时,当前聚类...

【技术特征摘要】
1.一种基于距离平方和差值比的聚类有效性评估方法,其特征在于:
给定数据集D,基于距离平方和差值比的聚类有效性评估方法步骤如下:
S1:划定近似最佳聚类数的选择范围。若数据集D含数据对象个数为n,则设置最小聚类数,最大聚类数;
S2:在数据集D上,在预设的聚类数范围[mmin,mmax]内连续运行聚类算法;
S3:根据S2中所得聚类数m对应的聚类结果在聚类数范围内从大到小依次计算DSED(m)及RDSED(m);
S4:当RDSED(m)小于设定阈值时,表明当前的聚类解决方案是可以接受的,则继续计算下一个聚类数对应的聚类结果及相应指标值;当RDSED(m)大于等于设定阈值时,当前聚类数无效,表明前一个聚类数的聚类结果是有效的,此时终止RDSED的计算,并将前一个聚类数m+1确定为近似最佳聚类数,记为m*;
S5:如果RDSED(2)依旧小于设定阈值,则将m=2确定为最佳聚类数,并终止最佳聚类数搜索过程,此时,算法终止。


2.根据权利要求1所述的一种基于距离平方和差值比的聚类有效性评估方法,其特征在于:
所述S1中,则设置最小聚类数mmin=2,最大聚类数


3.根据权利要求1所述的一种基于距离平方和差值比的聚类有效性评估方法,其特征在于:
所述连续运行聚类算法包括HACAL、K-means中的一种或几种。


4.根据权利要求1所述的一种基于距离平方和差值比的聚类有效性评估方法,其特征在于:
所述DSED为距离平方和差值,给定m×n数据集矩阵:
DSED(m)=|(SSW/SSB)·SST-SID/ADB-(n-m)|
其中,n为数据集数据对象个数,m为聚类数;
所述RDSED为距离平方和差值比,距离平方和差值比可定义为相邻两个聚类数对应的DSED之差与较大DSED值之比:








5.根据权利要求4所述的一种基于距离平方和差值比的聚类有效性评估方法,其特征在于:
所述SSW为簇内平方和,假设待聚类的数据集包含d维数据,给定m×n数据集矩阵,对于任意的xi∈ci,j∈[1,d],簇内平方和叉积矩阵叉积矩阵中主对角线元素之和为簇内平方和,非对角线元素之和则为叉积簇内平方和,因此,簇内平方和的计算公式为:
SSW=trace(SSw)
其中为类簇i中心。


6.根据权利要求4所述的一种基于距离平方和差值比的聚类有效性评估方法,其特征在于:
所述SSB为簇间平方和:假设待聚类的数据集包含d维数据,给定m×n数据集矩阵,对于任意...

【专利技术属性】
技术研发人员:李向军卿松魏俊涛刘凌锋揭敏吴晓亮
申请(专利权)人:南昌大学
类型:发明
国别省市:江西;36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1