【技术实现步骤摘要】
一种基于样本密度和自适应调整聚类中心的聚类分析方法
本专利技术涉及机器学习中的无监督学习聚类分析领域,特别涉及基于样本密度和自适应调整聚类中心的聚类分析方法。
技术介绍
目前,研究和应用最为广泛的是基于划分的聚类方法,K-means算法是一种典型的基于划分思想的聚类算法,又是一种基于距离的聚类算法,具有算法思想简单、收敛速度快、局部搜索能力强等特点,已被国内外众多专家学者研究多年,并且已经在很多工商业领域被广泛应用。但是K-means聚类算法存在需要事先人为确定聚类的类别数K值,聚类结果受初值影响大,在一定程度上限制了其在解决实际问题时发挥的作用。在使用K-means算法处理数据集时,聚类数目往往预先是不知道的,需要根据先验知识或者对数据集进行分析得到预估的聚类数目,如果数据集十分庞大或者数据结构十分复杂时,分析数据需要花费很大代价且很难确定最佳聚类数目。此外,由于算法初始聚类中心的随机选择,聚类结果不稳定,很容易陷入局部最优解,导致聚类效果和数据实际的特征分布存在较大偏差。因此在聚类分析中,对于初始聚类数目和聚类中 ...
【技术保护点】
1.一种基于样本密度和自适应调整聚类中心的聚类分析方法,其特征在于步骤如下:/n步骤1:选择初始聚类中心/n1-1:初始化聚类数目
【技术特征摘要】
1.一种基于样本密度和自适应调整聚类中心的聚类分析方法,其特征在于步骤如下:
步骤1:选择初始聚类中心
1-1:初始化聚类数目初始化中心点集n为样本数量;
1-2:聚类处理的数据集X={x1,x2,…,xi,…,xn},每个样本对象包含p维特征{xi1,xi2,...,xil,...,xip},xil分别表示第i个对象的第l个特征值,i≤n,l≤p;计算数据集中每个样本对象的密度值ρ(xi),如公式(1)所示,并按照密度值的大小降序排列;
ρ(xi)=exp[-v(xi)](1)
其中:为样本间的欧氏距离,i=1,2,...,n.j=1,2,...,n;
1-3:从样本集中选取处于最密集区域的样本,即最大的密度值max{ρ(xi)}对应的样本对象作为第一个类簇的初始聚类中心M1,并将其加入到初始化中心点集M中;
1-4:计算该聚类中心M1对应的邻域半径以该聚类中心点为中心以为半径的圆形区域所包含数据对象的集合,作为数据对象的邻域
数据对象的邻域半径R:
其中:cR为半径调节系数,0<cR≤1,为数据对象之间的平均距离;
1-5:从样本数据集中删除聚类中心M1和其邻域内的样本数据,在剩余的样本数据中继续寻找下一个聚类中心;
1-6:重复执行1-2~1-5,直到找到K个初始聚类中心点{M1,M2,...,Mi,...,MK};
1-7:保存初始聚类中心点集M={M1,M2,...,Mi,...,MK};
步骤2:初始样本分配和聚类处理
2-1:将样本数据集X={x1,x2,...,xi,...,xn}中的样本对象分配到距离其最近的中心点所在的类簇中,形成初始类簇{C1,C2,...,CK},并计算聚类的误差平方和SSEK:
其中,是相应类Ci中ni个样本的均值,i=1,2,...,K;
2-2:更新类簇中心,在每一类簇中重新寻找距离所在类簇其它样本点距离总和最小的点作为新的类簇中心;
2-3:计算误差平方和,若与上次误差平方和相同或者聚类中心不再改变,保存聚类中心点集Mk,并执行下一步,否则转到2-1;
步骤3:聚类子类簇合并
3-1:计算当前聚类结果的类间分散度DispK和类内聚合度AggrK;
计算每个子类Ci内所有样本任意两个元素之间的距离d,定义子类Ci的类内聚合度:
计算所有子类{C1,C2,...,CK}的类内聚...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。