一种特征加权的模糊紧致散布聚类方法技术

技术编号:10369832 阅读:149 留言:0更新日期:2014-08-28 12:28
针对现有的WFCM算法在聚类时没有考虑样本硬划分实际情况,FCS算法没有考虑硬划分边界点的情况以及忽略样本特征参数对聚类影响的问题,本发明专利技术公开了一种特征加权的模糊紧致散布聚类方法。本发明专利技术通过对样本隶属度、特征权重进行调整,遵循了样本硬划分的实际情况,并充分考虑样本特征参数对样本划分的影响,尽可能使得样本类内紧致、类间分散,解决了位于硬划分边界的样本隶属度问题,对于噪声数据和异常数据实现了更有效的划分。聚类性能良好,收敛速度快、迭代效率高。实验证明,本算法聚类性能良好,收敛速度快、迭代效率高。与现有方法相比,本发明专利技术聚类准确率高,耗时明显减少,适于应用在工业控制中实时性要求高的场合。

【技术实现步骤摘要】

本专利技术属于数据处理
,尤其是涉及。
技术介绍
在自然科学和社会科学中,存在着大量的分类问题,聚类方法是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法,应用领域非常广泛。模糊C-均值(FCM)聚类算法是常用的无监督模式识别方法,有很多对FCM算法的改进,其中基于特征加权的FCM(WFCM)聚类算法考虑了样本各特征参数对聚类中心的影响,改善了噪声、异常数据影响等情况。但是,这些基于FCM的聚类算法,实质都只考虑了样本的类内紧致性(类内散度),而忽略了样本类间散布性(类间散度)。Kuo-Lung Wu等人提出的FCS (Fuzzy Compactness and Separation)算法考虑了类内紧致和类间散布,并兼容了样本的硬划分和模糊划分,这更符合实际情况;国内有宋风溪等人提出了最大散度差判别准则的分类方法,该准则综合考虑类间散度和类内散度来求最优投影向量以对样本进行分类;皋军等人将模糊度引入了最大散度差判别准则提出了 FMSDC(fuzzy maximum scatterdifference discriminant criterion)算法,在模糊聚类的同时进行了降维;支晓斌等人指出皋军等人的算法中的错误,提出FMSDC-FCS聚类算法,该算法是皋军等人算法的正确版本,利用FCM算 法初始化隶属度和样本均值,再用FMSDC算法进行降维,用FCS算法对降维数据进行聚类,其聚类实质还是采用FCS算法。而在利用上述算法进行数据分类的过程中,我们发现,实际数据有些处于某类硬划分区域和硬划分边界上,这些数据的隶属度就不需要模糊化,这是FCM算法以及相关扩展FCM算法所不能解决的。FCS算法虽然考虑了样本硬划分问题,但是却没有考虑处于硬划分边界上的样本情况,这就导致了对实际数据进行分类时,遇到边界数据时出现分类准确度不高或运算耗时过长的问题。
技术实现思路
针对现有的WFCM算法在聚类时没有考虑样本硬划分实际情况,FCS算法没有考虑硬划分边界点的情况以及忽略样本特征参数对聚类影响的问题,本专利技术公开了。为了达到上述目的,本专利技术提供如下技术方案:,包括如下步骤:步骤一:设置隶属度指数m、特征加权指数a e [-10, -1] U (I, 10]、β e {0.005, 0.05,0.5,1},初始迭代次数P = O以及迭代误差ε > O,随机生成初始聚类中心Bjai为第i类聚类中心),(c为类别数); c步骤二:根据下式计算系数η i:本文档来自技高网
...

【技术保护点】
一种特征加权的模糊紧致散布聚类方法,其特征在于,包括如下步骤:步骤一:设置隶属度指数m、特征加权指数α∈[‑10,‑1]∪(1,10]、β∈{0.005,0.05,0.5,1},初始迭代次数p=0以及迭代误差ε>0,随机生成初始聚类中心ai,(c为类别数);步骤二:根据下式计算系数ηi:ηi=β4mini≠i′||ai-ai′||2maxt||at-X‾||2]]>其中,为样本均值;步骤三:根据下式更新样本隶属度μij:μij=(Σk=1sωkα(||xij-aik||2-ηi||aik-Xk‾||2))11-mΣt=1c(Σk=1sωkα(||xjk-atk||2-ηt||atk-Xk‾||2))11-m]]>记Δij=Σk=1sωkα(||xij-aik||2-ηi||aik-Xk‾||2)]]>当样本点xj存在落在硬划分边界上时,此时Δij=0,在保证各样本点相对于第i类的距离尺度不变的前提下,对Δij≥0的根据下式进行调整:Δij=Δij+rand*minj(Δij>0)(j=1,...,n)]]>调整后利用下式计算新的μij:μijΔij11-mΣt=1cΔtj11-m]]>因为有样本点xj落在第i类硬划分区域内,所以会有μij<0,因此对μij进行硬划分调整:μij=1,Δij<0μi′j=0,i′≠i]]>步骤四:根据下式计算特征权重ωk:ωk=(Σi=1cΣj=1nμijm(||xij-aij||2-ηi||aik-Xk‾||2))11-αΣt=1s(Σi=1cΣj=1nμijm(||xjt-ait||2-ηi||ait-Xt‾||2))11-α]]>记Δk=Σi=1cΣj=1nμijm(||xjk-aik||2-ηi||aik-Xk‾||2)]]>若Δk<0,因为ωk∈[0,1],所以需将Δk投影到大于0的区间且保证各样本的第k个特征参数与第i类的硬划分区的距离尺度不变,于是利用下式调整Δk:Δk=Δk-mink(Δk)+mink(Δk>0)]]>调整后利用特征权重公式计算新的ωk;步骤五:根据下式计算聚类中心ai:aik=Σj=1nμijm(xij-ηiXk‾)Σj=1nμijm(1-ηi)]]>步骤六:令迭代次数p=p+1,直到maxi|ai'‑ai|<ε;否则转到步骤二;步骤七:将第t次迭代得到的μij输出,根据即第j个样本属于第i类。...

【技术特征摘要】
1.一种特征加权的模糊紧致散布聚类方法,其特征在于,包括如下步骤: 步骤一:设置隶属度指数m、特征加权指数a e [-10, -1] U (I, 10]、β e {0.005, 0.05,0.5,1},初始迭代次数P = O以及迭代误差ε > O,随机生成初始聚类中心Bi,6?=! (C为类别数); 步骤二:根据下式计算系数Hi: 2.根据权利要求1所述的特征加权的模糊紧致散布聚类方法,其特征在于:所述样本隶属度μ ij和...

【专利技术属性】
技术研发人员:周媛何军夏景明
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1