一种分布熵驱动的模糊C均值软平衡聚类算法制造技术

技术编号:27194023 阅读:31 留言:0更新日期:2021-01-31 11:43
本发明专利技术涉及机器学习领域中的聚类问题,具体涉及一种分布熵驱动的模糊C均值软平衡聚类算法,包括以下步骤:第一,定义硬标签矩阵的分布熵;第二,定义硬标签矩阵和模糊隶属度矩阵之间的对应关系;第三,采用Frobenius范数构建平方损失项度量硬标签矩阵和模糊隶属度矩阵之间的距离;第四,结合标签矩阵的分布熵和平方损失项,构建分布熵驱动的模糊C均值软平衡聚类模型;第五,采用交替优化的策略对模型进行求解。行求解。行求解。

【技术实现步骤摘要】
一种分布熵驱动的模糊C均值软平衡聚类算法


[0001]本专利技术涉及机器学习领域中的聚类问题,具体涉及一种分布熵驱动的模糊C均值软平衡聚类算法。

技术介绍

[0002]聚类作为一种非监督的机器学习方法,已成为模式识别和机器学习领域的研究热点。聚类的目标是将相似的样本数据聚到同一个类中。聚类可以发现数据中潜在的分布或结构,在图像分割、搜索引擎,生物医学应用等领域中得到了广泛的应用。与一般的聚类算法相比,基于模糊理论的模糊C均值聚类(Fuzzy C-means,FCM)在聚类过程中表现出了很大的优势。该算法不仅考虑了每个样本点与所有聚类中心的相似性,而且通过其加权指数指明每个样本属于该类别的程度。FCM算法更加符合真实情况下的聚类,提供了更加灵活的聚类结果。
[0003]然而在许多实际应用中,聚类任务面临着样本数量需要平衡的情况。例如在社区聚类任务中,不同社区的人数应该满足平衡性要求,如果聚类结果是失衡的会导致许多社会问题。在过去的二十年中,平衡聚类问题引起了众多研究者的广泛关注,产生了许多平衡聚类算法。根据平衡的严密性,平衡聚类可分为硬平衡聚类和软平衡聚类。硬平衡聚类通过添加规模约束来固定聚类的规模,使不同类别的样本数目绝对相等。典型的硬平衡聚类包括约束K均值聚类(Constrained K-means,CKM),平衡K均值聚类(Balanced K-Means,BKM)等方法。软平衡聚类不需要每个类别的样本个数绝对相等,通过将标签分布约束集成到聚类模型中,使聚类结果的标签分布趋于平衡。典型的软平衡聚类包括规模正则化切(Size Regularized Cut,SRC),软模型聚类(Soft Model-based Clustering,SMC),最小二乘回归平衡聚类(Balanced Clustering with Least Square Regression,BCLS),局部和全局平衡聚类(Local and Global Balanced Clustering,LGB)等方法。由于FCM算法没有考虑不同类别的规模约束,不具备实现平衡聚类的条件。为了解决这个问题,本专利技术将聚类模型与标签分布熵结合在一起,驱动FCM算法生成平衡聚类结果。

技术实现思路

[0004]本专利技术的目的就是解决现有技术中的问题,使FCM算法实现平衡聚类。为了实现该目的,本专利技术提出利用标签矩阵构建数据的分布熵,设计了一种分布熵驱动的模糊C均值(Distribution Entropy Driven Fuzzy C-Means,DED-FCM)软平衡聚类方法,具体技术方案如下:
[0005]一种分布熵驱动的模糊C均值软平衡聚类算法,包括以下步骤:
[0006]第一,定义硬标签矩阵的分布熵:
[0007]E(Y)=||Y
T
1||2ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0008]其中,Y=[y
ik
]∈R
n
×
c
且Y∈Ind,它是硬标签矩阵,1为元素全为1的列向量。
[0009]第二,定义硬标签矩阵和模糊隶属度矩阵之间的对应关系:
[0010][0011]其中,为模糊隶属度矩阵。
[0012]第三,采用Frobenius范数构建平方损失项度量硬标签矩阵和模糊隶属度矩阵之间的距离:
[0013][0014]第四,结合标签矩阵的分布熵和平方损失项,构建分布熵驱动的模糊C均值软平衡聚类模型,如下:
[0015][0016]其中,x
i
是原始数据中的样本,v
k
是第k类的类别中心,w
ik
是x
i
属于v
k
的模糊隶属度,m是模糊指数。n和c分别代表样本个数和类别个数。λ和γ分别为平方损失项正则参数和分布熵平衡参数。
[0017]第五,对上述模型进行求解,该模型的优化求解过程如下:
[0018]步骤1:随机初始化隶属度矩阵W,按公式(2)计算硬标签矩阵Y,初始化调节参数ρ、惩罚参数μ>0和拉格朗日乘子矩阵Λ=0。
[0019]步骤2:固定W,对聚类中心矩阵V进行更新。
[0020][0021]步骤3:固定V,对隶属度矩阵W进行更新。
[0022][0023]其中,d
ik
是样本x
i
和聚类中心v
k
之间的距离,按照公式(7)进行计算。
[0024]d
ik
=||x
i-v
k
||
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0025]同时,为了使每个样本属于不同类的隶属度大于0且和为1,对w
ik
进行非负处理和归一化处理:
[0026][0027]步骤4:固定W和Y,更新辅助变量Z。
[0028]Z=((2λ+μ)I
n
+2γ11
T
)-1
(2λW+μY+Λ)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)
[0029]其中,I
n
是单位矩阵。
[0030]步骤5:固定Z,Λ和μ,更新硬标签矩阵Y。
[0031][0032]其中,矩阵P=Z-(1/μ)Λ。
[0033]步骤6:更新拉格朗日乘子Λ和惩罚参数μ。
[0034]Λ
(t+1)
=Λ
(t)

(t)
(Y
(t+1)-Z
(t+1)
),μ
(t+1)
=ρμ
(t)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)
[0035]重复步骤2至步骤6,直到目标函数收敛,获得最终的聚类结果Y。
[0036]综上所述,本专利技术利用数据的标签矩阵设计了分布熵,聚类模型最小化该分布熵时,可以得到更加平衡的聚类结果。通过将分布熵用于构建软平衡聚类模型,提出了一种分布熵驱动的模糊C均值(Distribution Entropy Driven Fuzzy C-Means,DED-FCM)软平衡聚类方法,实现软平衡聚类。为了在FCM模型中结合分布熵,本专利技术利用平方损失正则化项建立了标签矩阵和模糊隶属度矩阵的对应关系。为了求解该模型,本专利技术提出了一种交替优化的策略,该优化策略包含两个步骤:平方损失函数优化和平衡驱动优化,优化更新策略保证收敛。同时,通过FCM聚类模型与标签分布熵之间的权衡参数来控制软平衡度。
附图说明
[0037]图1是本专利技术的应用示意图;
[0038]图2是本专利技术在COIL20,ISOLET,ORL,UMIST,PIE,AR数据集的聚类结果ACC评价示意图;
[0039]图3是本专利技术在COIL20,ISOLET,ORL,UMIST,PIE,AR数据集的聚类本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分布熵驱动的模糊C均值软平衡聚类算法,其特征在于,包括以下步骤:第一,定义硬标签矩阵的分布熵;第二,定义硬标签矩阵和模糊隶属度矩阵之间的对应关系;第三,采用Frobenius范数构建平方损失项度量硬标签矩阵和模糊隶属度矩阵之间的距离;第四,结合标签矩阵的分布熵和平方损失项,构建分布熵驱动的模糊C均值软平衡聚类模型;第五,采用交替优化的策略对模型进行求解。2.根据权利要求1所述的一种分布熵驱动的模糊C均值软平衡聚类算法,其特征在于,所述步骤一中,定义硬标签矩阵的分布熵:E(Y)=||Y
T
1||2ꢀꢀꢀꢀꢀꢀꢀ
(1)其中,Y=[y
ik
]∈R
n
×
c
且Y∈Ind,它是硬标签矩阵,1为元素全为1的列向量。3.根据权利要求1所述的一种分布熵驱动的模糊C均值软平衡聚类算法,其特征在于,所述步骤二中,硬标签矩阵和模糊隶属度矩阵之间的对应关系:其中,为模糊隶属度矩阵。4.根据权利要求1所述的一种分布熵驱动的模糊C均值软平衡聚类算法,其特征在于,所述步骤三中,平方损失项度量硬标签矩阵和模糊隶属度矩阵之间的距离:5.根据权利要求1所述的一种分布熵驱动的模糊C均值软平衡聚类算法,其特征在于,所述步骤四中,分布熵驱动的模糊C均值软平衡聚类模型,如下:其中,x
i
是原始数据中的样本,v
k
是第k类的类别中心,w
ik
是x
i
属于v
k
的模糊隶属度,m是模糊指数。n和c分别代表样本个数和类别个数。λ和γ分别为平方损失项正则参数和分布熵平衡参数。6.根...

【专利技术属性】
技术研发人员:胡文军王哲昀尹宏伟蒋云良
申请(专利权)人:湖州师范学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1