一种分布熵驱动的模糊C均值软平衡聚类算法制造技术

技术编号：27194023 阅读：31 留言：0更新日期：2021-01-31 11:43

本发明专利技术涉及机器学习领域中的聚类问题，具体涉及一种分布熵驱动的模糊C均值软平衡聚类算法，包括以下步骤：第一，定义硬标签矩阵的分布熵；第二，定义硬标签矩阵和模糊隶属度矩阵之间的对应关系；第三，采用Frobenius范数构建平方损失项度量硬标签矩阵和模糊隶属度矩阵之间的距离；第四，结合标签矩阵的分布熵和平方损失项，构建分布熵驱动的模糊C均值软平衡聚类模型；第五，采用交替优化的策略对模型进行求解。行求解。行求解。

全部详细技术资料下载

【技术实现步骤摘要】
一种分布熵驱动的模糊C均值软平衡聚类算法

[0001]本专利技术涉及机器学习领域中的聚类问题，具体涉及一种分布熵驱动的模糊C均值软平衡聚类算法。

技术介绍

[0002]聚类作为一种非监督的机器学习方法，已成为模式识别和机器学习领域的研究热点。聚类的目标是将相似的样本数据聚到同一个类中。聚类可以发现数据中潜在的分布或结构，在图像分割、搜索引擎，生物医学应用等领域中得到了广泛的应用。与一般的聚类算法相比，基于模糊理论的模糊C均值聚类(Fuzzy C-means,FCM)在聚类过程中表现出了很大的优势。该算法不仅考虑了每个样本点与所有聚类中心的相似性，而且通过其加权指数指明每个样本属于该类别的程度。FCM算法更加符合真实情况下的聚类，提供了更加灵活的聚类结果。
[0003]然而在许多实际应用中，聚类任务面临着样本数量需要平衡的情况。例如在社区聚类任务中，不同社区的人数应该满足平衡性要求，如果聚类结果是失衡的会导致许多社会问题。在过去的二十年中，平衡聚类问题引起了众多研究者的广泛关注，产生了许多平衡聚类算法。根据平衡的严密性，平衡聚类可分为硬平衡聚类和软平衡聚类。硬平衡聚类通过添加规模约束来固定聚类的规模，使不同类别的样本数目绝对相等。典型的硬平衡聚类包括约束K均值聚类(Constrained K-means,CKM),平衡K均值聚类(Balanced K-Means,BKM)等方法。软平衡聚类不需要每个类别的样本个数绝对相等，通过将标签分布约束集成到聚类模型中，使聚类结果的标签分布趋于平衡。典型的软平衡聚类包括规模...

【技术保护点】

【技术特征摘要】
1.一种分布熵驱动的模糊C均值软平衡聚类算法，其特征在于，包括以下步骤：第一，定义硬标签矩阵的分布熵；第二，定义硬标签矩阵和模糊隶属度矩阵之间的对应关系；第三，采用Frobenius范数构建平方损失项度量硬标签矩阵和模糊隶属度矩阵之间的距离；第四，结合标签矩阵的分布熵和平方损失项，构建分布熵驱动的模糊C均值软平衡聚类模型；第五，采用交替优化的策略对模型进行求解。2.根据权利要求1所述的一种分布熵驱动的模糊C均值软平衡聚类算法，其特征在于，所述步骤一中，定义硬标签矩阵的分布熵：E(Y)＝||Y
T
1||2ꢀꢀꢀꢀꢀꢀꢀ
(1)其中，Y＝[y
ik
]∈R
n
×
c
且Y∈Ind，它是硬标签矩阵，1为元素全为1的列向量。3.根据权利要求1所述的一种分布熵驱动的模糊C均值软平衡聚类算法，其特征在于，所述步骤二中，硬标签矩阵和模糊隶属度矩阵之间的对应关系：其中，为模糊隶属度矩阵。4.根据权利要求1所述的一种分布熵驱动的模糊C均值软平衡聚类算法，其特征在于，所述步骤三中，平方损失项度量硬标签矩阵和模糊隶属度矩阵之间的距离：5.根据权利要求1所述的一种分布熵驱动的模糊C均值软平衡聚类算法，其特征在于，所述步骤四中，分布熵驱动的模糊C均值软平衡聚类模型，如下：其中，x
i
是原始数据中的样本，v
k
是第k类的类别中心，w
ik
是x
i
属于v
k
的模糊隶属度，m是模糊指数。n和c分别代表样本个数和类别个数。λ和γ分别为平方损失项正则参数和分布熵平衡参数。6.根...

【专利技术属性】
技术研发人员：胡文军，王哲昀，尹宏伟，蒋云良，
申请(专利权)人：湖州师范学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人