基于非负矩阵分解和模糊C均值的聚类方法技术

技术编号:24252246 阅读:65 留言:0更新日期:2020-05-22 23:56
本发明专利技术公开了一种基于非负矩阵分解和模糊C均值的聚类方法,用于实现对拥有大量的高维特征的数据样本的聚类,包含利用非负矩阵分解方法对高维特征进行降维处理的技术手段和利用模糊C均值实现模糊聚类的算法内容。考虑到运行NMF算法可以节省更多的时间和存储空间,但也有可能破坏数据样本之间的本质结构,影响聚类效果。为了减少负面影响,提出了一种新的聚类算法FCM‑NMF,实现在NMF压缩样本数据的过程中的模糊聚类,利用交替迭代法并给出多个更新规则,再根据隶属度划分矩阵判断数据样本所属的簇团。该方案设计复杂度低,操作简单,易于实现。相较于传统的聚类算法的方案,具有更优性能。

Clustering method based on nonnegative matrix decomposition and fuzzy c-means

【技术实现步骤摘要】
基于非负矩阵分解和模糊C均值的聚类方法
本专利技术涉及数据挖掘和模式识别
和数据分析与人工智能领域,具体是一种基于非负矩阵分解(Non-negativeMatrixFactorization,NMF)和模糊C均值(FCM)的聚类方法。
技术介绍
随着物联网、电子商务等技术的广泛应用,可以收集的数据越来越多,越来越复杂,数据特征的维度也越来越高。如何快速检索有用相关的信息,越来越成为我们关注的热点问题。聚类是机器学习和数据挖掘中的基础课题之一,它的目的是将数据样本划分为不同的簇,使同一簇的数据样本具有较高的相似性。到目前为止,很多研究提出了一些有效的聚类方法,例如K-means,FCM,层次聚类,谱聚类(SC)。人们获得的数据普遍具有如下两个特点:(1)数据量庞大,检索困难;(2)数据维数巨大,处理困难。虽然高维数据也许含有更多的信息,但将其直接用于分类、聚类或概率密度估计等任务,必将付出巨大的时间和空间代价。因此降维特征提取过程已经成为许多数据挖掘问题的一种预处理手段。数据降维的本质是寻找一个低维表示来反映原始数据的内在特征,并使本文档来自技高网...

【技术保护点】
1.一种基于非负矩阵分解和模糊C均值的聚类方法,其特征在于,包括以下步骤:/nS1:对图像特征集进行预处理,提取出原始非负特征数据样本集X,并设置聚类簇团个数c,模糊系数f,平衡系数λ;/nS2:初始化基矩阵W和系数表示矩阵H,根据条件约束设置模糊伪划分U,并确定对应的聚类中心矩阵V;/nS3:利用梯度下降法和交替迭代法则,通过固定其余变量,对某一变量进行更新;/nS4:对所提方法的目标函数的阈值进行限定,当目标函数的值变化小于阈值,上述交替迭代停止;/nS5:根据隶属度划分矩阵U对样本的归属进行确定,得到样本的类标签信息,聚类结束。/n

【技术特征摘要】
1.一种基于非负矩阵分解和模糊C均值的聚类方法,其特征在于,包括以下步骤:
S1:对图像特征集进行预处理,提取出原始非负特征数据样本集X,并设置聚类簇团个数c,模糊系数f,平衡系数λ;
S2:初始化基矩阵W和系数表示矩阵H,根据条件约束设置模糊伪划分U,并确定对应的聚类中心矩阵V;
S3:利用梯度下降法和交替迭代法则,通过固定其余变量,对某一变量进行更新;
S4:对所提方法的目标函数的阈值进行限定,当目标函数的值变化小于阈值,上述交替迭代停止;
S5:根据隶属度划分矩阵U对样本的归属进行确定,得到样本的类标签信息,聚类结束。


2.根据权利要求1所述的基于非负矩阵分解和模糊C均值的聚类方法,其特征在于:所述S1中,对图像特征集进行预处理,提取出原始非负特征数据样本集n是数据样本个数,m是数据样本维数;并设置聚类簇团个数c<<min(m,n),模糊系数f是一个大于1而小于2.5的参量,平衡系数λ的数量级在10-1至102之间调整。


3.根据权利要求1所述的基于非负矩阵分解和模糊C均值的聚类方法,其特征在于:所述S2中,随机初始化基矩阵和系数表示矩阵使得X≈WHT;基矩阵W是降维后的低秩空间的表现形式;系数矩阵H是原始数据X经降维后的低维表达方式;再根据以下约束设置隶属度矩阵U∈Rc×n,它的元素μij表示第j个样本xj分属于第i个聚类中心vi的程度;然后确定该隶属度伪划分对应的聚类中心矩阵V∈Rc×c,它是由所有聚类簇团中心组成的矩阵形式,每个聚类中心由公式(2)得到,xj表示n个样本中第j个样本,vi表示k个簇中第i个聚类中心,Ci代表...

【专利技术属性】
技术研发人员:陶性留俞璐王晓莹姚艳艳
申请(专利权)人:中国人民解放军陆军工程大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1