本发明专利技术公开了一种基于非负矩阵分解和模糊C均值的聚类方法,用于实现对拥有大量的高维特征的数据样本的聚类,包含利用非负矩阵分解方法对高维特征进行降维处理的技术手段和利用模糊C均值实现模糊聚类的算法内容。考虑到运行NMF算法可以节省更多的时间和存储空间,但也有可能破坏数据样本之间的本质结构,影响聚类效果。为了减少负面影响,提出了一种新的聚类算法FCM‑NMF,实现在NMF压缩样本数据的过程中的模糊聚类,利用交替迭代法并给出多个更新规则,再根据隶属度划分矩阵判断数据样本所属的簇团。该方案设计复杂度低,操作简单,易于实现。相较于传统的聚类算法的方案,具有更优性能。
Clustering method based on nonnegative matrix decomposition and fuzzy c-means
【技术实现步骤摘要】
基于非负矩阵分解和模糊C均值的聚类方法
本专利技术涉及数据挖掘和模式识别
和数据分析与人工智能领域,具体是一种基于非负矩阵分解(Non-negativeMatrixFactorization,NMF)和模糊C均值(FCM)的聚类方法。
技术介绍
随着物联网、电子商务等技术的广泛应用,可以收集的数据越来越多,越来越复杂,数据特征的维度也越来越高。如何快速检索有用相关的信息,越来越成为我们关注的热点问题。聚类是机器学习和数据挖掘中的基础课题之一,它的目的是将数据样本划分为不同的簇,使同一簇的数据样本具有较高的相似性。到目前为止,很多研究提出了一些有效的聚类方法,例如K-means,FCM,层次聚类,谱聚类(SC)。人们获得的数据普遍具有如下两个特点:(1)数据量庞大,检索困难;(2)数据维数巨大,处理困难。虽然高维数据也许含有更多的信息,但将其直接用于分类、聚类或概率密度估计等任务,必将付出巨大的时间和空间代价。因此降维特征提取过程已经成为许多数据挖掘问题的一种预处理手段。数据降维的本质是寻找一个低维表示来反映原始数据的内在特征,并使后续任务在这个低维表示上的工作量更低,同时泛化性能和识别率更高。通过利用非负矩阵分解独特的优势,不仅可以进行降维,而且物理意义明确。但也有可能破坏数据样本之间的本质结构,影响聚类效果。为了减少负面影响,希望在NMF压缩样本数据的过程中进行模糊聚类。对于大量高维数据,通过NMF提取样本的本质特征,保留作FCM模糊分析聚类。将NMF分解对原始数据样本的影响加入到FCM的目标函数中。
技术实现思路
本专利技术的目的在于提供一种基于非负矩阵分解和模糊C均值的聚类方法,用于实现对拥有大量的高维特征的数据样本的聚类。为了实现上述目的,采用以下技术方案:一种基于非负矩阵分解和模糊C均值的聚类方法,包括以下步骤:S1:对图像特征集进行预处理,提取出原始非负特征数据样本集n是数据样本个数,m是数据样本维数。并设置聚类簇团个数c<<min(m,n),模糊系数f因不同数据集而不同,是一个大于1而小于2.5的参量,平衡系数λ的数量级在10-1至102之间调整;S2:随机初始化基矩阵和系数表示矩阵使得X≈WHT。基矩阵W是降维后的低秩空间的表现形式。系数矩阵H是原始数据X经降维后的低维表达方式。再根据以下约束设置隶属度矩阵U∈Rc×n,它的元素μij表示第j个样本xj分属于第i个聚类中心vi的程度。然后确定该隶属度伪划分对应的聚类中心矩阵V∈Rc×c,它是由所有聚类簇团中心组成的矩阵形式,每个聚类中心由公式(2)得到,xj表示n个样本中第j个样本,vi表示k个簇中第i个聚类中心,Ci代表第i个簇样本集合,ni代表第i个簇中样本个数。1≤j≤n(1)S3:利用梯度下降法和交替迭代法则,通过固定其余变量,对某一变量进行更新。①固定W,H,V,对U进行更新。U的更新准则为:其中dij表示hj与聚类中心vi的距离||hj-vi||②固定W,H,U,对V进行更新。V的更新准则为:③固定V,H,U,对W进行更新。W的更新规则为:其中⊙是Hadamard积运算符,代表矩阵对应元素相乘。④固定W,V,U,对H进行更新。H的更新规则为:其中1代表具有c行的全1向量,Uf是指U矩阵的对应每个元素的f次幂。S4:对所提方法的目标函数的阈值进行限定,当目标函数的值变化小于阈值,上述交替迭代停止。在交替迭代过程中,设阈值为1×10-6,所构造的目标函数如下所示:S5:根据隶属度划分矩阵U对样本的归属进行确定,得到样本的类标签信息,聚类结束。隶属度矩阵U是对所有样本进行软聚类的模糊隶属度的呈现方式,μij越大,则反映样本j属于簇i的概率越大,可根据其获取样本的标签向量Y∈R1×n。与现有单视角聚类方法相比,本专利技术具有如下优点及显著效果:本专利技术可以通过调整平衡系数去发现图像特征集的内在本质结构特征。对于大量高维数据,通过NMF提取样本的本质特征,保留作FCM模糊分析聚类,克服了硬聚类的不利影响。从另一个角度来看,该算法克服了传统聚类算法在聚类过程中因初始条件非唯一性导致的聚类结果不稳定的影响。附图说明图1是本专利技术的基于非负矩阵分解和模糊C均值的聚类方法在图像集应用流程示意图。图2是本专利技术方法实施例应用中的标准数据集中部分样本。(a)GHIM-10k图像集中样本图像,(b)Corel-10k图像集中样本图像图3是本专利技术方法实施例应用中采用本专利技术所提方法和传统聚类算法性能对比示意图。(a)GHIM-10k图像集提取灰度共生矩阵进行聚类,(b)Corel-10k图像集提取颜色直方图信息聚类。具体实施方式下面结合说明书附图1-3和实施例对本专利技术的具体实施方式作进一步说明。图1是本专利技术的基于非负矩阵分解和模糊C均值的聚类方法在图像集应用流程示意图。图2是本专利技术方法实施例应用中的标准数据集中部分样本。(a)GHIM-10k图像集中样本图像,(b)Corel-10k图像集中样本图像。图3是本专利技术方法实施例应用中采用本专利技术所提方法和传统聚类算法性能对比示意图。(a)GHIM-10k图像集提取灰度共生矩阵进行聚类,(b)Corel-10k图像集提取颜色直方图信息聚类。其中图中传统方法为:①在初始矩阵X上运行K均值聚类②在初始矩阵X运行模糊C均值聚类③在初始矩阵X上运行MEC聚类④在经过NMF的系数矩阵H上运行K均值聚类⑤在经过NMF的系数矩阵H上运行模糊C均值聚类。为了验证本专利技术的有效性,在两个标准图像集进行实验。一个是GHIM-10k图像集,另一个是Corel-10k图像集。每个图像集有10,000个图像,都来自不同的种类。从每个数据集中随机选取5个类别的500幅图像作为验证集。图2显示了验证集中部分样本。对于每个验证集,我们提取每幅图像的灰色共生矩阵和颜色直方图分别作为初始样本矩阵X。与本算法对比的5类聚类算法分别是:①在初始矩阵X上运行K均值聚类②在初始矩阵X运行模糊C均值聚类③在初始矩阵X上运行MEC聚类④在经过NMF的系数矩阵H上运行K均值聚类⑤在经过NMF的系数矩阵H上运行模糊C均值聚类。所有这些算法都是在MATLABR2014a中实现的,所有实验都是在windows10下的8Gb内存的InterCore2.81GHz处理器上进行的。将这些算法的最大迭代次数设置为10000次,并在接下来的所有实验中保持不变。在较小的矩阵上运行NMF算法可以节省更多的时间和存储空间。但也有可能破坏数据样本之间的本质结构,影响聚类效果。为了减少负面影响,考虑在NMF压缩样本数据的过程中进行模糊聚类。对于大量高维数据,通过NMF提取样本的本质特征,保留作FCM模糊分析聚类。将NMF分解对原始数据样本的影响加入到FCM的目标函数中。最小化以下代价函数:公式中代本文档来自技高网...
【技术保护点】
1.一种基于非负矩阵分解和模糊C均值的聚类方法,其特征在于,包括以下步骤:/nS1:对图像特征集进行预处理,提取出原始非负特征数据样本集X,并设置聚类簇团个数c,模糊系数f,平衡系数λ;/nS2:初始化基矩阵W和系数表示矩阵H,根据条件约束设置模糊伪划分U,并确定对应的聚类中心矩阵V;/nS3:利用梯度下降法和交替迭代法则,通过固定其余变量,对某一变量进行更新;/nS4:对所提方法的目标函数的阈值进行限定,当目标函数的值变化小于阈值,上述交替迭代停止;/nS5:根据隶属度划分矩阵U对样本的归属进行确定,得到样本的类标签信息,聚类结束。/n
【技术特征摘要】
1.一种基于非负矩阵分解和模糊C均值的聚类方法,其特征在于,包括以下步骤:
S1:对图像特征集进行预处理,提取出原始非负特征数据样本集X,并设置聚类簇团个数c,模糊系数f,平衡系数λ;
S2:初始化基矩阵W和系数表示矩阵H,根据条件约束设置模糊伪划分U,并确定对应的聚类中心矩阵V;
S3:利用梯度下降法和交替迭代法则,通过固定其余变量,对某一变量进行更新;
S4:对所提方法的目标函数的阈值进行限定,当目标函数的值变化小于阈值,上述交替迭代停止;
S5:根据隶属度划分矩阵U对样本的归属进行确定,得到样本的类标签信息,聚类结束。
2.根据权利要求1所述的基于非负矩阵分解和模糊C均值的聚类方法,其特征在于:所述S1中,对图像特征集进行预处理,提取出原始非负特征数据样本集n是数据样本个数,m是数据样本维数;并设置聚类簇团个数c<<min(m,n),模糊系数f是一个大于1而小于2.5的参量,平衡系数λ的数量级在10-1至102之间调整。
3.根据权利要求1所述的基于非负矩阵分解和模糊C均值的聚类方法,其特征在于:所述S2中,随机初始化基矩阵和系数表示矩阵使得X≈WHT;基矩阵W是降维后的低秩空间的表现形式;系数矩阵H是原始数据X经降维后的低维表达方式;再根据以下约束设置隶属度矩阵U∈Rc×n,它的元素μij表示第j个样本xj分属于第i个聚类中心vi的程度;然后确定该隶属度伪划分对应的聚类中心矩阵V∈Rc×c,它是由所有聚类簇团中心组成的矩阵形式,每个聚类中心由公式(2)得到,xj表示n个样本中第j个样本,vi表示k个簇中第i个聚类中心,Ci代表...
【专利技术属性】
技术研发人员:陶性留,俞璐,王晓莹,姚艳艳,
申请(专利权)人:中国人民解放军陆军工程大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。