一种基于秩为r的离散非负矩阵分解聚类方法技术

技术编号:25346860 阅读:21 留言:0更新日期:2020-08-21 17:06
本发明专利技术提供了一种基于秩为r的离散非负矩阵分解聚类方法。首先,利用k‑means算法进行数据集划分并得到样本锚点;然后,利用锚点计算得到初始相似度矩阵;最后,构建基于秩为r的离散非负矩阵分解聚类问题模型,并采用迭代更新方法对模型进行求解,得到指示矩阵,从而得到数据聚类结果。本发明专利技术所构建聚类问题模型采用对角块结构逼近输入矩阵,能够充分挖掘输入矩阵的行和列之间的联合信息,获得更好的聚类结果。

【技术实现步骤摘要】
一种基于秩为r的离散非负矩阵分解聚类方法
本专利技术属机器学习和数据挖掘
,具体涉及一种基于秩为r的离散非负矩阵分解聚类方法。
技术介绍
聚类是近年来机器学习和数据挖掘领域中的研究热点之一,通过把数据分成许多不同的组来挖掘数据的潜在结构,其中,同一组中数据点之间具有更高的相似性,不同分组中点的相似性较低。聚类已成功应用于图像分割、数据挖掘及模式识别等多个领域。非负矩阵分解(NMF)、谱聚类、子空间聚类、多视角聚类等为聚类算法的分支,其中NMF因其数学优势和优越的结果引起了越来越多的关注。但是目前有许多基于NMF的聚类方法需要两个阶段来获得最终的聚类结果,其与直接优化目标函数得到聚类结果所获得的数据结构相比,聚类结构更差。此外,通过两个阶段得到的聚类结果不唯一,即需要通过像k-means这样的后处理技术来获得最终的离散结果。为了解决上述问题,许多非负矩阵分解方法通过把元素约束限制为指示矩阵来得到离散解,由此得到更好的聚类结果。此外,因为数据有多种类型,很多单边聚类方法,即仅通过特征分布聚类样本,或者仅通过样本的分布情况对特征进行分布本文档来自技高网...

【技术保护点】
1.一种基于秩为r的离散非负矩阵分解聚类方法,其特征在于步骤如下:/n步骤1:对输入数据集合X,利用k-means算法将所有数据点划分到两个大小相等的子集中,然后,再分别对每个子集按相同的方法进行划分,直至得到m个数据子集,以每个子集的中心数据点为锚点,所有m个锚点共同构成锚点集合W,m为设定的锚点个数,m的可设定取值范围为(1,n),其中,n为输入数据集合包含的数据点个数;/n步骤2:按照

【技术特征摘要】
1.一种基于秩为r的离散非负矩阵分解聚类方法,其特征在于步骤如下:
步骤1:对输入数据集合X,利用k-means算法将所有数据点划分到两个大小相等的子集中,然后,再分别对每个子集按相同的方法进行划分,直至得到m个数据子集,以每个子集的中心数据点为锚点,所有m个锚点共同构成锚点集合W,m为设定的锚点个数,m的可设定取值范围为(1,n),其中,n为输入数据集合包含的数据点个数;
步骤2:按照计算原输入数据集合中的第i个数据点xi和锚点集合中的第j个锚点wj之间的距离,i=1,…,n,j=1,…,m;对每一个数据点xi,i=1,…,n,将所有锚点与其的距离按照从小到大进行排序,并将与其距离最小的k个锚点作为其k近邻点,k为(0,m)之间的整数,然后,按照下式计算每个锚点wj与数据点xi的相似度:



其中,j=1,…,m,表示与数据点xi距离最小的第k+1个锚点与该数据点之间的距离,表示数据点xi的第h个近邻点与该数据点之间的距离,h=1,…,k;
以数据点和锚点之间的相似度bij为第i行j列元素,得到初始相似矩阵i=1,…,n,j=1,…,m;
步骤3:构建待优化的聚类问题模型如下:



其中,Ind表示指示矩阵集合,Diag表示对角矩阵集合,F表示大小为n×c的指示矩阵,G表示大小为m×c的指示矩阵,F和G的每一行只有一个值为1的非零元素,其余元素均为0,F和G均为对角块矩阵,B为初始相似矩阵通过行列变换得到的相似矩阵,c为给定的聚类类别个数,取值为小于输入数据集合所包含数据点个数的正整数;Pr表示第r个大小为n×n的对角矩阵,其元素依次为矩阵B1,B2,…,Bc的第r个最大奇异值及其所对应的左奇异向量的乘积,Qr表示第r个大小为m×m的对角矩阵,其元素依次为矩阵B1,B2,…,Bc的第r个最大奇异值对...

【专利技术属性】
技术研发人员:王榕薛菁菁聂飞平李学龙
申请(专利权)人:西北工业大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1