基于EMD度量的对偶正则化非负矩阵分解的聚类方法技术

技术编号:25891258 阅读:63 留言:0更新日期:2020-10-09 23:33
本发明专利技术提供一种基于EMD度量的对偶正则化非负矩阵分解的聚类方法,所述方法包括以下步骤:步骤一:获取待聚类的样本数据;步骤二:针对待聚类样本构建其数据流形图的邻接矩阵和特征流形图的邻接矩阵;步骤三:通过数据流形图正则化项与特征流形图正则化项,得到基于EMD度量的对偶正则化非负矩阵分解的目标函数;步骤四:根据目标函数使用迭代加权的方法,设置迭代次数,对NMF中的系数矩阵与基矩阵进行迭代更新;步骤五:采用k‑means聚类算法对迭代更新后的数据样本进行聚类。利用几何结构信息量提高NMF的性能,采用EMD的度量方式更好地度量样本之间的距离。

【技术实现步骤摘要】
基于EMD度量的对偶正则化非负矩阵分解的聚类方法
本专利技术涉及数据处理
,尤其涉及一种基于EMD度量的对偶正则化非负矩阵分解的聚类方法。
技术介绍
近几年,高维数据在许多领域里出现,对其进行降维操作引起了人们的注意。非负矩阵分解(NMF)作为一种常用的降维方法,目标在于学习基于局部的特征表示,已经被广泛用于各种应用研究中。聚类是机器学习和数据挖掘的一个基本课题,目的是根据数据点的相似性将一组数据划分为若干组。非负矩阵因式分解(NMF)由于其对自然发生数据的心理和生理解释,在人类大脑中可能以部分为基础而受到广泛关注。虽然NMF具有良好的实际性能,但它的一个缺点是忽略了数据集的固有结构。一方面,样本可能在流形上,因此人们希望利用几何信息来提高NMF的性能。另一方面,由于特征之间可能相互关联,传统的L2距离不能很好地度量样本之间的距离。虽然有人提出了一些工作来解决这些问题,但很少有人把它们联系在一起。
技术实现思路
针对现有技术的不足,本专利技术提供了一种基于EMD度量的对偶正则化非负矩阵分解的聚类方法,通过利用数据流形和特征相关知识的新方法,并在NMF中加入了数据流形与特征流形的图正则化项,通过实验证明该方法能够提升聚类的效果。本专利技术提供一种基于EMD度量的对偶正则化非负矩阵分解的聚类方法,所述方法包括以下步骤:步骤一:获取待聚类的样本数据;步骤二:针对待聚类样本构建其数据流形图的邻接矩阵和特征流形图的邻接矩阵;步骤三:通过数据流形图正则化项与特征流形图正则化项,得到基于EMD度量的对偶正则化非负矩阵分解的目标函数;步骤四:根据目标函数使用迭代加权的方法,设置迭代次数,对NMF中的系数矩阵与基矩阵进行迭代更新;步骤五:采用k-means聚类算法对迭代更新后的数据样本进行聚类。进一步改进在于:所述步骤三中建立的目标函数O的公式为其中λ表示熵正则项系数,ξ,σ分别为特征流形空间近邻图正则项系数与数据流形空间近邻图正则项系数,第一项表示用EMD的度量方法来重建误差,第二项表示由最近邻图建立的特征空间的图正则项,第三项表示由最近邻图建立的数据空间的图正则项。进一步改进在于:所述步骤四中的系数矩阵与基矩阵进行迭代更新,其中基矩阵U的更新规则为系数矩阵V的更新规则为本专利技术的有益效果是:通过利用数据流形和特征相关知识的新方法,并在NMF中加入了数据流形与特征流形的图正则化项,与传统的聚类方法相比,考虑到了数据本身的流形结构,利用几何结构信息量提高NMF的性能,采用EMD的度量方式更好地度量样本之间的距离。附图说明图1是本专利技术的方法流程示意图。图2是本专利技术的物品检测实施例图。图3是本专利技术的人脸检测实施例图。具体实施方式为了加深对本专利技术的理解,下面将结合实施例对本专利技术作进一步的详述,本实施例仅用于解释本专利技术,并不构成对本专利技术保护范围的限定。如图1所示,本实施例提供了一种基于EMD度量的对偶正则化非负矩阵分解的聚类方法,所述方法包括以下步骤:步骤一:获取待聚类的样本数据;步骤二:针对待聚类样本构建其数据流形图的邻接矩阵和特征流形图的邻接矩阵;步骤三:通过数据流形图正则化项与特征流形图正则化项,得到基于EMD度量的对偶正则化非负矩阵分解的目标函数;步骤四:根据目标函数使用迭代加权的方法,设置迭代次数,对NMF中的系数矩阵与基矩阵进行迭代更新;步骤五:采用k-means聚类算法对迭代更新后的数据样本进行聚类。所述步骤三中建立的目标函数O的公式为其中λ表示熵正则项系数,ξ,σ分别为特征流形空间近邻图正则项系数与数据流形空间近邻图正则项系数,第一项表示用EMD的度量方法来重建误差,第二项表示由最近邻图建立的特征空间的图正则项,第三项表示由最近邻图建立的数据空间的图正则项。所述步骤四中的系数矩阵与基矩阵进行迭代更新中基矩阵U的更新规则为系数矩阵V的更新规则为为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对照附图说明本专利技术的具体实施方式。显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。以下是对目标函数建立过程的具体阐述:由于特征之间可能相互关联,传统的L2距离不能很好地度量样本之间的距离,因而采用测地距离(EMD)来度量样本间的距离变量Tpq表示从第p个供给到第q个需求的运输量。参数Mpq表示p和q之间的地面距离。Mpq通常由L1或L2距离定义。由于EMD的计算非常耗时,前人提出了一种加速计算方法。用熵正则项平滑了经典的最优运输问题,以此来得到最佳距离,也称之为Sinkhorn距离,它的具体形式为其中H(T)=-∑p,qTpqlogTpq是T的信息熵,可以通过使λ足够大来近似获得EMD。对于给定的样本集X=[xij]=[x1,x2,...xn]∈Rm×n,NMF试图寻找两个非负矩阵U=[uik]=[u1,u2,...,ut]∈Rm×t和V=[vjk]=[v1,v2,...,vt]=Rn×t来表示原有的样本集X,为了缩小与原样本之间的高斯误差,将使用EMD来取代L2距离度量两者之间的误差,因此所获得的目标函数可表示为其中λ表示熵正则项系数,除了特征的相关性外,样本空间中还存在几何结构。希望能够利用样本的几何结构信息,更好地发现基底[u1,u2,...,ut]。还使用了数据的流形假设。这个假设可以解释为,如果两个数据点xj,xs在数据流形的固有几何形状上是接近的,那么这两个点在新基中的表示,也是彼此接近的。形式上,它可以写成其中W1是离散数据点上的最近邻图。同样的,样本间的数据空间也存在几何结构,在此基础上使用特征的流形假设。可以解释为,如果两个数据点xi,xs在特征流形的几何形状上是接近的,那么这两个点对应的特征也应该是接近的,可以表示为:其中W2是样本特征的最近邻特征图。将三者结合到一起,就可以得到本实施例提出方法的目标函数其中λ表示熵正则项系数,ξ,σ分别为特征流形空间近邻图正则项系数与数据流形空间正则项系数。式(6)中目标函数O在U和V中不共凸。因此,期望算法寻找O的全局最小值是不切实际的。幸运的是,目标函数O在U和V中分别是凸的。我们采用两阶段乘性更新规则,可以保持非负性,并找到一个局部最小值:基矩阵U的更新规则如式(7)系数矩阵V的更新规则该聚类方法与传统的聚类方法相比,考虑到了数据本身的流形结构,利用几何结构信息量提高NMF的性能,采用EMD的度量方式更好地度量样本之间的距离。此外还将数据图与特征图相结合,揭示了数据样本及其样本特征对聚类想过的影响。通过实本文档来自技高网...

【技术保护点】
1.一种基于EMD度量的对偶正则化非负矩阵分解的聚类方法,其特征在于:所述方法包括以下步骤:/n步骤一:获取待聚类的样本数据;/n步骤二:针对待聚类样本构建其数据流形图的邻接矩阵和特征流形图的邻接矩阵;/n步骤三:通过数据流形图正则化项与特征流形图正则化项,得到基于EMD度量的对偶正则化非负矩阵分解的目标函数;/n步骤四:根据目标函数使用迭代加权的方法,设置迭代次数,对NMF中的系数矩阵与基矩阵进行迭代更新;/n步骤五:采用k-means聚类算法对迭代更新后的数据样本进行聚类。/n

【技术特征摘要】
1.一种基于EMD度量的对偶正则化非负矩阵分解的聚类方法,其特征在于:所述方法包括以下步骤:
步骤一:获取待聚类的样本数据;
步骤二:针对待聚类样本构建其数据流形图的邻接矩阵和特征流形图的邻接矩阵;
步骤三:通过数据流形图正则化项与特征流形图正则化项,得到基于EMD度量的对偶正则化非负矩阵分解的目标函数;
步骤四:根据目标函数使用迭代加权的方法,设置迭代次数,对NMF中的系数矩阵与基矩阵进行迭代更新;
步骤五:采用k-means聚类算法对迭代更新后的数据样本进行聚类。


2.如权利要求1所述的基...

【专利技术属性】
技术研发人员:舒振球张云猛翁宗慧叶飞跃
申请(专利权)人:江苏理工学院
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1