一种鲁棒的局部与全局正则化的非负矩阵分解聚类方法技术

技术编号:32857661 阅读:15 留言:0更新日期:2022-03-30 19:31
本发明专利技术涉及数据处理技术领域,具体的说,是一种鲁棒的局部与全局正则化的非负矩阵分解聚类方法,包括:获取图像聚类样本;在样本的局部散射上构造最近邻接图并引入了光滑正则化;利用变换表示空间的全局几何结构,并将其作为一个附加的主成分图正则化项纳入NMF算法;通过联合建模对原NMF模型施加图正则化项约束并利用L

【技术实现步骤摘要】
一种鲁棒的局部与全局正则化的非负矩阵分解聚类方法


[0001]本专利技术涉及数据处理
,具体的说,是一种鲁棒的局部与全局正则化的非负矩阵分解聚类方法。

技术介绍

[0002]随着计算机科技的发展,高维数据已经被应用于不同的领域中,人们对于数据降维也越来越重视。降维有着广泛的应用,通过单幅图像数据的高维化对单幅图像转化为高维空间中的数据集合,可以揭示多元数据内在结构和信息,用于后续可视化、分类、聚类等任务。
[0003]非负矩阵因式分解(NMF)作为一种有效的降维方式,已经被频繁应用于模式识别、计算机视觉和信息检等领域中。非负矩阵分解的基本思想是找到两个低维非负矩阵逼近原始的高维矩阵,即原始数据矩阵仅使用加法运算重构,这也使得非负矩阵分解具有整体基于部分表示的优点,非负矩阵分解已成为聚类和特征选择最有力的方法之一。为了提高原始NMF的性能,研究人员从不同的方面开发了多种NMF的扩展方法,例如,采用乘法器交替方向法(ADMM)对NMF方法进行优化;采用图正则化NMF(GNMF),通过构造一个简单的图来考虑样本之间的成对几何关系,以保持数据空间的固有几何形状;流形正则化判别 NMF(MD

NMF)考虑数据的几何形状和不同类的判别信息
……
[0004]上述方法都是使用欧几里德范数来最小化原始数据矩阵和重建矩阵之间的距离。但现实世界中的许多数据都包含高斯噪声、非高斯噪声(例如在测量和收集基因表达数据的过程中)或异常值,在实际应用中,有效地处理噪声或异常值是一个棘手的问题。在这种情况下,基于欧几里德范数的非负矩阵分解方法的性能将大大降低。相关熵被提出用于信息论学习中的鲁棒性分析,已经被证明在处理噪声和离群值时是有效的,并被广泛应用于信号处理、生物信息、面部识别等领域。相关熵作为一种非线性和局部相似性的度量,其变化与两个随机变量的相似概率有关。与只考虑二阶矩的欧几里德范数不同,相关熵可以考虑高阶矩阵。

技术实现思路

[0005]针对上述问题,本专利技术披露了一种鲁棒的局部与全局正则化的非负矩阵分解聚类方法,在目标函数中加入相关熵,以有效地降低噪声和异常值的影响,这种鲁棒的局部与全局正则化的非负矩阵分解聚类方法对噪声和异常值的鲁棒性得到了提高;此外,该方法还结合图正则化项来考虑数据的几何信息,并利用L
P
平滑度约束对基矩阵进行约束,从而得到一个平滑且更精确的解。
[0006]本专利技术采用的具体技术方案如下:
[0007]一种鲁棒的局部与全局正则化的非负矩阵分解聚类方法,包括以下步骤:
[0008]S1获取图像聚类样本;
[0009]S20在样本的局部散射上构造最近邻接图并引入了光滑正则化;
[0010]S30利用变换表示空间的全局几何结构,并将其作为一个附加的主成分图正则化项纳入NMF算法;
[0011]S40通过联合建模对原NMF模型施加图正则化项约束并利用L
P
平滑度约束对基矩阵进行约束;
[0012]S50在误差度量中使用相关熵来代替欧几里德范数,从而得到了鲁棒的局部与全局正则化的非负矩阵分解的目标函数;
[0013]S60根据目标函数使用迭代加权的方法迭代预设次数,对变量U、V进行更新,完成鲁棒的局部与全局正则化的非负矩阵分解;
[0014]S70采用K

means聚类算法对系数矩阵进行聚类分析。该聚类方法与传统的聚类方法相比,更加有效地揭示数据的内在几何结构和鉴别结构,提升了聚类性能。
[0015]进一步优选地,在步骤S20在样本的局部散射上构造最近邻接图并引入了光滑正则化中,光滑正则化具体为:
[0016][0017]其中,Tr(.)表示矩阵的迹。L是图的拉普拉斯矩阵,L=D

W,D表示一个对角矩阵,D中的每一项是W
ij
的行(或者列,因为W是对称的)的和,即D
ii
=∑
j
W
ij
。W为权重矩阵,矩阵中元素W
ij
定义如下:
[0018][0019]其中表示邻近K个数据点的集合,X={x1,x2,...,x
n
}是一个顶点集。
[0020]进一步优选地,在步骤S30利用变换表示空间的全局几何结构,并将其作为一个附加的主成分图正则化项纳入NMF算法中,具体,最大化编码矩阵上的全局散射,并将其定义为:
[0021][0022]其中,表示编码向量的平均值。
[0023]进一步简化方程并得出:
[0024][0025]其中,M=I

E被称为主成分图,E=(1/n)ee
T
,I是n
×
n的单位矩阵,e是元素等于1的n维列向量。
[0026]进一步优选地,在步骤S40通过联合建模对原NMF模型施加图正则化项约束并利用L
P
平滑度约束对基矩阵进行约束中,得到的非负矩阵分解的目标函数具体为:
[0027][0028]其中α和是β两个权衡参数。
[0029]利用L
P
平滑度约束对基矩阵进行约束,从而得到一个平滑且更精确的解,具体为:
[0030][0031]其中λ是一个非负参数。
[0032]进一步优选地,在步骤S50在误差度量中使用相关熵来代替欧几里德范数,从而得到了鲁棒的局部与全局正则化的非负矩阵分解的目标函数中,鲁棒的局部与全局正则化的非负矩阵分解的目标函数具体为:
[0033][0034]等式的第一项是基于熵重建误差,第二项是局部平滑度图正则项,第三项表示全局几何结构图正则项,第四项是利用L
P
平滑度约束对基矩阵进行约束。
[0035]进一步优选地,在步骤S60根据目标函数使用迭代加权的方法迭代预设次数,对变量U、V进行更新,完成鲁棒的局部与全局正则化的非负矩阵分中,包括:
[0036]根据所述非负矩阵分解的目标函数建立拉格朗日函数L:
[0037]L=Tr(XX
T
)

2Tr(XVU
T
)+Tr(UV
T
VU
T
)
[0038]+αTr(VLV
T
)

βTr(VMV
T
)+2λ||U||
P
[0039]+Tr(ΨU
T
)+Tr(ΦV
T
)
[0040]其中,Ψ=[ψ
ik
],Φ=[φ
jk
];
[0041]分别对基础矩阵U和系数矩阵V求偏导,使用Karush

Kuhn

Tucker条件φ
jk
ν
jk
=0分别得到基础矩阵U和系数矩阵V的迭代式。
[0042]变量U的更新规则如下本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种鲁棒的局部与全局正则化的非负矩阵分解聚类方法,其特征在于,包括以下步骤:步骤S1:获取图像聚类样本;步骤S20:在所述步骤S1获取的样本的局部散射上构造最近邻接图并引入了光滑正则化;步骤S30:利用变换表示空间的全局几何结构,并将其作为一个附加的主成分图正则化项纳入NMF算法;步骤S40:通过联合建模对原NMF模型施加图正则化项约束并利用L
P
平滑度约束对基矩阵进行约束;步骤S50:在误差度量中使用相关熵来代替欧几里德范数,从而得到了鲁棒的局部与全局正则化的非负矩阵分解的目标函数;步骤S60:根据目标函数使用迭代加权的方法迭代预设次数,对变量U、V进行更新,完成鲁棒的局部与全局正则化的非负矩阵分解;步骤S70:采用K

means聚类算法对系数矩阵进行聚类分析。2.根据权利要求1所述的一种鲁棒的局部与全局正则化的非负矩阵分解聚类方法,其特征在于,在所述步骤S20中,光滑正则化具体为:其中,Tr(.)表示矩阵的迹,L是图的拉普拉斯矩阵,L=D

W,D表示一个对角矩阵,D中的每一项是W
ij
的行的和,即D
ii
=∑
j
W
ij
,W为权重矩阵,矩阵中元素W
ij
定义如下:其中表示邻近K个数据点的集合,X={x1,x2,...,x
n
}是一个顶点集。3.根据权利要求2所述的一种鲁棒的局部与全局正则化的非负矩阵分解聚类方法,其特征在于,在所述步骤S30中,最大化编码矩阵上的全局散射,并将其定义为:其中,表示编码向量的平均值;进一步简化方程并得出:
其中,M=I

E被称为主成分图,E=(1/n)ee
T
,I是n
×
n的单位矩阵,e是元素等于1的n维列向量。4.根据权利要求3所述的一种鲁棒的局部与全局正则化的非负矩阵分解聚类方法,其特征在于,在所述步骤S40中,得到的非负矩阵分解的目标函数具体为:其中α和是β两个权衡参数;利用L
P
平滑度约束对基矩阵进行约束,从...

【专利技术属性】
技术研发人员:张杰左芙蓉张煜凡向鹏宇高伟
申请(专利权)人:江苏理工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1