基于低秩恢复的非负矩阵分解方法技术

技术编号:13685169 阅读:64 留言:0更新日期:2016-09-08 21:36
本发明专利技术属于信息处理技术领域,具体涉及一种基于低秩恢复的非负矩阵分解方法,包括以下步骤:1】将原始数据库中的每个图像样本均转换为向量,构成m×n的原始数据矩阵X;m为图像样本的维数,n为图像样本的个数;2】对原始数据矩阵X进行低秩稀疏分解;2.1】设置低秩矩阵的秩为r,设置稀疏矩阵的稀疏度为k;2.2】采用双边随机投影算法求解原始数据矩阵X的秩为r的低秩矩阵L和稀疏度为k的稀疏矩阵S;3】对步骤2】中求解得到的低秩矩阵L进行非负矩阵分解,得到基矩阵W和编码矩阵H。本发明专利技术通过低秩稀疏分解得到数据低秩成分和稀疏成分,并对去除稀疏噪声部分的低秩成分进行非负分解,从而使得非负分解结果免受噪声的干扰。

【技术实现步骤摘要】

本专利技术属于信息处理
,具体涉及一种基于低秩恢复的非负矩阵分解方法
技术介绍
随着信息化和互联网的发展,高维数据在社会各领域不断涌现。总体来讲,这些数据或者是半结构的或者是无结构的,这使得构建这些数据的特征向量高达上万维甚至更高。数据维数的增加对大规模数据处理带来了困难。非负矩阵分解时基于非监督模式识别的一个研究领域,旨在得到数据稀疏的、基于部分的低维数据表示。非负矩阵分解被广泛应用于数学、最优化、神经计算、模式识别与机器学习、数据挖掘、图像工程与计算机视觉等领域,因此研究非负矩阵分解技术具有非常重要的意义与应用价值。非负矩阵分解技术建立在对因子矩阵的非负约束的基础上,通过非监督的方法学习到原数据的低维表示以及其相应的基矩阵,从而有利于后续相关应用中的处理。目前,非负矩阵分解方法主要分为三类:一是基于稀疏约束或正交约束的方法,这种方法致力于通过对因子矩阵(即基矩阵和编码矩阵)施加稀疏或者正交约束来学习到更稀疏和局部化的数据表示。P.Hoyer在文献“Non-Negative Matrix Factorization with Sparseness Constraints,J.Machine Learning Research,vol.5,no.9,pp.1457-1469,2004”提出对编码矩阵施加L1范数约束的非负矩阵分解方法,通过L1范数的稀疏约束来取得更稀疏的数据表示。S.Li等人在文献“Learning spatially localized,parts-based representation,in Proc.IEEE International Conference Computer Vision Pattern Recognition,pp.207-212,2001”提出基于正交约束的非负矩阵分解方法,通过正交约束去除了基向量间的的冗余成分。二是基于判别信息的非负矩阵分解方法。这种方法的核心思想是利用标记样本学习出更具有判别性的低维数据表示。Y.Wang等人在文献“Fisher Non-Negative Matrix Factorization for Learning Local Features,Proc.Asian Conference Computer Vision,pp.27-30,2004”中提出了基于费舍尔判别准则的非负矩阵分解算法,通过引入费舍尔判别准则来使得类内样本分布更紧致,类间样本分布更远。J.Yang等人在文献“Non-negative graph embedding,Proc.IEEE Int’l Conf.Computer Vision and Pattern Recognition,pp.1-8,2008”中提出了基于图嵌入的非负矩阵分解方法。该方法构建本质图和惩罚图两个图结构,通过最小化本质图和惩罚图使类内样本分布紧致,类间间隔更大。三是基于流形学习的非负矩阵分解方法。这种方法通过流行学习算法保持数据在高维空间中的拓扑结构,从而考虑了数据的结构信息。D.Cai等人在文献“Non-negative matrix factorization on manifold,IEEE Transaction Pattern Analysis Machine Intelligence,vol.33,no.8,pp.1548-1560,2011”中提出了基于图正则的非负矩阵分解算法,通过最小化图正则项来保持数据内部的几何分布结构。Q.Gu等人在文献“Neighborhood Preserving Nonnegative Matrix Factorization,Proc.20th British Machine Vision Conf.,2009”中提出基于局部线性嵌入的非负矩阵分解算法,假设数据的局部拓扑结构符合局部线性嵌入假设。这两种方法的不同就在于对于数据的局部拓扑结构的假设。以上三类方法虽然从不同的角度对非负矩阵分解进行了改进,但是,都没有考虑原数据本身可能包含的噪声对非负分解带来的不良影响。
技术实现思路
为了解决非负分解容易受到噪声干扰的技术问题,本专利技术提供一种基于低秩恢复的非负矩阵分解方法。本专利技术的技术解决方案是:一种基于低秩恢复的非负矩阵分解方法,其特殊之处在于:包括以下步骤:1】将原始数据库中的每个图像样本均转换为向量,构成m×n的原始数据矩阵X;m为图像样本的维数,n为图像样本的个数;2】对原始数据矩阵X进行低秩稀疏分解;2.1】设置低秩矩阵的秩为r,设置稀疏矩阵的稀疏度为k;2.2】采用双边随机投影算法求解原始数据矩阵X的秩为r的低秩矩阵L和稀疏度为k的稀疏矩阵S;3】对步骤2】中求解得到的低秩矩阵L进行非负矩阵分解,得到基矩阵W和编码矩阵H。上述步骤2.2】包括以下步骤:2.2.1】初始化低秩矩阵为L0=X,初始化稀疏矩阵为S0=0,初始化迭代次数为t=0;设置重构相对误差阈值ε;2.2.2】计算其中,q为0或者正整数;2.2.3】计算的r双边随机投影和其中,A1是n×r的随机矩阵,A2是m×r的随机矩阵;2.2.4】进行迭代更新:t=t+1,A2=Y1,2.2.5】计算Y1和Y2的QR分解:Y2=Q2R2,Y1=Q1R1;2.2.6】更新低秩矩阵和稀疏矩阵:St=PΩ(X-Lt);其中,PΩ表示将一个矩阵投影到元素集合Ω;2.2.7】计算重构误差判断重构误差是否小于重构相对误差阈值ε,若重构误差小于ε则执行步骤2.2.8】,若重构误差大于或者等于ε则执行步骤2.2.4】;2.2.8】得到低秩矩阵L=Lt和稀疏矩阵S=St。上述步骤3】包括以下步骤:3.1】将步骤2】中求得的低秩矩阵L中的非负元素赋值为0;3.2】初始化基矩阵W0为m×l的随机矩阵,初始化编码矩阵H0为l×n的随机矩阵,初始化迭代次数为t=0;其中,l为样本类个数;设定迭代误差限ε′;3.3】利用K近邻算法构建近邻图,计算图拉普拉斯矩阵Lap=Dap-Sap;其中,Sap是对称的权重矩阵,Dap是对角矩阵,对角元素是Sap的列和;3.4】迭代求解基矩阵W和编码矩阵H;3.4.1】计算其中α是图正则参数;3.4.2】计算其中,β是Tiknohov正则参数;3.4.3】计算非负矩阵分解重构误差;若非负矩阵分解重构误差大于或者等于迭代误差限ε′则执行步骤3.4.1】;若非负矩阵分解重构误差小于迭代误差限ε则执行步骤3.4.4】;3.4.4】得到基矩阵W=Wt′+1和编码矩阵H=Ht′+1。上述基于低秩恢复的非负矩阵分解方法还包括以下步骤:4】用k-means聚类算法对编码矩阵H进行聚类;5】计算聚类结果评判指标聚类精度AC和归一化互信息NMI: A C = Σ i = 1 n δ ( gnd i 本文档来自技高网
...

【技术保护点】
一种基于低秩恢复的非负矩阵分解方法,其特征在于:包括以下步骤:1】将原始数据库中的每个图像样本均转换为向量,构成m×n的原始数据矩阵X;m为图像样本的维数,n为图像样本的个数;2】对原始数据矩阵X进行低秩稀疏分解;2.1】设置低秩矩阵的秩为r,设置稀疏矩阵的稀疏度为k;2.2】采用双边随机投影算法求解原始数据矩阵X的秩为r的低秩矩阵L和稀疏度为k的稀疏矩阵S;3】对步骤2】中求解得到的低秩矩阵L进行非负矩阵分解,得到基矩阵W和编码矩阵H。

【技术特征摘要】
1.一种基于低秩恢复的非负矩阵分解方法,其特征在于:包括以下步骤:1】将原始数据库中的每个图像样本均转换为向量,构成m×n的原始数据矩阵X;m为图像样本的维数,n为图像样本的个数;2】对原始数据矩阵X进行低秩稀疏分解;2.1】设置低秩矩阵的秩为r,设置稀疏矩阵的稀疏度为k;2.2】采用双边随机投影算法求解原始数据矩阵X的秩为r的低秩矩阵L和稀疏度为k的稀疏矩阵S;3】对步骤2】中求解得到的低秩矩阵L进行非负矩阵分解,得到基矩阵W和编码矩阵H。2.根据权利要求1所述的基于低秩恢复的非负矩阵分解方法,其特征在于:所述步骤2.2】包括以下步骤:2.2.1】初始化低秩矩阵为L0=X,初始化稀疏矩阵为S0=0,初始化迭代次数为t=0;设置重构相对误差阈值ε;2.2.2】计算其中,q为0或者正整数;2.2.3】计算的r双边随机投影和其中,A1是n×r的随机矩阵,A2是m×r的随机矩阵;2.2.4】进行迭代更新:t=t+1,A2=Y1,2.2.5】计算Y1和Y2的QR分解:Y2=Q2R2,Y1=Q1R1;2.2.6】更新低秩矩阵和稀疏矩阵:St=PΩ(X-Lt);其中,PΩ表示将一个矩阵投影到元素集合Ω;2.2.7】计算重构误差判断重构误差是否小于重构相对误差阈值ε,若重构误差小于ε则执行步骤2.2.8】,若重构误差大于或者等于ε则执行步骤2.2.4】;2.2.8】得到低秩矩阵L=Lt和稀疏矩阵S=St。3.根据权利要求2所述的基于低秩恢复的非负矩阵分解方法,其特征在于:所述步骤3】包括以下步骤:3.1】将步骤2】中求得的低秩矩阵L中的非负元素赋值为0;3.2】初始化基矩阵W0为m×l的随机矩阵,初始化编码矩阵H0为l×n的随机矩阵,初始化迭代次数为t=0;其中,l为样本类个数;设定迭代误差限ε′;3.3】利用K近邻算法构建近邻图,计算图拉普拉斯矩阵Lap=Dap-Sap;其中,Sap是对称的权重矩阵,Dap是对角矩阵,对角元素是Sap的列和;3.4】迭代求解基矩阵W和编码矩阵H;3.4.1】计算其中α是图正则参数;3.4.2】计算t'=t'+1;其中,β是Tiknohov正则参数;3.4.3】计算非负矩阵分解重构误差;若非负矩阵分解重构误差大于或者等于迭代误差限ε′则执行步骤3.4.1】;若非负矩阵分解重构误差小于迭代误差限ε则执行步骤3.4.4】;3.4.4】得到基矩阵W=Wt′+1和编码矩阵H=Ht′+1。4.根据权利要求1-3中任一所述的基于低秩恢复的非负矩阵分解方法,其特征在于:还包括以下步骤:4】用k-means聚类算法对编码矩阵H进行聚类;5】计算聚类结果评判指标聚类精度AC和归一化互信息NMI: A C = Σ i = 1 n δ ( gnd i , m a p ( z i ) ) n ]]> M I ( C ...

【专利技术属性】
技术研发人员:李学龙董永生崔国盛
申请(专利权)人:中国科学院西安光学精密机械研究所
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1