System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于比率最小化和稀疏表征学习模型的数据压缩方法技术_技高网

一种基于比率最小化和稀疏表征学习模型的数据压缩方法技术

技术编号:43858400 阅读:20 留言:0更新日期:2024-12-31 18:47
本发明专利技术公开了一种基于比率最小化和稀疏表征学习的数据压缩方法,包括:获取训练数据集,对于训练数据集中的数据样本进行归一化处理,再通过主成分分析方法对数据样本进行降维处理;将选取的训练集应用到基于比率最小化的鲁棒稀疏表征学习模型中,通过不断迭代优化学习模型,更新投影矩阵以及类簇中心向量直至目标函数收敛,从而可得到最优的数据投影矩阵;对于待压缩的数据,通过所学习到的数据投影矩阵将待压缩的数据进行线性映射至低维空间中,从而实现了对数据的压缩。本发明专利技术设计了基于l<subgt;1,2</subgt;范数的稀疏正则项来作为度量准则,有效提高了所提模型的表征能力;在对高维数据进行压缩表征时,能够更加快速地收敛且达到较为稳定的处理性能。

【技术实现步骤摘要】

本专利技术属于机器学习,其具体涉及一种对于包含异常值和噪音的高维数据的线性压缩表征方法。


技术介绍

1、作为一种重要的数据表征技术,费舍尔线性判别分析方法(fisher lineardiscriminant analysis,lda)近年来已成功地应用于许多科学领域,包括数据压缩传输以及信息去噪等。费舍尔线性判别分析方法是一种学习高维数据低维结构的子空间分析方法,其主要是通过训练数据来学习一组最大化费舍尔判别准则的向量,进而通过这些向量对原始数据进行降维表征处理。

2、传统的费舍尔线性判别分析方法采用基于迹比值的目标函数,其通过转化为特征值优化问题来得到原始问题模型的闭式解。然而,对于该优化问题的求解是需要对类内散度矩阵进行逆运算操作。因此,当类内散度矩阵奇异时,费舍尔线性判别分析模型是病态且不可求解的。然而,在高维特征空间或具有高度相关特征的特征空间中,是经常出现有不满秩的类内散度矩阵的,如图像/视频分类、基因表达等。在这种情况下,传统的解决方法通常是使用主成分分析(principle component analysis,pca)作为预处理步骤,在进行降维表征之前先处理去掉总体散度矩阵的相关特征零空间。此外,为解决零空间问题,很多基于费舍尔线性判别分析的变式方法被提出。最近,基于迹比值的费舍尔线性判别分析模型被进一步研究[1,2],并展现出优秀的表征性能。

3、然而,众所周知,传统的主成分分析和费舍尔线性判别分析方法都是使用了最小二乘估计目标函数,即使用l2范数作为度量准则。然而该范数很容易导致计算偏差问题的出现。这是因为使用平方范数度量使得异常值或噪音产生的误差在整体的误差损失中起主导作用,从而使得模型在一般情况下对噪音和异常值不鲁棒。从统计的角度来看[3],方法的鲁棒性定义为对异常值不敏感的特性。在文献[4,5]中,为了提高投影子空间的鲁棒性,提出了多种基于费舍尔线性判别分析模型的变式方法,包括基于数据重采样和子空间搜索等方法。此外,在数据表征学习领域,为了从根本上提高方法的鲁棒性,很容易想到的是将损失函数中的l2范数改为更加合适的稀疏诱导范数。基于这个想法,有一些方法通过利用l1范数来提高费舍尔线性判别分析方法的鲁棒性,如文献[6,7]。但也正因为l1范数的引入,使得模型更加难以优化。这是因为所有的费舍尔线性判别分析方法,包括比值法和差值法,都需要同时最小化类内散度以及最大化类间散度,现有的稀疏学习优化算法如梯度投影法、同伦算法、迭代收缩阈值法、增广拉格朗日法等,都不能求解基于l1范数的目标函数。这使得模型很难从自身上来提高对数据中异常值和噪音的鲁棒性。

4、[1]f.nie,z.wang,r.wang,and x.li.submanifold-preserving discriminantanalysis with an auto-optimized graph.ieee transactions on cybernetics,2019.

5、[2]y.jia,f.nie,and c.zhang.trace ratio problem revisited.ieeetransactions on neural networks,vol.20,no.4,pp.729–735,2009.

6、[3]p.j.huber,robust statistics.wiley,1981.

7、[4]s.fidler and a.leonardis.robust lda classification bysubsampling.conference on computer vision and pattern recognition workshop,p.97,2003

8、[5]h.zhao,z.wang,and f.nie.a new formulation of linear discriminantanalysis for robust dimensionality reduction.ieee transactions on knowledgeand data engineering,vol.31,no.4,pp.629–640,2018.

9、[6]c.-n.li,y.-h.shao,and n.-y.deng.robust l1-norm two-dimensionallinear discriminant analysis.neural networks,vol.65,pp.92–104,2015.

10、[7]q.ye,j.yang,f.liu,c.zhao,n.ye,and t.yin.l1-norm distance lineardiscriminant analysis based on an effective iterative algorithm.ieeetransactions on circuits and systems for video technology,vol.28,no.1,pp.114–129,2016.

11、[8]c.ding,d.zhou,x.he,and h.zha.r1-pca:rotational invariant l1-normprincipal component analysis for robust subspace factorization.int’lconf.machine learning,2006.

12、[9]f.nie,j.yuan,and h.huang.optimal mean robust principal componentanalysis.in proceedings of the 31st international conference on machinelearning(icml),2014,pp.1062–1070.

13、[10]f.nie,h.huang,x.cai,and c.ding.efficient and robust featureselection via joint-norms minimization.in nips,2010.


技术实现思路

1、本专利技术的目的是提供一种基于比率最小化和稀疏表征学习模型的数据压缩方法,用以从本质上解决了传统费舍尔线性判别分析方法对异常值敏感的难题。

2、为了实现上述任务,本专利技术采用以下技术方案:

3、一种基于比率最小化和稀疏表征学习的数据压缩方法,包括:

4、获取训练数据集,对于训练数据集中的数据样本进行归一化处理,再通过主成分分析方法对数据样本进行降维处理;

5、将选取的训练集应用到基于比率最小化的鲁棒稀疏表征学习模型中,通过不断迭代优化学习模型,更新投影矩阵以及类簇中心向量直至目标函数收敛,从而可得到最优的数据投影矩阵;

6、对于待压缩的数据,通过所学习到的本文档来自技高网...

【技术保护点】

1.一种基于比率最小化和稀疏表征学习的数据压缩方法,其特征在于,包括:

2.根据权利要求1所述的基于比率最小化和稀疏表征学习的数据压缩方法,其特征在于,所述训练数据集的处理过程为:

3.根据权利要求1所述的基于比率最小化和稀疏表征学习的数据压缩方法,其特征在于,所述基于比率最小化的鲁棒稀疏表征学习模型,表示为:

4.根据权利要求1所述的基于比率最小化和稀疏表征学习的数据压缩方法,其特征在于,所述通过不断迭代优化学习模型,更新投影矩阵以及类簇中心向量直至目标函数收敛,从而可得到最优的数据投影矩阵,包括:

5.根据权利要求1所述的基于比率最小化和稀疏表征学习的数据压缩方法,其特征在于,对于待压缩的数据X,通过利用学习得到的最优投影矩阵W计算WTX,实现对数据的压缩。

6.一种终端设备,包括处理器、存储器以及存储在所述存储器中的计算机程序;其特征在于,处理器被计算机执行时,实现根据权利要求1-5中任一项所述基于比率最小化和稀疏表征学习的数据压缩方法。

7.一种计算机可读存储介质,所述介质中存储有计算机程序;其特征在于,计算机程序被处理器执行时,实现根据权利要求1-5中任一项所述基于比率最小化和稀疏表征学习的数据压缩方法。

...

【技术特征摘要】

1.一种基于比率最小化和稀疏表征学习的数据压缩方法,其特征在于,包括:

2.根据权利要求1所述的基于比率最小化和稀疏表征学习的数据压缩方法,其特征在于,所述训练数据集的处理过程为:

3.根据权利要求1所述的基于比率最小化和稀疏表征学习的数据压缩方法,其特征在于,所述基于比率最小化的鲁棒稀疏表征学习模型,表示为:

4.根据权利要求1所述的基于比率最小化和稀疏表征学习的数据压缩方法,其特征在于,所述通过不断迭代优化学习模型,更新投影矩阵以及类簇中心向量直至目标函数收敛,从而可得到最优的数据投影矩阵,包括:

<...

【专利技术属性】
技术研发人员:常伟董钊李涛李柯达刘满国朱克炜南心蒙吴永琪李鑫
申请(专利权)人:西安现代控制技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1