基于局部比值和线性判别分析的数据降维方法及装置制造方法及图纸

技术编号:36229688 阅读:66 留言:0更新日期:2023-01-04 12:29
本发明专利技术属于数据处理技术领域,公开了一种基于局部比值和线性判别分析的数据降维方法及装置,根据高维样本数据初始化当前近邻矩阵和当前投影矩阵,然后根据当前投影矩阵更新当前近邻矩阵获得优化近邻矩阵,再根据优化近邻矩阵训练当前投影矩阵获得目标投影矩阵,最后利用目标投影矩阵更新优化近邻矩阵得到目标近邻矩阵,若预先构建的局部比值和模型收敛,确定该目标投影矩阵为最优解,利用该最优解进行数据降维;本发明专利技术通过引入近邻权值,能够考虑样本数据的局部结构,更好的适应真实世界数据集,同时利用投影矩阵与近邻矩阵两者之间交替互相训练优化,可以减少近邻矩阵受到高维数据的噪声影响,进一步优化降维效果。进一步优化降维效果。进一步优化降维效果。

【技术实现步骤摘要】
基于局部比值和线性判别分析的数据降维方法及装置


[0001]本专利技术属于数据处理
,具体涉及一种基于局部比值和线性判别分析的数据降维方法及装置、设备、存储介质。

技术介绍

[0002]随着科技的发展,现代传感器的采样精度越来越高,采样得到的样本数据维度也随之增加。但分类器的判别性能不会与样本数据维度的增长一直正相关,而是增长到一个临界点之后,继续增加样本数据维度反而会使用分类器的性能变差,这就是著名的“休斯效应”,并且样本数据维度的增加也会导致分类器的计算成本指数增加。
[0003]为了解决上述问题,大量学者提出,采用降维算法将数据点映射到低维度的子空间,以寻找具有最优判别性能的表示。其中,降维算法可以进一步细分为特征选择算法和特征提取算法两类,特征选择算法只是寻找原有特征的一个最优子集,与原有特征集是一种包含的关系,没有更改原始的特征空间;而特征提取算法旨在通过线性变换寻找最优的投影方向,会改变原始的特征空间。
[0004]主成分分析(Principal Component Analysis,PCA)和线性判别分析(linear discriminant analysis,LDA)分别是无监督和有监督领域最受欢迎的特征提取降维算法。无监督的PCA目的是寻找一个保留尽可能多的方差信息。而有监督的LDA引入了标签信息,以寻找一个投影空间,能够同时最大化类内方法距离和最小化类间方差距离。LDA最早被提出来只是用于二分类问题,后来进一步地拓展到多分类任务,这才使其越来越受到关注。
[0005]遗憾的是,原有LDA是一个迹比值(先求迹,再求比值)问题,这个问题难以直接求解获得闭式解。因此部分学者将其转换为比值迹问题(先求比值,再求迹)进行投影矩阵的求解。但是,该算法无法考虑数据的局部结构,无法更好的适应真实世界数据集,这样的转换得到的解是次优的,无法获得最优的投影矩阵。
[0006]现在,已有学者尝试将迹比值问题转为比值和(先求比值,再求和)问题进行求解,例如现有技术中提出的一种最大化比值和、并且利用贪心算法求解的自适应近邻局部比值和线性判别分析算法,该算法引入局部的概念,并且通过一个无参策略分配权值,以进一步获得更优的投影矩阵。但是在实践中发现,该算法所构建的图是利用原始数据构建的,而原始空间存在大量噪声,这样构建的亲和矩阵会受到原始数据的噪声影响,仍然是次优的。

技术实现思路

[0007]本专利技术的目的在于提供一种基于局部比值和线性判别分析的数据降维方法及装置、设备、存储介质,能够考虑样本的局部结构,更好的适应真实世界数据集,同时减少原始数据的噪声影响,进一步优化降维效果。
[0008]本专利技术第一方面公开一种基于局部比值和线性判别分析的数据降维方法,包括:根据高维样本数据进行初始化,获得当前近邻矩阵和当前投影矩阵;根据当前投影矩阵和所述高维样本数据,对当前近邻矩阵进行更新获得优化近邻
矩阵;根据所述优化近邻矩阵和所述高维样本数据,对当前投影矩阵进行训练获得目标投影矩阵;根据所述目标投影矩阵和所述高维样本数据,对所述优化近邻矩阵进行更新获得目标近邻矩阵;将所述目标投影矩阵和所述目标近邻矩阵代入局部比值和模型;若代入后的局部比值和模型收敛,输出所述目标投影矩阵为最优解;根据所述最优解对所述高维样本数据进行降维,获得低维样本数据。
[0009]本专利技术第二方面公开一种基于局部比值和线性判别分析的数据降维装置,包括:初始化单元,用于根据高维样本数据进行初始化,获得当前近邻矩阵和当前投影矩阵;第一更新单元,用于根据当前投影矩阵和所述高维样本数据,对当前近邻矩阵进行更新获得优化近邻矩阵;训练单元,用于根据所述优化近邻矩阵和所述高维样本数据,对当前投影矩阵进行训练获得目标投影矩阵;第二更新单元,用于根据所述目标投影矩阵和所述高维样本数据,对所述优化近邻矩阵进行更新获得目标近邻矩阵;代入单元,用于将所述目标投影矩阵和所述目标近邻矩阵代入局部比值和模型;输出单元,用于在代入后的局部比值和模型收敛时,输出所述目标投影矩阵为最优解;处理单元,用于根据所述最优解对所述高维样本数据进行降维,获得低维样本数据。
[0010]本专利技术第三方面公开一种电子设备,包括存储有可执行程序代码的存储器以及与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行第一方面公开的基于局部比值和线性判别分析的数据降维方法。
[0011]本专利技术第四方面公开一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,其中,所述计算机程序使得计算机执行第一方面公开的基于局部比值和线性判别分析的数据降维方法。
[0012]本专利技术的有益效果在于,所提供的基于局部比值和线性判别分析的数据降维方法及装置、设备、存储介质,首先根据高维样本数据进行初始化,获得当前近邻矩阵和当前投影矩阵,然后根据当前投影矩阵对当前近邻矩阵进行更新获得优化近邻矩阵,再根据优化近邻矩阵对当前投影矩阵进行训练获得目标投影矩阵,最后利用目标投影矩阵对优化近邻矩阵进行更新得到一个目标近邻矩阵,若目标投影矩阵和目标近邻矩阵可令预先构建的局部比值和模型收敛,确定该目标投影矩阵为最优解,最后利用该最优解进行数据降维。可见,本专利技术通过引入近邻权值,能够考虑样本数据的局部结构,可以更好的适应真实世界数据集,同时利用投影矩阵与近邻矩阵两者之间交替互相训练优化,在迭代优化投影矩阵的同时也会对近邻矩阵进行迭代优化,相比直接利用高维样本数据构建的近邻矩阵,本专利技术可以减少近邻矩阵受到高维数据的噪声影响,从而进一步优化降维效果。
附图说明
[0013]此处的附图,示出了本专利技术所述技术方案的具体实例,并与具体实施方式构成说明书的一部分,用于解释本专利技术的技术方案、原理及效果。
[0014]除非特别说明或另有定义,不同附图中,相同的附图标记代表相同或相似的技术特征,对于相同或相似的技术特征,也可能会采用不同的附图标记进行表示。
[0015]图1是本专利技术实施例公开的一种基于局部比值和线性判别分析的数据降维方法的流程图;图2是现有LDA算法在合成三环数据集上的二维可视化图;图3是现有分解牛顿法(Decomposed Newton

s Method,DNM)算法在合成三环数据集上的二维可视化图;图4是现有贪心比值和(Greedy Ratio Sum,GRS)算法在合成三环数据集上的二维可视化图;图5是现有局部费舍尔判别分析(Local Fisher Discriminant Analysis, LFDA)算法在合成三环数据集上的二维可视化图;图6是现有局部敏感判别分析(Locality Sensitive Discriminant Analysis,LSDA)算法在合成三环数据集上的二维可视化图;图7是现有动态最大熵图(Dynamic Maximum Entropy Graph,DMEG)算法在合成三环数据集上的二维可视化图;图8是现有自适应近邻局部比值和线性判别分析(Adaptive Neighbor本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于局部比值和线性判别分析的数据降维方法,其特征在于,包括:根据高维样本数据进行初始化,获得当前近邻矩阵和当前投影矩阵;根据当前投影矩阵和所述高维样本数据,对当前近邻矩阵进行更新获得优化近邻矩阵;根据所述优化近邻矩阵和所述高维样本数据,对当前投影矩阵进行训练获得目标投影矩阵;根据所述目标投影矩阵和所述高维样本数据,对所述优化近邻矩阵进行更新获得目标近邻矩阵;将所述目标投影矩阵和所述目标近邻矩阵代入局部比值和模型;若代入后的局部比值和模型收敛,输出所述目标投影矩阵为最优解;根据所述最优解对所述高维样本数据进行降维,获得低维样本数据。2.如权利要求1所述的数据降维方法,其特征在于,将所述目标投影矩阵和所述目标近邻矩阵代入局部比值和模型之后,所述方法还包括:若代入后的局部比值和模型未收敛,将所述目标投影矩阵作为新的当前投影矩阵,以及将所述目标近邻矩阵作为新的当前近邻矩阵,重复执行所述根据当前投影矩阵和所述高维样本数据,对当前近邻矩阵进行更新获得优化近邻矩阵的步骤,直至局部比值和模型收敛。3.如权利要求1所述的数据降维方法,其特征在于,根据当前投影矩阵和所述高维样本数据,对当前近邻矩阵进行更新获得优化近邻矩阵,包括:利用当前投影矩阵将所述高维样本数据投影到子空间,获得子空间样本数据;根据所述子空间样本数据,对当前近邻矩阵进行近邻权值重分配,以获得优化近邻矩阵。4.如权利要求1至3任一项所述的数据降维方法,其特征在于,根据高维样本数据进行初始化,获得当前近邻矩阵和当前投影矩阵,包括:根据高维样本数据进行近邻权值分配,获得当前近邻矩阵;随机生成初始投影矩阵,将所述初始投影矩阵作为当前投影矩阵。5.如权利要求4所述的数据降维方法,其特征在于,根据高维样本数据进行近邻权值分配获得当前近邻矩阵之前,所述方法还包括:获取多个原始样本数据及其标签信息;根据所述标签信息对多个所述原始样本数据进行排序及归一化处理,获得高维样本数据。6.如权利要求1至3任一项所述的数据降维方法,其特征在于,所述局部比值...

【专利技术属性】
技术研发人员:杨晓君周科艺闵海波曹传杰程昱
申请(专利权)人:北京爱宾果科技有限公司广州大学城广工科技成果转化中心
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利