一种基于字典和样本相似图的无监督特征选择方法和装置制造方法及图纸

技术编号:22330593 阅读:5 留言:0更新日期:2019-10-19 12:22
本发明专利技术为一种基于字典和样本相似图的无监督特征选择方法和装置,公开了一种基于字典和样本相似图学习的无监督特征选择方法及系统,该方法及系统中,由于通过给到原始数据矩阵X的一个新的字典基空间,在生成的新字典基空间W中,使用l2,1范数对W施加的行稀疏性,以此用来度量特征的重要性。与以往在原始特征空间中的低级表示方法相比,本发明专利技术中公开的基于字典和样本相似图学习模型,捕获了更高的层次和更抽象的表示,具有广阔的应用前景。

【技术实现步骤摘要】
一种基于字典和样本相似图的无监督特征选择方法和装置
本专利技术涉及信号处理、数据分析领域,具体涉及一种基于字典和样本相似图学习的无监督特征选择方法和装置。
技术介绍
随着传感器和互联网媒体的快速发展,高维分析和大数据已经成为一个具有挑战性和不可避免的问题。在许多应用中,如计算机视觉、机器学习、模式识别和医学分析等都运用了大量的高维数据。虽然数据通常被表示为高维特征向量,但是对于学习任务来说,只有一个很小但未知的特征子集是非常重要的和有区别的。直接处理这些高维数据不仅会显著增加对计算资源的需求,而且由于维数灾难(curseofdimensionality)会降低许多现有算法的性能。特征选择通常被认为是减少不相关或冗余特征的数量以提高学习算法性能的一个重要过程。根据是否利用了样本数据类别的标签信息,特征选择方法一般可分为三类:有监督特征选择(Supervisedfeatureselection)、无监督特征选择(Unsupervisedfeatureselection)和半监督特征选择(Semi-supervisedfeatureselection)。通常,无监督特征选择方法可以概括为三种,即,过滤式(Filter)、封装式(Wrapper)和嵌入式(Embedded)。相比于其他两种方法,嵌入式方法通常构建一个学习模型来输出特征的子集,它在许多方面都能取得优异的性能,并得到了迅速的发展。基于嵌入式方法的数据表达得到了广泛的应用,并提出了各种模型。这些方法假定原始数据可以通过在选定的特征子集上执行重构函数来表示,然后在特征选择的表征系数矩阵上加一个特殊的正则化矩阵。其中,使用的最多的现有算法模型是自表示算法,它假定每个特征都可以表示为其相关特征的线性组合。此外,为了研究数据的局部结构,通常将图拉普拉斯算子嵌入到嵌入式UFS方法中。然而,传统的嵌入式方法至少存在两个问题。第一,现有的大多数算法是在原始特征空间上进行特征选择,由于原始特征空间的噪声和冗余特征,往往会导致结果不准确,且无法利用更高层次和更抽象的表示。第二,传统的UFS方法通常分别构造相似矩阵和进行特征选择,因此,在后续的过程中,从原始数据中得到的相似矩阵保持不变,但现实数据中包含的噪声样本和特征不可避免地使相似矩阵变得不可靠。这个不可靠的相似矩阵可能会破坏原始数据的局部流行结构,从而使结果无法最优化。
技术实现思路
本专利技术要解决的技术问题在于,针对现有技术的缺陷,提供一种基于字典和样本相似图学习的无监督特征选择方法及系统-DGL-UFS,与其他无监督特征选择算法,如:LS、Baseline、SCUFS和RJGSC等进行比较,DGL-UFS方法是在字典基空间上而不是在基本特征空间上选择特征,且自动学习一个相似矩阵,以保持数据的局部流形结构。本专利技术解决其技术问题所采用的技术方案是:构造一种基于字典和样本相似图学习的无监督特征选择方法,包括以下步骤:S1、给定一个原始数据矩阵X={x1,x2,…xn}={f1;f2…;fd}∈Rd×n;其中:n是样本个数,d是特征向量的数量;i∈n,xi∈Rd×1表示的是第i个样本;j∈d,fj∈Rd×1是第j个特征向量;S2、学习具有m个基向量的字典D∈Rd×m,利用字典D对步骤S1给定的原始数据矩阵X进行重构,得到一个新的字典基空间W;其中,利用l2,1范数对W施加行稀疏性,使得从字典D中选择出对应的基向量来表示每个样本;S3、利用基于图模型的拉普拉斯约束模型,定义约束正则化项;S4、结合步骤S2得到的字典基空间W,以及步骤S3定义的约束正则化项,在字典基空间W上,进行特征选择,具体为:构造DGL-UFS模型目标函数,求解获得W;其中,利用迭代优化策略,通过对目标函数中的多个变量进行彼此间的约束,最终计算得到W。进一步的,对原始数据矩阵X进行重构,所得的重构系数矩阵W∈Rm×n作为新产生的字典空间;其中,关于基向量和新的字典基空间学习的目标函数可以表示为:其中,表示取矩阵“·”的F范数的平方;β为一个取正的平衡参数;字典D的第i列表示为di,其中,约束条件||di||2≤1使得学习到的字典空间中的原子变得紧凑;||W||2,1表示利用l2,1范数对字典基空间W施加行稀疏性;m为大于1的正整数。进一步的,步骤S3中定义的约束正则化项表达式为:其中,Sij是数据点xi和xj之间的相似度量;L=A-S是图拉普拉斯矩阵,A为一个对角矩阵,其中,S为相似度矩阵;wi或wj为W的第i或j列。进一步的,定义的DGL-UFS模型目标函数为:s.t.||di||2≤1,ST1=1,S≥0,i=1,2,…m其中,表示矩阵“·”的F范数的平方;α是用于平衡图正则项的一个取正的常数,β是一个取正的平衡参数;L=A-S是图拉普拉斯矩阵,A为一个对角矩阵,S为相似矩阵;||W||2,1表示利用l2,1范数对字典基空间W施加行稀疏性;字典D的第i列表示为di,其中,约束条件||di||2≤1使得学习到的字典空间中的原子变得紧凑;m为大于1的正整数。进一步的,步骤S4中,通过交替迭代优化策略求解目标函数的具体步骤为:S51、初始化字典基D和相似矩阵S;S52、固定参数D和S,将目标函数转换为:其中,使用一个迭代重加权最小二乘算法,通过求解上述目标函数,进一步更新参数W;S53、固定参数W和S,将目标函数转换为:其中,使用ADMM-AlternatingDirectionmethodofMultipliers算法,通过引入一个变量矩阵到目标函数中,进一步更新参数D;S54、固定参数W和D,将目标函数转换为:其中,由于每个样本的相似向量是独立的,对于第i个样本,当前目标函数表示为:通过引入拉格朗日乘数,得到当前第i个样本的相似矩阵si;进一步的,针对每个样本,采用上述相同的方法,依次更新每个样本的相似矩阵,实现了对参数S的更新;S55、重复执行步骤S52-S54,直到目标函数收敛时,输出收敛情况下的参数S、D和W。本专利技术提出的一种基于字典和样本相似图学习的无监督特征选择装置,该装置包括以下模块:数据设置模块,用于给定一个原始数据矩阵X={x1,x2,…xn}={f1;f2…;fd}∈Rd×n;其中:n是样本个数,d是特征向量的数量;i∈n,xi∈Rd×1表示的是第i个样本;j∈d,fj∈Rd×1是第j个特征向量;空间重构模块,用于学习具有m个基向量的字典D∈Rd×m,利用字典D对数据设置模块给定的原始数据矩阵X进行重构,得到一个新的字典基空间W;其中,利用l2,1范数对W施加行稀疏性,使得从字典D中选择出对应的基向量来表示每个样本;约束正则化模块,用于利用基于图模型的拉普拉斯约束模型,定义约束正则化项;特征选择模块,用于结合空间重构模块得到的字典基空间W,以及约束正则化模块定义的约束正则化项,在字典基空间W上,进行特征选择,具体为:构造DGL-UFS模型目标函数,求解获得W;其中,利用迭代优化策略,通过对目标函数中的多个变量进行彼此间的约束,最终计算得到W。进一步的,对原始数据矩阵X进行重构,所得的重构系数矩阵W∈Rm×n作为新产生的字典空间;其中,关于基向量和新的字典基空间学习的目标函数可以表示为:其中,表示取矩阵“·”的F范数的平方;β为本文档来自技高网
...

【技术保护点】
1.一种基于字典和样本相似图学习的无监督特征选择方法,其特征在于,包括以下步骤:S1、给定一个原始数据矩阵X={x

【技术特征摘要】
1.一种基于字典和样本相似图学习的无监督特征选择方法,其特征在于,包括以下步骤:S1、给定一个原始数据矩阵X={x1,x2,…xn}={f1;f2…;fd}∈Rd×n;其中:n是样本个数,d是特征向量的数量;i∈n,xi∈Rd×1表示的是第i个样本;j∈d,fj∈Rd×1是第j个特征向量;S2、学习具有m个基向量的字典D∈Rd×m,利用字典D对步骤S1给定的原始数据矩阵X进行重构,得到一个新的字典基空间W;其中,利用l2,1范数对W施加行稀疏性,使得从字典D中选择出对应的基向量来表示每个样本;S3、利用基于图模型的拉普拉斯约束模型,定义约束正则化项;S4、结合步骤S2得到的字典基空间W,以及步骤S3定义的约束正则化项,在字典基空间W上,进行特征选择,具体为:构造DGL-UFS模型目标函数,求解获得W;其中,利用迭代优化策略,通过对目标函数中的多个变量进行彼此间的约束,最终计算得到W。2.根据权利要求1所述的无监督特征选择方法,其特征在于,对原始数据矩阵X进行重构,所得的重构系数矩阵W∈Rm×n作为新产生的字典空间;其中,关于基向量和新的字典基空间学习的目标函数可以表示为:其中,表示取矩阵“·”的F范数的平方;β为一个取正的平衡参数;字典D的第i列表示为di,其中,约束条件||di||2≤1使得学习到的字典空间中的原子变得紧凑;||W||2,1表示利用l2,1范数对字典基空间W施加行稀疏性;m为大于1的正整数。3.根据权利要求1所述的无监督特征选择方法,其特征在于,步骤S3中定义的约束正则化项表达式为:其中,Sij是数据点xi和xj之间的相似度量;L=A-S是图拉普拉斯矩阵,A为一个对角矩阵,其中,S为相似度矩阵;wi或wj为W的第i或j列。4.根据权利要求1、2或3所述的无监督特征选择方法,其特征在于,定义的DGL-UFS模型目标函数为:s.t.||di||2≤1,ST1=1,S≥0,i=1,2,…m;其中,表示矩阵“·”的F范数的平方;α是用于平衡图正则项的一个取正的常数,β是一个取正的平衡参数;L=A-S是图拉普拉斯矩阵,A为一个对角矩阵,S为相似矩阵;||W||2,1表示利用l2,1范数对字典基空间W施加行稀疏性;字典D的第i列表示为di,其中,约束条件||di||2≤1使得学习到的字典空间中的原子变得紧凑;m为大于1的正整数。5.根据权利要求4所述的无监督特征选择方法,其特征在于,步骤S4中,通过交替迭代优化策略求解目标函数的具体步骤为:S51、初始化字典基D和相似矩阵S;S52、固定参数D和S,将目标函数转换为:其中,使用一个迭代重加权最小二乘算法,通过求解上述目标函数,进一步更新参数W;S53、固定参数W和S,将目标函数转换为:其中,使用ADMM-AlternatingDirectionmethodofMultipliers算法,通过引入一个变量矩阵到目标函数中,进一步更新参数D;S54、固定参数W和D,将目标函数转换为:其中,由于每个样本的相似向量是独立的,对于第i个样本,当前目标函数表示为:通过引入拉格朗日乘数,得到当前第i个样本的相似矩阵si;进一步的,针对每个样本,采用上述相同的方法,依次更新每个样本的相似矩阵,实现了对参数S的更新;S55、重复执行步骤S52-S54,直到目标函数收敛时,输出收敛情况下的参数S、D和W。6.一种基于字典和样本相似图学习的无监督...

【专利技术属性】
技术研发人员:唐厂万诚
申请(专利权)人:中国地质大学武汉
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1