基于稀疏表示和空谱拉普拉斯图的高光谱数据降维方法技术

技术编号:10960674 阅读:117 留言:0更新日期:2015-01-28 12:56
本发明专利技术公开了一种用于大规模高光谱数据的降维方法,主要用于解决传统流行学习信息单一和该类方法难以处理较大规模数据的问题。其实现步骤为:1.从大规模的高光谱数据中选择一定量的数据作为训练样本;2.对训练样本进行空谱拉普拉斯图的构造;3.对拉普拉斯矩阵进行特征分解得到训练样本的低维表示;4.利用训练样本及其低维表示构造高维字典和低维字典;5.计算剩余高光谱数据在高维字典上的稀疏表示系数;6.将该稀疏表示系数与低维字典进行相乘,得到剩余数据的低维表示;7.整合训练样本与剩余数据的低维表示得到完整的降维数据。本发明专利技术提升了流行降维的效果,可用于处理大规模的高光谱数据。

【技术实现步骤摘要】

本专利技术属于数据处理
,涉及高光谱数据的前期处理,主要目的是为了减 少高光谱数据的维数,从而降低后期数据处理方法的计算复杂度,同时尽可能提升其性能。 该方法可以被应用于大规模的高光谱数据聚类或分类中。
技术介绍
数据降维处理在数据处理中起着很大的作用,许多维数过高的数据在处理之前都 会进行降维处理,一方面可以降低计算量,另一方面还可以从原有特征中挖取更有用的特 征,提升后期算法的处理效果。光谱数据随着成像设备的光谱分辨率的不断提高,数据的维 数也是越来越高,数据降维必不可少,同时,随着设备的发展,空间分辨率也在不断提高,数 据的规模也在不断的增大,如何处理大规模的高光谱数据也成为非常关键的一个问题。 现有的数据降维方法很多,常用的如:主成分分析PCA,线性判别分析LDA,局部保 持投影LPP,拉普拉斯嵌入。主成分分析及线性判别分析方法简单实用,但是适合于线性数 据,对于非线性的数据处理效果不是很好。以往研究表明,高光谱数据中存在着流形结构, 线性方法并不能完全高光谱的数据背景。流形学习针对于非线性数据,利用图嵌入的方法 捕捉数据的空间结构,将数据映射到具有同样空间结构的低维流行空间中,从而保持数据 间的分布结构。 目前流形学习降维的方法有不少,如: 2000年Tenenbaum与Silva在《Science》上提出了IS0MAP,这个方法是利用非线 性的局部变量信息学习数据集的全局集合结构,使用了测地距离来度量高维空间中的样本 点距离,通过建立原数据的测地线距离与降维数据空间的空间距离的对等关系完成数据降 维。该方法保证流形上的空间结构在低维流行空间中依然存在,但是当选择较大邻域时会 出现短路现象。 2000 年Roweis和Saul提出 了了局部线性嵌入法(LocallyLinear Embedding,LLE),该方法的主要思想是具有低维子流形结构的数据集,原空间与低维空间 中的点的邻域结构关系式不变的。该方法很好的保留了邻接点间的关系,使每个点的邻接 权值保持不变,但对于等距流形,嵌入效果不是很好。 2003年M.Belkin与P.Niyogi提出了拉普拉斯特征映射LE,该方法的出发点为: 高维空间中离得很近的点投影到低维空间中的像应该也会离得很近。该方法处理分类问题 很好,但是权值计算所使用的heatkernel中的参数对嵌入结构有很大影响。 上述方法有两个统一的缺陷:(1)这些方法中很重要的步骤就是图的构造,当数 据规模非常大的时候,图的存储及后期的计算都是非常困难的,一般的流形学习方法无法 处理大规模数据;(2)普通的流形学习方法,并没有考虑到高光谱数据中所存在的空间结 构,只是单纯的考虑其谱间的邻域关系,导致对高光谱数据降维效果不理想。
技术实现思路
本专利技术的目的在于克服上述已有技术的缺点,提出了一种基于稀疏表示和空谱拉 普拉斯图的高光谱数据降维方法,以提高高光谱数据降维的效果,便于将流行学习能推广 到大规模的高光谱数据中。 本专利技术的技术方案是:从大规模的高光谱数据中选择一定量的数据作为训练样 本,对所选训练样本进行空谱拉普拉斯图的构造,对拉普拉斯矩阵进行特征分解得到训练 样本的低维表示;利用高维训练样本及其低维表示构造高维字典和低维字典,将剩余的高 光谱数据在高维字典上进行稀疏表示,得到对应的稀疏表示系数;将该稀疏表示系数与低 维字典进行相乘,得到剩余高光谱数据的低维表示,整合训练样本与剩余高光谱数据的低 维表示得到整体数据的低维表示。其具体步骤包括如下: (1)从一幅高光谱图像数据I中选择n个数据点作为高维的训练样本,高光谱数据 维数为P,n的数值由高光谱图像数据的规模确定,取整体数目的10%以上; (2)对所选高维训练样本进行空谱拉普拉斯图G的构造: (2a)构造谱间图Gl: 使用谱信息散度SID作为训练样本点间的距离度量,计算第i个训练样本与其它 训练样本间的距离,i= 1,…,n,并对这些距离值进行由小到大排序,选择距离最小的N个 样本作为第i个训练样本点的N近邻,N= 6; 根据第i个训练样本点的N近邻确定第i个训练样本点与其它训练样本点的连接 关系:若第j个训练样本点在第i个训练样;N 中,则将第j个训练样本点与第 i个训练样本点连接,并计算该连接边的权{I本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/201410542949.html" title="基于稀疏表示和空谱拉普拉斯图的高光谱数据降维方法原文来自X技术">基于稀疏表示和空谱拉普拉斯图的高光谱数据降维方法</a>

【技术保护点】
一种基于稀疏表示和空谱拉普拉斯图的高光谱数据降维方法,包括以下步骤:(1)从一幅高光谱图像数据I中选择n个数据点作为高维的训练样本,高光谱数据维数为p,n的数值由高光谱图像数据的规模确定,取整体数目的10%以上;(2)对所选高维训练样本进行空谱拉普拉斯图G的构造:(2a)构造谱间图G1:使用谱信息散度SID作为训练样本点间的距离度量,计算第i个训练样本与其它训练样本间的距离,i=1,…,n,并对这些距离值进行由小到大排序,选择距离最小的N个样本作为第i个训练样本点的N近邻,N=6;根据第i个训练样本点的N近邻确定第i个训练样本点与其它训练样本点的连接关系:若第j个训练样本点在第i个训练样本点的N近邻中,则将第j个训练样本点与第i个训练样本点连接,并计算该连接边的权值反之,第j个训练样本点与第i个训练样本点不连接,W′ij=0,其中x,y分别为第i个训练样本点与第j个训练样本点所对应的光谱向量,参数t根据实际数据调试确定;(2b)构造空间图G2:比较第i个训练样本点与其它训练样本点的二维坐标,i=1,…,n,确定其它训练样本点是否在第i个训练样本点的K邻域中,若第j个训练样本点在第i个训练样本点的K邻域内,将第i个训练样本点与第j个训练样本点进行连接,反之第i个训练样本点与第j个训练样本点不连接,邻域参数K=11,该参数表示以第i个训练样本点为中心的11*11的邻域区域;确定连接边的权值:将11*11的邻域划分为内邻域和外邻域,内邻域为以第i个训练样本点为中心的5*5的区域,外邻域为除去内邻域的剩余邻域区域;如果第j个训练样本点在第i个训练样本点的内邻域中,则连接边的权值为W″ij=1,如果第j个训练样本点在第i个训练样本点的外邻域中,则连接边的权值W″ij=0.8;若第i个训练样本点与第j个训练样本点间不存在连接,则W″ij=0;(2c)将谱间图G1和空间图G2进行合并操作,保留这两个图中的所有连接边,得到空谱拉普拉斯图G,得到空谱拉普拉斯图G的权值矩阵为W,W=W'+W″,计算拉普拉斯矩阵L,L=D‑W,其中D为由W的行或列求和得到的向量作为对角线元素的对角矩阵;(3)对拉普拉斯矩阵L和对角矩阵D进行广义特征值分解,取最小r个特征值对应的特征向量作为训练样本所对应的低维表示TR;(4)构造高维空间与低维空间的对偶字典:将n个p维的训练样本作为高维字典HD,将n个训练样本对应的r维表示TR作为低维字典LD,这两个字典的原子间存在一一对应的关系;(5)对剩余高光谱数据进行稀疏表示求解,得到剩余高光谱数据在高维字典HD上的稀疏表示系数:Θ=[θ1,...,θs,...,θm];(6)将剩余高光谱数据的稀疏表示系数Θ与低维字典LD相乘,得到剩余高光谱数据的r维表示RR=LD*Θ;(7)结合训练样本的r维表示TR,得到整个高光谱数据的r维表示IR=[TR;RR]。...

【技术特征摘要】
1. 一种基于稀疏表示和空谱拉普拉斯图的高光谱数据降维方法,包括以下步骤: (1) 从一幅高光谱图像数据I中选择η个数据点作为高维的训练样本,高光谱数据维数 为Ρ,η的数值由高光谱图像数据的规模确定,取整体数目的10%以上; (2) 对所选高维训练样本进行空谱拉普拉斯图G的构造: (2a)构造谱间图Gl: 使用谱信息散度SID作为训练样本点间的距离度量,计算第i个训练样本与其它训练 样本间的距离,i= 1,…,n,并对这些距离值进行由小到大排序,选择距离最小的N个样本 作为第i个训练样本点的N近邻,N= 6 ; 根据第i个训练样本点的N近邻确定第i个训练样本点与其它训练样本点的连接关 系:若第j个训练样本点在第i个训练样本点的N近邻中,则将第j个训练样本点与第i个 训练样本点连接,并计算该连接边的权值g= 反之,第j个训练样本点与第i个训 练样本点不连接,fu= 0,其中X,y分别为第i个训练样本点与第j个训练样本点所对 应的光谱向量,参数t根据实际数据调试确定; (2b)构造空间图G2 : 比较第i个训练样本点与其它训练样本点的二维坐标,i= 1,…,n,确定其它训练样本 点是否在第i个训练样本点的K邻域中,若第j个训练样本点在第i个训练样本点的K邻 域内,将第i个训练样本点与第j个训练样本点进行连接,反之第i个训练样本点与第j个 训练样本点不连接,邻域参数K= 11,该参数表示以第i个训练样本点为中心的11*11的邻 域区域; 确定连接边的权值:将11*11的邻域划分为内邻域和外邻域,内邻域为以第i个训练样 本点为中心的5*5的区域,外邻域为除去内邻域的剩余邻域区域;如果第j个训练样本点在 第i个训练样本点的内邻域中,则连接边的权值为Wu = 1,如果第j个训练样本点在第 i个训练样本点的外邻域中,则连接边的权值Wu = 0. 8 ;若第i个训练样本点与第j个 训练样本点间不存在连接,则Wu= 0 ; (2c)将谱间图Gl和空间图G2进行合并操作,保留这两个图中的所有连接边,得到空谱 拉普拉斯图G,得到空谱拉普拉斯图G的权值矩阵为W,W=W' +W,计算拉普拉斯矩阵L,L =D-W,其中D为由W的行或列求和得到的向量作为对角线元...

【专利技术属性】
技术研发人员:焦李成陈璞花杨淑媛侯彪王爽马文萍马晶晶刘红英
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1