基于模糊标签的高光谱数据子空间投影和分类方法技术

技术编号:12358435 阅读:226 留言:0更新日期:2015-11-20 14:27
本发明专利技术公开了一种基于模糊标签的高光谱数据子空间投影和分类方法,主要解决高光谱图像中由于混合像元和噪声引起地物错分和数据判别性差的问题。其步骤为:1.将遥感数据库样本集划分为训练样本和标记样本集;2.计算由子空间投影后的标记样本集生成的判别项;3.构造由训练样本的模糊标签确定的拉普拉斯正则项;4.通过最大化判别项和正则项之差获取最优投影矩阵和模糊标签,以实现有效降维的同时,实现高精度的分类。本发明专利技术采用判别子空间投影的方法来构造判别项,将数据投影到低维空间,增强数据的判别性能,进而引入模糊标签来构造拉普拉斯正则,解决了混合像元带来的错分问题,在实现降维的同时,实现高精度的分类。

【技术实现步骤摘要】

本专利技术属于图像处理
,更进一步涉及一种数据降维和分类方法,可用于 遥感影像数据的降维与分类。
技术介绍
经上世纪的快速发展,高光谱遥感技术在理论技术和应用上发生了翻天覆地的变 化,广泛应用于农业、林业、国防侦察识别伪装等领域。但是,高光谱数据处理的技术相对落 后,制约了高光谱遥感技术的进一步推广。分类作为高光谱数据处理的一个重要内容,成为 高光谱数据研究领域的一大热点。 高光谱图像可以提供丰富的信息,获得确定物质或地物性质的光谱的同时,揭示 地物之间的空间位置关系,实现了"图谱合一",进而能显著地提高数据分析的可靠性和细 节性。 虽然,高光谱图像包含丰富的光谱和空间信息,但是,同时也给图像分类算法带来 一系列挑战。一方面,由于空间分辨率的限制及其它因素影响,一个像元常常由多种地物构 成,这种像元被称为混合像元,而混合像元导致了高光谱图像中"同物异谱(即相同种类地 物具有不同的光谱信息)"和"同谱异物(即不同种类地物具有相同的光谱信息)"现象的存 在 ,不可避免地在图像分类过程中引起地物的错分。另一方面,由于高光谱图像中数据 维数很高,量化精度随之增高,所以,在图像分类中,如果有监督信息的训练样本很少,分类 精度会有明显的下降,而且高维数据会带来大量复杂的计算。所以,在高光谱数据处理中, 有效对数据进行降维,并改进混合像元的分解方法,可以提取数据的有效信息,同时获得更 准确的分类结果。 现有的经典的分类方法主要有以下三类: ( -)无监督分类方法:如K均值聚类,是通过最小化聚类中各个点到该类聚类中 心的距离平方和的原则,实现各个点的分类。这种分类方法缺点是不能自动调节聚类的个 数。 (二)监督分类方法:如支撑向量机,是基于结构最小化的分类方法。这种方法比 K均值聚类方法具有更好的泛化能力,但支撑向量机需要有监督信息的样本参与分类,而获 得有监督信息的样本需要耗费大量的人力物力,在有监督信息样本少的情况下,分类效果 变差。 (三)半监督分类方法:这种方法融合了未标记样本和标记样本中所含信息来改 善分类器性能,提高分类精度。但是目前的半监督分类方法往往基于"严格的聚类假设",也 就是,相似的物质拥有相同的标签的假设,这样的假设不能有效解决混合像元被错分的问 题。
技术实现思路
本专利技术的目的在于针对上述已有技术的不足,提出一种基于模糊标签的高光谱数 据子空间投影和分类方法,利用少量的监督信息,同时实现对高光谱遥感数据的有效降维 和分类。 实现本专利技术目的的技术方案是:通过判别子空间投影的方法将数据投影到低维空 间,增强数据的判别性能,进而通过引入模糊标签来构造拉普拉斯矩阵,解决混合像元带来 的错分问题,在实现降维的同时,实现高精度的分类。具体步骤如下: (1)将高光谱遥感影像数据库样本集分为训练样本集X和标记样本集X1; (2)计算由标记样本集\在子空间投影后生成的判别项: 其中,Ldis表示判别项,N:是标记样本的数目,,.?丨表示第i个标记样本,&是X丨的 第k个异类的标记样本,是< 的第j个同类的标记样本,kl2是与4异类的标记样本的 数目,ku是与X)同类的标记样本的数目,WGRDXd是将D维空间的数据投影到d维空间的 投影矩阵,D由高光谱遥感影像自身的性质决定,d为降维后数据的维数,且d<<D,1^是n维实数空间,I I?I I2表示两个向量间的距离的平方; (3)构造由训练样本集X的模糊标签确定的拉普拉斯正则项: 其中,Rp表示由模糊标签确定的拉普拉斯正则项,X3和Xt分别是训练样本集X第 s和第t个样本,N为高光谱遥感影像数据中样本的个数,Wst表示样本X3和X4的相似度,由 热核函数Wst=exp (_| |p(Xs)_p (xt) I |2/2〇 2)确定,其中,p(xs) G Rcxi和p (X t) G Rcxi分 别是\和Xt的模糊标签,P(Xs)和P(Xt)是分别由\和X4依次属于1到c类的概率组成的 cXl的向量,c是高光谱遥感影像的类别数,〇是热核函数的宽度; (4)求解投影矩阵W和模糊标签p(X1),i= 1,…N 根据判别项和模糊标签构造的拉普拉斯正则项,得到目标函数L = Ldls-ARp,其 中,A是正则项参数,用来平衡判别项和正则项之间的权重;通过交替迭代求解的方法,求 解投影矩阵W和模糊标签P(X1),i= 1,? ??,N: 4a)固定模糊标签p(Xi),i= 1,. . .,N,求解投影矩阵W 此时目标函数表达式可写成:进行特征分解得到; 4b)固定投影矩阵W,求解模糊标签p(Xi),i= 1,. . .,N 此时,目标函数表达式可写成: 其中,Pk(Xj)表示第j个样本属于第k类的概率,k的取值范围为I5ljc,pk(xt)表 示第t个样本属于第k类的概率,N为训练样本的数目; 4c)通过L计算目标函数值,并计算AL=Ln+1_Ln Ln+1是第n+1次迭代得到的结果,Ln是第n次迭代得到的结果,当AL小于设定的 阈值或者迭代次数达到设定的最大迭代次数,则停止迭代转向下一步,否则转向4a); (5)通过对p按列取最大值,找到每列的最大值所在的行数,该行数就是各训练样 本所属的类别数。与现有技术相比,本专利技术有以下优点: 本专利技术采用判别子空间投影的方法来构造判别项,通过将数据投影到低维空间, 增强了数据的判别性能,并且引入模糊标签来构造拉普拉斯正则,解决了混合像元带来的 错分问题,在实现降维的同时,实现了高精度的分类。【附图说明】 图1是本专利技术的流程图; 图2是本专利技术仿真使用的实验高光谱数据IndianPines及其真实标记图;【具体实施方式】 参照图1,对本专利技术做进一步的详细描述。 步骤1 :将遥感影像数据库样本集划分为训练数据集X和标记样本集 la)在待处理的遥感数据集中,全部数据构成训练样本数据集XGRdxn,其中,D表 示训练集样本的维数,Rn表示n维实数空间,N表示训练集样本的总数;在本专利技术的实施实 例IndianPines数据集中,样本维数D为200,训练集样本的总数N为10366 ; Ib)每类随机从训练样本集中选取k个样本作为有监督信息的标记样本集 XfRw'其中,N1=cXk,c为高光谱图像类别数,在本专利技术的实施实例IndianPines数 据集中,c为16,k取8; Ic)在标记样本集X1*,对每个标记样本通过欧氏距离寻找其ku个同类近邻和kl2 个异类近邻,在本专利技术的实施实例IndianPines数据集中,同类近邻数ku为3,异类近邻数 kl2为 6〇 步骤2 :计算由子空间投影后的标记样本集生成的判别项。 通过对每个标记样本X丨进行判别子空间投影后,使得同类的标记样本间的距离更 近,异类的标记样本的距离更远,因此标记样本集生成的判别项为: 其中,Ldls表示判别项,1^是标记样本的数目,,表示第i个标记样本,<是<的 第k个异类的标记样本,(是< 的第j个同类的标记样本,kl2是与异类的标记样本的数 目,ku是与 < 同类的标记样本的数目,WGRDXd是将D维空间的数据投影到d维空间的投 影矩阵,D由高光谱遥感影像自身的性质决定,d为降维后数据的维数,且d&本文档来自技高网
...

【技术保护点】
一种基于模糊标签的高光谱遥感影像数据子空间投影和分类方法,包括以下步骤:(1)将高光谱遥感影像数据库样本集作为训练样本集X和标记样本集Xl;(2)计算由标记样本集Xl在子空间投影后生成的判别项:Ldis=argmaxw(Σi=1Nl(Σk=1ki2||Wxil-Wxikl||2-Σj=1ki1||Wxil-Wxijl′||2)),]]>其中,Ldis表示判别项,Nl是标记样本的数目,,表示第i个标记样本,是的第k个异类的标记样本,是的第j个同类的标记样本,ki2是与异类的标记样本的数目,ki1是与同类的标记样本的数目,W∈RD×d是将D维空间的数据投影到d维空间的投影矩阵,D由高光谱遥感影像自身的性质决定,d为降维后数据的维数,且d<<D,Rn是n维实数空间,||·||2表示两个向量间的距离的平方;(3)构造由训练样本集X的模糊标签确定的拉普拉斯正则项:Rp=argminw(Σs=1NΣt=1N||Wxs-Wxt||2wst)]]>其中,Rp表示由模糊标签确定的拉普拉斯正则项,xs和xt分别是训练样本集X第s和第t个样本,N为高光谱遥感影像数据中样本的个数,wst表示样本xs和xt的相似度,由热核函数wst=exp(‑||p(xs)‑p(xt)||2/2σ2)确定,其中,p(xs)∈Rc×1和p(xt)∈Rc×1分别是xs和xt的模糊标签,p(xs)和p(xt)是分别由xs和xt依次属于1到c类的概率组成的c×1的向量,c是高光谱遥感影像的类别数,σ是热核函数的宽度;(4)求解投影矩阵W和模糊标签p(xi),i=1,...,N根据判别项和模糊标签构造的拉普拉斯正则项,得到目标函数L=Ldis‑λRp,其中,λ是正则项参数,用来平衡判别项和正则项之间的权重;通过交替迭代求解的方法,求解投影矩阵W和模糊标签p(xi),i=1,...,N:4a)固定模糊标签p(xi),i=1,...,N,求解投影矩阵W此时目标函数表达式可写成:L1=argmaxw(Σi=1Nl(Σk=1ks2||Wxil-Wxikl||2-Σj=1ks1||Wxil-Wxijl′||2)-λΣs=1NΣt=1N||Wxs-Wxt||2rst)=argmaxw(tr(WT(Σi=1Nl(Σk=1ks2||xil-xikl||2-Σj=1ks1||xil-xijl′||2)-λΣs=1NΣt=1N||xs-xt||2rst)W))=argmaxw(tr(WTSW))]]>投影矩阵W可以通过对上式S=Σi=1Nl(Σk=1ks2||xil-xikl||2-Σj=1ks1||xil-xijl||2)-λΣs=1NΣt=1N||xs-xt||2rst]]>进行特征分解得到;4b)固定投影矩阵W,求解模糊标签p(xi),i=1,...,N此时,目标函数表达式可写成:L2=argmaxp(-λΣs=1NΣt=1N||Wxs-Wxt||2wst)=argmaxp(-λΣs=1NΣt=1N||Wxs-Wxt||2e-||p(xs)-p(xt)||22σ2)≈argmaxp(-λΣs=1NΣt=1N||Wxs-Wxt||2(1-||p(xs)-p(xt)||22σ2))]]>通过对L2关于p(xs)求导,可得到p的表达式为:pk(xs)=Σt=1N||Wxj-Wxt||2pk(xt)Σt=1N||Wxj-Wxt||2]]>其中,pk(xj)表示第j个样本属于第k类的概率,k的取值范围为1到c,pk(xt)表示第t个样本属于第k类的概率,N为训练样本的数目;4c)通过L计算目标函数值,并计算ΔL=Ln+1‑LnLn+1是第n+1次迭代得到的结果,Ln是第n次迭代得到的结果,当ΔL小于设定的阈值或者迭代次数达到设定的最大迭代次数,则停止迭代转向下一步,否则转向4a);(5)通过对p按列取最大值,找到每列的最大值所在的行数,该行数就是各训练样本所属的类别数。...

【技术特征摘要】

【专利技术属性】
技术研发人员:杨淑媛焦李成周红静刘红英马晶晶马文萍侯彪屈嵘冯志玺李素婧刘志
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1