基于递归自动编码的高光谱特征学习方法技术

技术编号:10933763 阅读:151 留言:0更新日期:2015-01-21 13:54
本发明专利技术属于图像处理技术领域,具体提供了一种基于递归自动编码的高光谱特征学习方法,其步骤包括:将高光谱图像中每个像素点用特征向量表示,进行归一化处理,选出训练集和测试集;对每个特征向量构建邻域窗口块;在训练集中,每个特征向量及其邻域根据特征向量间重构误差最小化准则,合并特征向量对,再根据整个网络的重构误差对整个网络进行训练;分别将训练集和测试集输入到训练好的网络中,得到新的训练集和测试集;将新的训练集和测试机输入到支撑矢量机进行分类,得到分类结果。本发明专利技术采用了无监督的思想,克服了高光谱数据获取类标难的问题,获得较高的分类正确率,可用于矿物勘探,环境管理,军事防御领域。

【技术实现步骤摘要】
基于递归自动编码的高光谱特征学习方法
本专利技术属于图像处理
,具体涉及遥感图像
中的一种基于递归自动编码的高光谱特征学习方法。
技术介绍
高光谱图像技术在近几年来有很快的发展,其研究主要致力于寻找使计算机智能地学习和识别高光谱图像真实地物类的技术方法。高光谱图像在城市规划、环境检测、植被分类、军事目标探测以及矿物地质识别等诸多方面都有着巨大的应用前景。一种普遍的高光谱图像识别方法通常是:首先从高光谱图像中得到每个像素的光谱特征,通过对光谱特征的提取得到高级特征,并在此基础上对高光谱图像进行分类。其中的一个关键问题就是如何对不同的高光谱图像进行恰当的表示,因为表示的合理与否决定了后续分类的性能上限。另外,由于高光谱图像具有数据量大、冗余信息多、含有噪声等不利因素,因此要求在对光谱的特征学习时用到的技术方法高效、简单且有一定抗噪声干扰能力。重庆大学申请的专利“一种基于相对梯度的ISA模型的行为识别方法”(申请号:200910250850.6,公开号:CN101770584A,公布日:2010.07.07)公开了一种高光谱特征提取的方法,该方法的具体步骤为:第1步:部分样本数据点标注类标;第2步:相似图和相异图;第3步:计算投影矩阵;第4步:利用投影矩阵将高光谱数据投影到低维数据。该方法虽然能够对高光谱图像进行有效的特征提取,但是,仍然存在的不足之处是:该方法是基于部分类标信息的,而对于高光谱来说,类标信息比较困难得到,会消耗大量的时间,这将会加大了时间复杂度。PCA(主成分分析)与LDA(线性判别分析)是最常用的两种特征提取方法。PCA以最大方差为准则,能够在均方误差最小意义下最优表达数据,却不适合于分类。LDA以最大类间离散度矩阵于类内离散矩阵之比为准则,通过求解广义瑞利商问题获得投影矩阵,但LDA算法在小样本问题会使算法失效。虽然PCA和LDA方法提取特征可以减少算法复杂度,但是存在的不足之处是:这两种方法都是线性特征提取方法,对于非线性问题性能可能会下降。RichardSocher等人在论文“RecursiveAutoencoders”(EMNLP,2011)中提出Semi-unsupervisedRecursiveAutoencoders方法,该方法的具体步骤为第1步:提取样本的初级特征,就是样本的表示;第2步:构建半监督递归自编码网络;第3步:训练网络权值;第4步:把样本的初级特征带入网络得到高级特征。这种方法虽然利用了样本结构特性,使得对样本高级特征相对准确,且计算复杂度较低,但是,仍然存在的不足之处是:该方法只用于了自然语言,其他领域(尤其是高光谱领域)并没有加以利用。
技术实现思路
本专利技术的目的是克服现有高光谱特征提取技术中类标比较难找的问题。为此,本专利技术提供了一种基于递归自动编码的高光谱特征学习方法,包括以下步骤:(1)输入高光谱遥感图像数据,每个像素即样本用光谱特征向量表示,样本的特征维数为d,将样本集合归一化到0~1之间;(2)从归一化的样本集中选出一定比例的样本作为训练集,剩余的样本作为测试集,其中xi为第i个样本,N为样本总个数,表示实数域;(3)构建每个样本的邻域窗口块:在经过归一化样本集上,以各个样本为中心,取其m×m邻域窗口内的所有样本,得到包含m2个样本的集合Y,其中m为奇数;(4)利用训练集及其邻域样本,训练递归自动编码网络:4a)初始化网络参数θ=(W1,W2,b1,b2),W1和b1是输入层到隐层的权重和偏置,W2和b2是隐层到重构层的权重和偏置,初始化b1和b2分别为全零d维和2d维向量,W1=rand(2d,d)×2e-e,W2=rand(d,2d)×2e-e;其中,rand(2d,d)和rand(d,2d)分别是从0到1间随机取值而构成的2d×d矩阵和d×2d矩阵;4b)以一个训练样本及其邻域样本构成的集合Y作为输入,连接任意两个样本的特征向量构成新特征向量根据自动编码方法计算z的d维隐层特征向量及其重构误差;4c)合并重构误差最小的样本对,利用其隐层特征z′代替该样本对,此时集合Y中的样本个数减1,重新计算Y中每对样本的隐层特征向量和重构误差,重复该过程,直至Y中仅包含一个样本为止,完成该训练样本树结构递归网络拓扑的构建;4d)按4b)和4c)中的步骤对每个训练样本构建树结构递归网络拓扑;4e)以重构误差最小化作为目标函数,运用后向传播算法对训练集构建的树结构递归网络参数θ求梯度,再用L-BFGS方法对树结构递归网络参数θ进行训练;(5)利用上述训练好的树结构递归网络提取训练样本和测试样本的新特征向量,将每个样本及其邻域样本构成的集合Y输入到已训练好的树结构递归网络,获得所有隐层特征向量,构成集合Q,计算Y和Q中所有特征向量的平均值,作为该样本的新特征向量,从而得到新的训练集和测试集;(6)分类:对新训练集和测试集,利用支撑矢量机进行分类;(7)输出分类结果。上述步骤4b)中自动编码方法的具体步骤为:第1步,计算输入样本的隐层特征向量:z′=f(W1z+b1),其中,表示权值,表示偏置,f(·)表示tanh函数,其中a=W1z+b1;第2步,利用隐层特征向量重构输入特征向量,计算公式如下:其中,表示重构后的特征向量,W2为d×2d维的权值矩阵,b2为一个2d维偏置向量;第3步,计算重构误差上述步骤4e)L-BFGS方法的目标函数为迭代公式为θ(k+1)=θ(k)+α(k)s(k),其中,k为迭代次数,α(k)为步长,s(k)为搜索方向,具体过程为:第1步,给定初始化的网络参数θ=(W1,W2,b1,b2),转换成列向量θ′={W1(:);W2(:);b1;b2},其中W1(:)和W2(:)分别表示矩阵W1和W2按列扫描成的3d维列向量,n=2d+d+d+2d+d+2d=9d,初始化对称正定矩阵为单位方阵,给定需要存储的迭代向量数r=70,误差ε>0为一个很小的数,令k=0;第2步,若||g(k)||≤ε,则算法终止,否则,令s(k)=-B(k)g(k),其中g(k)=▽E(θ(k)),▽E(θ(k))是E对θ(k)求梯度;第3步,根据如下Wolfe-Powell条件确定步长α(k)>0:E(θ(k)+α(k)s(k))≤E(θ(k))+δα(k)(g(k))Ts(k),(g(k+1))Ts(k)≥σ(g(k))Ts(k);其中θ(k+1)=θ(k)+α(k)s(k),σ∈(δ,1),T表示矩正转置;第4步,令r′=min{k+1,r},取B(k)=((s(k))Ty(k)/||y(k)||2)I,其中I为单位方阵,T表示矩正转置,由以下公式确定B(k+1):其中s(k)=θ(k+1)-θ(k),ρ(k)=1/(s(k))Ty(k),y(k)=g(k+1)-g(k),V(k)=(I-ρ(k)y(k)(s(k))T);第5步,θ(k+1)=θ(k)+α(k)s(k),令k=k+1,转第2步。本专利技术与现有技术相比,具有以下优点:第一,本专利技术把深度学习算法应用于高光谱领域,更重要的是,整个特征提取的过程是无监督的,这对于高光谱图像来说有重大的意义。因为高光谱数据中无类标数据很容易得到,但有类标数据集则非常困难得到,并且造成巨大的时间消耗和经济消费本文档来自技高网
...
基于递归自动编码的高光谱特征学习方法

【技术保护点】
基于递归自动编码的高光谱遥感图像特征学习方法,其基本特征在于:包括以下步骤:(1)输入高光谱遥感图像数据,每个像素即样本用光谱特征向量表示,样本的特征维数为d,将样本集合归一化到0~1之间,所有归一化的样本构成样本集,其中xi为第i个样本,N为样本总个数,表示实数域;(2)从样本集X中选出一定比例的样本作为训练集,剩余的样本作为测试集;(3)构建每个样本的邻域窗口块:在经过归一化样本集上,以各个样本为中心,取其m×m邻域窗口内的所有样本,得到包含m2个样本的集合Y,其中m为奇数;(4)利用训练集及其邻域样本,训练递归自动编码网络;4a)初始化网络参数θ=(W1,W2,b1,b2),W1和b1是输入层到隐层的权重和偏置,W2和b2是隐层到重构层的权重和偏置,初始化b1和b2分别为全零d维和2d维向量,W1=rand(2d,d)×2e‑e,W2=rand(d,2d)×2e‑e,其中,rand(2d,d)和rand(d,2d)分别是从0到1间随机取值而构成的2d×d矩阵和d×2d矩阵;4b)以一个训练样本及其邻域样本构成的集合Y作为输入,连接任意两个样本的特征向量构成新特征向量根据自动编码方法计算z的d维隐层特征向量及其重构误差;4c)合并重构误差最小的样本对,利用其隐层特征向量z′代替该样本对,此时集合Y中的样本个数减1,重新计算Y中每对样本的隐层特征向量和重构误差,重复上述过程,直至Y中仅包含一个样本为止,完成该训练样本树结构递归网络拓扑的构建;4d)按4b)和4c)中的步骤对每个训练样本构建树结构递归网络;4e)以重构误差最小化作为目标函数,运用后向传播算法对训练集构建的树结构递归网络参数θ求梯度,再用L‑BFGS方法对树结构递归网络参数θ进行训练;(5)利用上述训练好的树结构递归网络提取训练样本和测试样本的新特征向量,将每个样本及其邻域样本构成的集合Y输入到已训练好的树结构递归网络,获得所有隐层特征向量,构成集合Q,计算Y和Q中所有特征向量的平均值,作为该样本的新特征向量,从而得到新的训练集和测试集;(6)分类:对新训练集和测试集,利用支撑矢量机进行分类;(7)输出分类结果。...

【技术特征摘要】
1.基于递归自动编码的高光谱特征学习方法,其特征在于:包括以下步骤:(1)输入高光谱遥感图像数据,每个像素即样本用光谱特征向量表示,样本的特征维数为d,将样本归一化到0~1之间,所有归一化的样本构成样本集其中xi为第i个样本,N为样本总个数,表示实数域;(2)从样本集X中选出一定比例的样本作为训练集,剩余的样本作为测试集;(3)构建每个样本的邻域窗口块:在经过归一化样本集上,以各个样本为中心,取其m×m邻域窗口内的所有样本,得到包含m2个样本的集合Y,其中m为奇数;(4)利用训练集及其邻域样本,训练递归自动编码网络;4a)初始化网络参数θ=(W1,W2,b1,b2),W1和b1是输入层到隐层的权重和偏置,W2和b2是隐层到重构层的权重和偏置,初始化b1和b2分别为全零d维和2d维向量,W1=rand(2d,d)×2e-e,W2=rand(d,2d)×2e-e,其中,rand(2d,d)和rand(d,2d)分别是从0到1间随机取值而构成的2d×d矩阵和d×2d矩阵;4b)以一个训练样本及其邻域样本构成的集合Y作为输入,连接任意两个样本的特征向量构成新特征向量根据自动编码方法计算z的d维隐层特征向量及其重构误差;4c)合并重构误差最小的样本对,利用其隐层特征向量z′代替该样本对,此时集合Y中的样本个数减1,重新计算Y中每对样本的隐层特征向量和重构误差,重复该过程,直至Y中仅包含一个样本为止,完成该训练样本树结构递归网络拓扑的构建;4d)按4b)和4c)中的步骤对每个训练样本构建树结构递归网络;4e)以重构误差最小化作为目标函数,运用后向传播算法对训练集构建的树结构递归网络参数θ求梯度,再用L-BFGS方法对树结构递归网络参数θ进行训练;(5)利用上述训练好的树结构递归网络提取训练样本和测试样本的新特征向量,将每个样本及其邻域样本构成的集合Y输入到已训练好的树结构递归网络,获得所有隐层特征向量,构成集合Q,计算Y和Q中所有特征向量的平均值,作为该样本的新特征向量,从而得到新的训练集和测试集;(6)分类:对新训练集和测试集,利用支撑矢量机进行分类;(7)输出分类结果。2.根据权利要求1所述的基于递归自动编码的高光谱特征学习方法,所述步骤4b)中自动编码方法的具体步骤为:第1步,计算输入样本的隐层特征向量:z′=f(W1z+b1),...

【专利技术属性】
技术研发人员:张向荣焦李成梁彦杰刘若辰侯彪白静马文萍马晶晶
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1