当前位置: 首页 > 专利查询>东北大学专利>正文

一种基于降维与聚类的高光谱样本选择方法技术

技术编号:15502364 阅读:107 留言:0更新日期:2017-06-03 23:17
本发明专利技术涉及拉曼光谱定量分析领域,具体地来讲为一种基于聚类的高光谱样本选择方法。该方法包括:将原始高光谱数据集标准化处理为标准化数据集;对标准化数据集降维得到联合代表空间;对获得的联合代表空间聚类得到聚类簇;从聚类簇中按最大最小距离选取样本组成训练集,其余剩下的样本组成测试集。本发明专利技术能够根据实际情况权衡样本光谱空间与样本标签之间的权重,经选择得到训练集与测试集在样本空间中均匀分布,对奇异值不敏感,具有较强代表性,且相比于先前方法建模精度与稳定性显著提高。

A hyperspectral sample selection method based on dimensionality reduction and clustering

The invention relates to the field of Raman spectrum quantitative analysis, in particular to a hyperspectral sample selection method based on clustering. The method includes: the original hyperspectral data standardization processing data set as the standard; data for a standard set of dimension reduction are representative of joint space; the representative of joint space clustering acquired from the cluster; cluster according to the maximum and minimum distance sample training set, the remainder of the sample test set. The invention can weigh according to the actual situation of the weights between the sample spectrum space and sample label, with uniform distribution in the sample space in the training set and test set, is not sensitive to the singular value, representative, and compared to the previous method of modeling accuracy and stability significantly improved.

【技术实现步骤摘要】
一种基于降维与聚类的高光谱样本选择方法
本专利技术涉及拉曼光谱定量分析领域,具体地来讲为一种基于聚类的高光谱样本选择方法。
技术介绍
拉曼光谱样本选择方法是利用高光谱空间信息来获得模型训练所需的训练样本集和测试样本集,从而使得模型具有较好的精度和稳定性。目前有以下几种常用样本选择算法:随机选择法RandomSampling(RS)、Kennard-Stone(KS)、Samplesetpartitioningbasedonjointx-ydistance(SPXY)等方法。随机选择法较为通用,但稳定性较差,可能出现较大的建模精度波动;KS则是基于样本间欧式距离,采用最大最小距离选择样本,在一定程度上可以有效地解决稳定性问题,但是其对奇异值非常敏感,而且样本空间分布不均匀;SPXY在KS的基础上等权重加入样本标签信息,并没有解决其存在的问题。
技术实现思路
本专利技术所要解决的技术问题在于提供一种基于降维与聚类的高光谱样本选择方法,以解决稳定性差以及样本空间分布不均匀的问题。一种基于降维与聚类的高光谱样本选择方法,包括如下步骤:一种基于降维与聚类的高光谱样本选择方法,该方法包括:步骤1,将原始高光谱数据集标准化处理为标准化数据集;步骤2,计对标准化数据集降维得到联合代表空间;步骤3,将获得的联合代表空间聚类得到聚类簇;步骤4,从聚类簇中按最大最小距离选取样本组成训练集,其余剩下的样本组成测试集。进一步地,所述步骤3中,以欧式聚类作为相似度测度,根据数据点到原型距离作为优化目标函数,采用误差平方和作为聚类准则函数。进一步地,所述步骤2中包括:采用主成分分析的方法,计算标准化数据集的相关系数矩阵,根据累计贡献率确定m值,计算标准化数据集的主成分矩阵;将代表高光谱样本空间的主成分矩阵以权重矩阵与样本标签信息联合,获得联合代表空间。进一步地,所述步骤2中采用主成分分析的方法,计算标准化数据集的相关系数矩阵,根据累计贡献率确定m值,计算标准化数据集的主成分矩阵包括:计算相关系数矩阵R=XTX/(n-1),求解相关系数矩阵R的特征方程|R-λIp|=0获得p个特征值;其中X为标准化数据集,n为样本个数。进一步地,步骤2中,权重矩阵如下所示:Y为样本标签信息,U为主成分矩阵,M为权重矩阵,S为联合代表空间。进一步地,步骤3聚类包括:第一步:随机选取k个初始聚类中心cj;第二步:逐个计算样本si与聚类中心cj的距离,若与聚类中心cj距离最近,则将其归到聚类簇Dj中第三步:重新计算聚类簇Dj的聚类中心式中d为聚类簇Dj所含样本数目,sk为依次加入到聚类簇Dj的样本;第四步:不断执行步骤二和步骤三,直到聚类中心趋于稳定,通过迭代更新k个聚类中心使目标函数F取得最小值,其目标函数如下式所示:进一步地,步骤1包括:将原始高光谱数据集XR∈Rn×p标准化获得数据集X其中,其中n为样本个数;p为样本的维度,为第i行数据集的平均值。本专利技术与现有技术相比,有益效果在于,本专利技术能够根据实际情况权衡样本光谱空间与样本标签之间的权重,经选择得到训练集与测试集在样本空间中均匀分布,对奇异值不敏感,具有较强代表性,且相比于先前方法建模精度与稳定性显著提高。附图说明图1为本专利技术实施例提供的方法流程图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术基于降维获取代表高光谱的低维信息空间,利用聚类的方法获得若干个子空间,根据最大最小距离获得其训练样本和测试集样本,包括如下步骤:步骤1:假设所获得的原始光谱数据为XR∈Rn×p,其中n为样本个数;p为样本的维度。先将数据标准化,将原始高光谱数据集XR∈Rn×p标准化获得数据集X:式中,为第i行原始数据集的平均值。步骤2:采用主成分分析的方法,计算标准化数据集的相关系数矩阵R=XTX/(n-1),根据累计贡献率确定m值,计算其主成分矩阵U∈Rn×m,步骤如下:第一步:计算相关系数矩阵R=XTX/(n-1);第二步:求解相关矩阵R的特征方程|R-λIp|=0获得p个特征值λ,其中单位矩阵Ip∈Rp×p,并假设特征值λ满足λ1≥λ1≥…≥λp,λ为特征值,Ip为单位矩阵,Ip∈Rp×p;第三步:根据累计贡献率确定m值,并由如下公式解得前m特征值λ1、λ1、…、λm对应特征向量,并组成特征向量矩阵P∈Rp×m,|R-λiIp|pi=0i=1,2,…,m,第四步:将标准后的指标标量与第三步获得特征向量矩阵P∈Rp×m相乘,从而获得主成分矩阵U∈Rn×m步骤3:计算联合矩阵,Y为样本的标签信息,将代表高光谱样本空间的主成分矩阵以权重矩阵M与样本标签信息Y联合,获得其联合代表空间S,其中权重矩M如下所示:步骤4:将获得的代表联合空间S采用K均值聚类以得到聚类簇Djj=1,2,…,kK均值聚类以欧式聚类作为相似度测度,根据数据点到原型距离作为优化目标函数,采用误差平方和作为聚类准则函数。准则函数最小时,收敛于最优分类。假设类别为k类,C为聚类中心集合,并有k个聚类中心cj∈Cj=1,2,…,k以及聚类簇Djj=1,2,…,k;其中代表每个样本主成分矩阵si∈Si=1,2,…n;具体步骤包括:第一步:随机选取k个初始聚类中心cj;第二步:逐个计算样本si与聚类中心cj的距离。若与聚类中心cj距离最近,则将其归到聚类簇Dj中第三步:重新计算聚类簇Dj的聚类中心式中d为聚类簇Dj所含样本数目,sk为依次加入到聚类簇Dj的样本。第四步:不断执行步骤二和步骤三,直到聚类中心趋于稳定,即通过迭代更新k个聚类中心使目标函数F取得最小值,其目标函数如下式所示:第五步:从聚类簇Djj=1,2,…,k中按最大最小距离选取样本组成训练集,其余剩下的样本组成测试集。步骤5:根据最大最小距离原理,即可得到训练样本集合与测试样本集合。首先选取两个距离最远的点加入训练集合中,然后在计算剩下每个样本与训练集合中每个样本之间的距离,对每个训练集合中样本取最大的最大距离的样本作为候选样本,在若干个候选样本中选择距离最短的加入训练集合中,依次类推,可以得到指定数目的训练样本集合,剩余样本作为测试集。实施例:将样本置于石英透明小杯中,本实施例中选取的是发酵的葡萄酒,立即进行光谱采集,进行共512次扫描,扫描速率为10kHz,光谱分辨率6cm-1,扫描范围4000-400cm-1,重复测定3次,取其平均,40个样本的原始拉曼光谱XR∈Rn×p采取如下步骤:步骤一:数据标准化,将原始高光谱数据集Y标准化获得数据集X步骤二:采用主成分分析的方法,计算其相关系数矩阵R=XTX/(n-1),根据累计贡献率确定m值,计算其主成分矩阵U∈Rn×m步骤三:计算联合矩阵,Y为样本的标签信息,将代表高光谱样本空间的主成分矩阵以权重矩阵M与样本标签信息Y联合,获得其联合代表空间S,其中M矩阵如下所示:步骤四:将获得的联合空间S采用K均值聚类以得到聚类簇Djj=1,2,…,k步骤五:根据最大最小距离原理,即可得到训练样本集合与测试样本集合。步骤六:采用BP神经网络建立定量分析模型。所建立拉曼光谱定量分析模型性能的好坏决定于该模型的准确度以及稳健性,本文档来自技高网...
一种基于降维与聚类的高光谱样本选择方法

【技术保护点】
一种基于降维与聚类的高光谱样本选择方法,其特征在于,该方法包括:步骤1,将原始高光谱数据集标准化处理为标准化数据集;步骤2,对标准化数据集降维得到联合代表空间;步骤3,对获得的联合代表空间聚类得到聚类簇;步骤4,从聚类簇中按最大最小距离选取样本组成训练集,其余剩下的样本组成测试集。

【技术特征摘要】
1.一种基于降维与聚类的高光谱样本选择方法,其特征在于,该方法包括:步骤1,将原始高光谱数据集标准化处理为标准化数据集;步骤2,对标准化数据集降维得到联合代表空间;步骤3,对获得的联合代表空间聚类得到聚类簇;步骤4,从聚类簇中按最大最小距离选取样本组成训练集,其余剩下的样本组成测试集。2.按照权利要求1所述的方法,其特征在于,所述步骤3中,以欧式聚类作为相似度测度,根据数据点到原型距离作为优化目标函数,采用误差平方和作为聚类准则函数。3.按照权利要求1或2所述的方法,其特征在于,所述步骤2中包括:采用主成分分析的方法,计算标准化数据集的相关系数矩阵,根据累计贡献率确定m值,计算标准化数据集的主成分矩阵;将代表高光谱样本空间的主成分矩阵以权重矩阵与样本标签信息联合,获得联合代表空间。4.按照权利要求3所述的方法,其特征在于,所述步骤2中采用主成分分析的方法,计算标准化数据集的相关系数矩阵,根据累计贡献率确定m值,计算标准化数据集的主成分矩阵包括:计算相关系数矩阵R=XTX/(n-1),求解相关系数矩阵R的特征方程|R-λIp|=0获得p个特征值;其中X为标准化数据集,n为样本个数。5.按照权利要求3所述的方法,其特征在于,步骤2中,权重矩阵如下所示:Y为样本标签信息,U为主成分矩阵,M为权重矩阵,...

【专利技术属性】
技术研发人员:王巧云郑念祖马振鹤
申请(专利权)人:东北大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1