The invention relates to the field of Raman spectrum quantitative analysis, in particular to a hyperspectral sample selection method based on clustering. The method includes: the original hyperspectral data standardization processing data set as the standard; data for a standard set of dimension reduction are representative of joint space; the representative of joint space clustering acquired from the cluster; cluster according to the maximum and minimum distance sample training set, the remainder of the sample test set. The invention can weigh according to the actual situation of the weights between the sample spectrum space and sample label, with uniform distribution in the sample space in the training set and test set, is not sensitive to the singular value, representative, and compared to the previous method of modeling accuracy and stability significantly improved.
【技术实现步骤摘要】
一种基于降维与聚类的高光谱样本选择方法
本专利技术涉及拉曼光谱定量分析领域,具体地来讲为一种基于聚类的高光谱样本选择方法。
技术介绍
拉曼光谱样本选择方法是利用高光谱空间信息来获得模型训练所需的训练样本集和测试样本集,从而使得模型具有较好的精度和稳定性。目前有以下几种常用样本选择算法:随机选择法RandomSampling(RS)、Kennard-Stone(KS)、Samplesetpartitioningbasedonjointx-ydistance(SPXY)等方法。随机选择法较为通用,但稳定性较差,可能出现较大的建模精度波动;KS则是基于样本间欧式距离,采用最大最小距离选择样本,在一定程度上可以有效地解决稳定性问题,但是其对奇异值非常敏感,而且样本空间分布不均匀;SPXY在KS的基础上等权重加入样本标签信息,并没有解决其存在的问题。
技术实现思路
本专利技术所要解决的技术问题在于提供一种基于降维与聚类的高光谱样本选择方法,以解决稳定性差以及样本空间分布不均匀的问题。一种基于降维与聚类的高光谱样本选择方法,包括如下步骤:一种基于降维与聚类的高光谱样本选择方法,该方法包括:步骤1,将原始高光谱数据集标准化处理为标准化数据集;步骤2,计对标准化数据集降维得到联合代表空间;步骤3,将获得的联合代表空间聚类得到聚类簇;步骤4,从聚类簇中按最大最小距离选取样本组成训练集,其余剩下的样本组成测试集。进一步地,所述步骤3中,以欧式聚类作为相似度测度,根据数据点到原型距离作为优化目标函数,采用误差平方和作为聚类准则函数。进一步地,所述步骤2中包括:采用主成分分析的方法, ...
【技术保护点】
一种基于降维与聚类的高光谱样本选择方法,其特征在于,该方法包括:步骤1,将原始高光谱数据集标准化处理为标准化数据集;步骤2,对标准化数据集降维得到联合代表空间;步骤3,对获得的联合代表空间聚类得到聚类簇;步骤4,从聚类簇中按最大最小距离选取样本组成训练集,其余剩下的样本组成测试集。
【技术特征摘要】
1.一种基于降维与聚类的高光谱样本选择方法,其特征在于,该方法包括:步骤1,将原始高光谱数据集标准化处理为标准化数据集;步骤2,对标准化数据集降维得到联合代表空间;步骤3,对获得的联合代表空间聚类得到聚类簇;步骤4,从聚类簇中按最大最小距离选取样本组成训练集,其余剩下的样本组成测试集。2.按照权利要求1所述的方法,其特征在于,所述步骤3中,以欧式聚类作为相似度测度,根据数据点到原型距离作为优化目标函数,采用误差平方和作为聚类准则函数。3.按照权利要求1或2所述的方法,其特征在于,所述步骤2中包括:采用主成分分析的方法,计算标准化数据集的相关系数矩阵,根据累计贡献率确定m值,计算标准化数据集的主成分矩阵;将代表高光谱样本空间的主成分矩阵以权重矩阵与样本标签信息联合,获得联合代表空间。4.按照权利要求3所述的方法,其特征在于,所述步骤2中采用主成分分析的方法,计算标准化数据集的相关系数矩阵,根据累计贡献率确定m值,计算标准化数据集的主成分矩阵包括:计算相关系数矩阵R=XTX/(n-1),求解相关系数矩阵R的特征方程|R-λIp|=0获得p个特征值;其中X为标准化数据集,n为样本个数。5.按照权利要求3所述的方法,其特征在于,步骤2中,权重矩阵如下所示:Y为样本标签信息,U为主成分矩阵,M为权重矩阵,...
【专利技术属性】
技术研发人员:王巧云,郑念祖,马振鹤,
申请(专利权)人:东北大学,
类型:发明
国别省市:辽宁,21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。