当前位置: 首页 > 专利查询>三峡大学专利>正文

基于Stacking集成框架的光谱特征变量选择与优化方法技术

技术编号:23085771 阅读:46 留言:0更新日期:2020-01-11 01:23
本发明专利技术公开了基于Stacking集成框架的光谱特征变量选择与优化方法,包括构建样本集,将样本集分为训练样本集和测试样本集;在变量区间选择法、变量信息选择法、变量优化选择法大类中选出具有代表性的特征变量选择方法;构建多个基学习器,采用Stacking集成框架将基学习器集成,构建元学习器,将基学习器的输出作为元学习器的输入;利用样本集对Stacking集成框架的基学习器和元学习器进行训练与测试;将待检测光谱信息输入基学习器,依据元学习器的输出得到待检测光谱的检测结果。本发明专利技术的基于Stacking集成框架的光谱特征变量选择与优化方法克服了单一特征变量选择方法的缺陷,对测试样本的检测精度高,检测结果稳定性好。

Selection and optimization of spectral feature variables based on stacking integrated framework

【技术实现步骤摘要】
基于Stacking集成框架的光谱特征变量选择与优化方法
本专利技术属于光谱分析领域,具体涉及基于Stacking集成框架的光谱特征变量选择与优化方法。
技术介绍
近红外光谱NIR(NearInfrared)区按美国试验和材料检测协会定义是指波长在780~2526nm范围内的电磁波。属于分子振动光谱的倍频和主频吸收光谱,近红外光谱主要是由于分子振动的非谐振性使分子振动从基态向高能级跃迁时产生的。而近红外光谱区与有机分子中含氢基团(O-H、N-H、C-H)振动的合频和各级倍频的吸收区一致,包含了大多数类型有机化合物的组成和分子结构的信息。因此,近红外光谱分析技术可用于多种有机物的定性分析和定量分析。NIR是近几十年来发展迅速的高新分析技术之一。目前大约有50多个国家和地区开展了NIR的研究和应用工作,特别是一些发达国家表现得尤为突出,这些国家拥有大量的各种类型的NIR分析仪器用于各行各业。这些仪器在农业、石化、制药、食品等领域都得到很好应用,并取得极好的社会和经济效益。近红外光谱数据具有很高的空间复杂度,数据还包含了背景噪声、仪器误差、人为误差,以及非待测成分的信息等干扰因素。正是由于光谱分析技术面临着信息重叠、相关性、复杂性等问题,因此,对光谱特征变量选择的研究尤为必要,是当前的一个研究热点。近年来,国内外众多学者对特征选择问题进行了研究,在多元校正分析中的波长选择方法主要有相关系数法、方差分析法、逐步回归法、无信息变量的消除法、间隔偏最小二乘法、粒子群算法等。现阶段常用的光谱特征变量选择方法均有其缺陷,如无信息变量的消除法只评估单个特征与结果之间的关系,虽然计算量小,能避免过拟合,但没有考虑特征之间的关联。间隔偏最小二乘法通过区间的划分提高了效率,但没能考虑到区间之间的关联,且选出的区间仍包含大量冗余信息。粒子群算法具有较强的随机性,选出的变量集合不稳定。
技术实现思路
本专利技术的技术问题是现有的单一的光谱特征变量选择方法均存在缺陷,变量区间选择法容易忽视区间之间的关联,一旦特征被选择或者删除,将无法再参与后续变量选择过程,即所谓的“筑巢(nesting)效应”,且区间变量划分缺乏理论指导;变量信息选择法是基于单变量的,无法判断相关的冗余变量,尽管有些变量单从自身而言似乎并不重要,但与其它变量组合后,可能显著提高整个模型的判别性能,而单变量选择方法无法识别出这些变量,导致重要信息的丢失;变量优化方法忽视了随机误差对变量选择的影响,选出的最佳变量子集缺乏稳定性,且对初始化和评价准则非常敏感,随机性较强,无法保证每次选出的变量的一致性。本专利技术的目的是解决上述问题,提出基于Stacking集成框架的光谱特征变量选择与优化方法,克服单一特征变量选择方法的缺陷,提高预测精度。本专利技术的技术方案是基于Stacking集成框架的光谱特征变量选择与优化方法,包括以下步骤,步骤1:构建样本集,将样本集分为训练样本集和测试样本集;步骤2:在变量区间选择法、变量信息选择法、变量优化选择法大类中选出具有代表性的特征变量选择方法;步骤3:利用步骤2选出的特征变量选择方法构建多个基学习器,采用Stacking集成框架将基学习器集成,构建元学习器,将基学习器的输出作为元学习器的输入;步骤4:利用样本集对Stacking集成框架的基学习器和元学习器进行训练与测试;步骤4.1:采用训练样本集对Stacking集成框架的基学习器和元学习器进行训练;步骤4.2:采用测试样本集对Stacking集成框架的基学习器和元学习器进行测试;步骤5:将待检测光谱信息输入基学习器,依据元学习器的输出得到待检测光谱的检测结果。步骤1中,所述构建样本集,配置预定浓度范围的乙醇样本多个,获取各样本12000~4000cm-1波数范围内的近红外光谱信息,将样本按比例分成训练样本集和测试样本集。步骤2中,所述选出具有代表性的特征变量选择方法,选出的特征变量选择方法包括协同间隔偏最小二乘法SiPLS(SynergyintervalPartialLeastSquares)、无信息变量的消除法UVE(UninformativeVariableElimination)、粒子群算法PSO(ParticleSwarmOptimization)。步骤3中,所述构建元学习器,采用非线性的支持向量回归SVR(SupportVectorRegression)方法。优选地,所述样本集或待检测光谱信息输入基学习器前,采用标准正态变量变换法SNV(Standardnormalvariabletransformation)对样本集或待检测光谱信息进行预处理。优选地,所述SiPLS的参数划分为20个区间。优选地,所述PSO利用遗传算法GA(GeneticAlgorithm)进行优化,GA优化PSO的方法包括以下步骤:1)对一群粒子包括其随机的位置以及速度进行初始化,使它们分散在整个空间中;第i个粒子表示第i个光谱向量xi=(xi1,xi2,…,xim),第i个粒子位置变化速度vi=(vi1,vi2,…,vim),一般而言,粒子数量取值范围为20~40;2)根据适应度函数计算每一个粒子的适应度;对每个粒子的位置对应的变量采用偏最小二乘回归法PLS(PartialLeastSquare)建模,并采用十折交叉验证确定PLS建模的最佳主成分数,将训练集的均方根误差作为适应度值;3)将每一个粒子的适应度值和这一粒子的历史最优位置相比较,粒子的历史最优位置记为gbest,如果当前的适应度值比较好,则将这一适应度值作为当前的最好位置gbest,反之,gbest不变;4)按照适应度的大小进行排序,对粒子进行杂交,计算子代粒子的位置和速度,将子代粒子的适应度和父代粒子的适应度进行比较,如果子代的适应度较好,则用子代的速度和位置替代父代的速度和位置;根据式1和式2计算子代粒子的速度和位置:childv=(v1+v2)*|v1|/|v1+v2|(1)childx=rand()*x1+(1-rand())*x2(2)其中,childv为子代粒子速度,childx为子代粒子位置,v1、v2为选择的要进行杂交的粒子的速度,x1、x2为选择的要进行杂交的粒子的位置,rand()是介于(0,1)之间的随机数;5)选择粒子进行变异,计算变异粒子的位置和速度,将变异粒子的适应度和原粒子的适应度进行比较,如果变异粒子的适应度较好,则用变异粒子替代原粒子的位置;根据式(3)计算变异粒子的位置:mutation=x3*(1+rand())(3)其中,x3为选择的要变异的粒子的位置,rand()是介于(0,1)之间的随机数;6)计算杂交变异后的粒子适应度,所有粒子发现的最优位置记为zbest,zbest是gbest之中最好的值,是整个群体在一次迭代中的全局最优位置,将每一个粒子的适应度值和所有粒子发现的最优位置的适应度值相比较;如果当前的适本文档来自技高网
...

【技术保护点】
1.基于Stacking集成框架的光谱特征变量选择与优化方法,其特征在于,包括以下步骤,/n步骤1:构建样本集,将样本集分为训练样本集和测试样本集;/n步骤2:在变量区间选择法、变量信息选择法、变量优化选择法大类中选出具有代表性的特征变量选择方法;/n步骤3:利用步骤2选出的特征变量选择方法构建多个基学习器,采用Stacking集成框架将基学习器集成,构建元学习器,将基学习器的输出作为元学习器的输入;/n步骤4:利用样本集对Stacking集成框架的基学习器和元学习器进行训练与测试;/n步骤4.1:采用训练样本集对Stacking集成框架的基学习器和元学习器进行训练;/n步骤4.2:采用测试样本集对Stacking集成框架的基学习器和元学习器进行测试;/n步骤5:将待检测光谱信息输入基学习器,依据元学习器的输出得到待检测光谱的检测结果。/n

【技术特征摘要】
1.基于Stacking集成框架的光谱特征变量选择与优化方法,其特征在于,包括以下步骤,
步骤1:构建样本集,将样本集分为训练样本集和测试样本集;
步骤2:在变量区间选择法、变量信息选择法、变量优化选择法大类中选出具有代表性的特征变量选择方法;
步骤3:利用步骤2选出的特征变量选择方法构建多个基学习器,采用Stacking集成框架将基学习器集成,构建元学习器,将基学习器的输出作为元学习器的输入;
步骤4:利用样本集对Stacking集成框架的基学习器和元学习器进行训练与测试;
步骤4.1:采用训练样本集对Stacking集成框架的基学习器和元学习器进行训练;
步骤4.2:采用测试样本集对Stacking集成框架的基学习器和元学习器进行测试;
步骤5:将待检测光谱信息输入基学习器,依据元学习器的输出得到待检测光谱的检测结果。


2.根据权利要求1所述的基于Stacking集成框架的光谱特征变量选择与优化方法,其特征在于,步骤1中,所述构建样本集,配置预定浓度范围的乙醇样本多个,获取各样本12000~4000cm-1波数范围内的近红外光谱信息,将样本按比例分成训练样本集和测试样本集。


3.基于Stacking集成框架的光谱特征变量选择与优化方法,其特征在于,所述样本集或待检测光谱信息输入基学习器前,采用标准正态变量变换法对样本集或待检测光谱信息进行预处理。


4.根据权利要求1所述的基于Stacking集成框架的光谱特征变量选择与优化方法,其特征在于,步骤2中,所述选出具有代表性的特征变量选择方法,选出的特征变量选择方法包括协同间隔偏最小二乘法、无信息变量的消除法、粒子群算法。


5.根据权利要求1所述的基于Stacking集成框架的光谱特征变量选择与优化方法,其特征在于,步骤3中,所述元学习器采用非线性的支持向量回归方法。


6.根据权利要求4所述的基于Stacking集成框架的光谱特征变量选择与优化方法,其特征在于,所述协同间隔偏最小二乘法的参数划分为20个区间。


7.根据权利要求4所述的基于Stacking集成框架的光谱特征变量选择与优化方法,其特征在于,所述粒子群算法利用遗传算法进行优化,遗传算法优化粒子群算法的方法包括以下步骤:
1)对一群粒子的位置以及速度进行初始化,使它们分散在整个解空间中;第i个粒子表示第i个光谱向量xi=(xi1,xi2,…,xim),第i个粒子位置变化速度vi=(vi1,vi2,…,vim);
2)根据适应度函数计算每一个粒子的适应度;对每个粒子的位置对应的变量采用偏最小二乘回归法建模,并采用十折交叉验证确定偏最小二乘回归法建模的最佳主成分数,将训练集的均方根误差作为适应度值;
3)将每一个粒子的适应度值和这一粒子的历史最优位置相比较,如果当前的适应度值比较好,则将这一...

【专利技术属性】
技术研发人员:任顺张畅任东徐守志杨信廷马凯张雄陆安祥
申请(专利权)人:三峡大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1