一种基于集成学习的近红外光谱定量建模方法技术

技术编号:16455300 阅读:30 留言:0更新日期:2017-10-25 18:26
一种基于集成学习的近红外光谱定量建模方法,包括:确定初始数据集,包含用于建模的校正集和验证的预测集,并对数据进行预处理;将校正集样本按照聚类的策略分成p类,从每类中随机抽取一个样本构成子模型的验证集,余下的部分构成该子模型的校正集;采用选取的定量建模方法对子模型的校正集进行训练,通过模型输出对初始数据集中预测集的预测误差信息进行统计,并获得以预测误差的方差为参数的权函数;重复上述步骤,构建出多个子模型,并对各个子模型按照预测误差的方差加权得到稳健性强的定量校正模型;利用稳健性强的整体定量校正模型结合预测集样本完成定量建模。本发明专利技术具有以下优点:使整个模型的输出结果更加接近真实值。

A method for quantitative modeling of near infrared spectroscopy based on Ensemble Learning

A near infrared spectroscopy quantitative modeling method based on ensemble learning includes: determining the initial data set, including for the prediction of calibration set and validation set of modeling, and data preprocessing; calibration set in accordance with the clustering strategy is divided into P categories, from each category were randomly selected from a sample of results the model set, the remaining parts of the calibration model; using quantitative modeling method on the model selection of the calibration set for training, the prediction error information through the output of the model to the initial data set for statistical prediction of concentration, weight function and variance to the prediction error for a parameter; repeat construct the sub model and the sub model according to the forecast error variance weighted quantitative robust calibration model; overall quantitative correction model using strong robustness Quantitative modeling based on prediction set samples. The present invention has the following advantages: the output of the whole model is closer to the true value.

【技术实现步骤摘要】
一种基于集成学习的近红外光谱定量建模方法
本专利技术涉及一种光谱分析技术,尤其涉及的是一种近红外光谱定量分析技术。
技术介绍
光谱分析技术特别是近红外光谱技术,具有快速、简单、非破坏性的特点,在复合体系诸如环境、化工、药品和食品中可以作为定量分析的手段。由于样品背景、噪声和谱带重叠的影响,通常需要借助化学计量学方法来建立光谱和测试对象的关联模型,因此基于化学计量学方法的多元校正技术在光谱分析中占据重要地位。传统的经典校正方法如偏最小二乘,将测量得到的光谱数据和实验对象的成分含量进行关联,经常会出现预测精度低和模型鲁棒性差的问题,究其原因,主要是因为基于经典校正方法的偏最小二乘建模对校正样中噪声和异常值敏感,且校正样本的数量和不均匀性等因素会使偏最小二乘建模方法对不同的校正样和预测样的分析效果相差很大,降低了模型的适用性。集成学习作为一种机器学习方法,它试图通过调用一些简单的学习算法,以获得多个不同的基学习机(通常是预测性能比较弱的学习机),然后采用某种策略将这些基学习机组合成一个集成学习机,由于它能显著提高一个学习系统的泛化能力,因此集成学习的理论和算法研究已经成了机器学习领域中的热点问题。目前集成学习方法结合多元校正产生了两类建模方法:Bagging和Boosting,两者主要的不同在于构建子模型的样品抽取方法和子模型的集成方法。其中Bagging采用有放回抽取的原则构造子模型校正样本集,其中会有部分样品重复出现,最后采用求平均的策略集合多个子模型;Boosting方法采用按概率抽取部分校正集样品构成子模型校正集的原则,随着迭代的进行更新各个样本被抽取的概率,按照训练集误差越大抽取概率越大的策略,实现了对误差较大样本的多次重复抽取,在子模型集成策略上,Boosting方法构造一个可信度指标,按照可信度指标越大权重越大的策略对迭代中产生的所有子模型预测结果进行加权求和。综上,现有的经典校正方法对校正样中的噪声信息和异常值敏感,样品数量的变化和不均匀性会导致所建立模型的预测精度下降和鲁棒性变差。传统Bagging方法按照有放回抽取的原则构造子模型的校正集样本,会导致子模型的校正集样本的均匀性不足,无法完全覆盖验证集,往往容易出现过拟合的情形。
技术实现思路
本专利技术所要解决的技术问题在于提供了一种使整个模型的输出结果更加接近真实值的基于集成学习的近红外光谱定量建模方法。本专利技术是通过以下技术方案解决上述技术问题的:一种基于集成学习的近红外光谱定量建模方法,包括以下步骤:步骤S101,确定初始数据集,包含用于建模的校正集(Xc,Yc)和验证的预测集(Xp,Yp),并对数据进行预处理;步骤S102,将初始数据集中的校正集样本按照聚类的策略分成p类,从每类中随机抽取一个样本构成子模型的验证集,余下的部分构成该子模型的校正集;步骤S103,采用选取的定量建模方法对子模型的校正集进行训练,通过模型输出对初始数据集中预测集的预测误差信息进行统计,并获得以预测误差的方差为参数的权函数;步骤S104,重复步骤102和步骤103一定次数,构建出多个子模型,并对各个子模型按照预测误差的方差加权得到稳健性强的定量校正模型;步骤S105,利用稳健性强的整体定量校正模型结合预测集样本完成定量建模。作为优化的技术方案,在步骤S101中,对光谱数据进行预处理,包括:求导,归一化,平滑,背景扣除。作为优化的技术方案,在步骤S102中,对光谱数据进行聚类分析,将样本分成p类,同时对参与建模样本的化学含量数据进行聚类。作为优化的技术方案,在步骤S103中,建模方法选取以下任一种:偏最小二乘、主成分回归,独立分量分析。作为优化的技术方案,所述步骤S104的具体步骤为:步骤S201:从整体模型中的校正集(Xc,Yc)选取子模型的校正集样本(Xi,Yi)和验证集样品(Xt,Yt);步骤S202:选取定量校正方法构成弱学习机对子模型进行训练;步骤S203:利用选取的子模型校正集数据(Xi,Yi)和定量建模方法建立该子模型Yi=Xi*betai+Ei,并得到该子模型的输出参数betai,根据betai对子模型验证集样品(Xt,Yt)进行预测Ypred=Xt*betai+Ep,得到预测误差Ep=|Yt-Ypred|;步骤S204:重复步骤S201,S202和S203x次得到x个子模型对各自验证集样品(Xt,Yt)的预测误差的方差;步骤S205:利用各个子模型的方差构造权重函数;步骤S206:利用权重函数修正各子模型的输出参数betai(i=1...x);步骤S207:利用修正后的输出参数构成整体模型。作为优化的技术方案,在步骤S203中,预测误差E的获取方式为:统计第i个子模型中的预测误差其中Yic为验证集样品中第c个组分的含量数据,i取值1-x,c取值1-k,为第i个子模型对验证集样品中第c个组分的预测结果,记Eic为(ei1,ei2,…,eik)。作为优化的技术方案,在步骤S204中,统计出各个子模型的预测误差的方差记为Vi=Var(ei1,ei2,…,eik)。作为优化的技术方案,在步骤S204中,也可以按照下式统计出各个子模型相对预测误差的方差:Vi=Var(ei1/yi1,ei2/yi2,…,eik/yik)。作为优化的技术方案,步骤S205中,按照方差越大则该子模型权重越小的原则构造出高斯型权函数重复步骤S201/S202/S203和S204计x次,得到x个子模型对应的高斯型权函数和预测系数betax,分别对x个模型求取预测系数的加权函数,第i个子模型的权函数为采用集成学习的思想,构造整体模型的预测系数newbeta,其计算方式如下:newbeta=diag(W)*betax其中diag(W)由各个子模型权函数wi构成的对角矩阵。作为优化的技术方案,在步骤S206中,利用权重函数修正各子模型的输出参数beta为newbeta;在步骤S207中,通过对x个子模型的加权得到经过集成学习后的模型为:Y=X*newbeta+E在上述模型中输入S101中的验证集样品的光谱数据即获得该整体模型的预测性能。本专利技术相比现有技术具有以下优点:本专利技术将传统经典的多元校正方法构成集成学习中的弱学习机,按照样品聚类的原则构建多个校正模型的样本空间,有效提高子模型的校正集样本的多样性和代表性,通过高斯加权加权方法将这些弱学习机组合成一个集成学习机,降低预测误差较大的子模型对整体结果的影响,可以有效提高定量校正模型的泛化能力,使其对验证集样品的预测结果更加准确。本专利技术所述的定量校正方法不仅适用于近红外光谱,同样适用于紫外吸收光谱、荧光光谱、质谱、色谱等多变量校正的光谱分析体系。附图说明图1是本专利技术实施例的基于集成学习的近红外光谱定量建模方法的流程图;图2是本专利技术实施例中的对各个子模型按照预测误差的方差加权得到稳健性强的定量校正模型的流程图。具体实施方式下面对本专利技术的实施例作详细说明,本实施例在以本专利技术技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本专利技术的保护范围不限于下述的实施例。如图1所示,本专利技术实施的基于集成学习的近红外光谱定量建模方法包括以下步骤:步骤S101,确定初始数据集,包含用于建模的校正集和验证的预测集,并对数据进行预处理;步骤S本文档来自技高网
...
一种基于集成学习的近红外光谱定量建模方法

【技术保护点】
一种基于集成学习的近红外光谱定量建模方法,其特征在于,包括以下步骤:步骤S101,确定初始数据集,包含用于建模的校正集(Xc,Yc)和验证的预测集(Xp,Yp),并对数据进行预处理;步骤S102,将初始数据集中的校正集样本按照聚类的策略分成p类,从每类中随机抽取一个样本构成子模型的验证集,余下的部分构成该子模型的校正集;步骤S103,采用选取的定量建模方法对子模型的校正集进行训练,通过模型输出对初始数据集中预测集的预测误差信息进行统计,并获得以预测误差的方差为参数的权函数;步骤S104,重复步骤102和步骤103一定次数,构建出多个子模型,并对各个子模型按照预测误差的方差加权得到稳健性强的定量校正模型;步骤S105,利用稳健性强的整体定量校正模型结合预测集样本完成定量建模。

【技术特征摘要】
1.一种基于集成学习的近红外光谱定量建模方法,其特征在于,包括以下步骤:步骤S101,确定初始数据集,包含用于建模的校正集(Xc,Yc)和验证的预测集(Xp,Yp),并对数据进行预处理;步骤S102,将初始数据集中的校正集样本按照聚类的策略分成p类,从每类中随机抽取一个样本构成子模型的验证集,余下的部分构成该子模型的校正集;步骤S103,采用选取的定量建模方法对子模型的校正集进行训练,通过模型输出对初始数据集中预测集的预测误差信息进行统计,并获得以预测误差的方差为参数的权函数;步骤S104,重复步骤102和步骤103一定次数,构建出多个子模型,并对各个子模型按照预测误差的方差加权得到稳健性强的定量校正模型;步骤S105,利用稳健性强的整体定量校正模型结合预测集样本完成定量建模。2.根据权利要求1所述的一种基于集成学习的近红外光谱定量建模方法,其特征在于,在步骤S101中,对光谱数据进行预处理,包括:求导,归一化,平滑,背景扣除。3.根据权利要求1所述的一种基于集成学习的近红外光谱定量建模方法,其特征在于,在步骤S102中,对光谱数据进行聚类分析,将样本分成p类,同时也可以根据参与建模样本的化学含量数据进行聚类分析。4.根据权利要求1所述的一种基于集成学习的近红外光谱定量建模方法,其特征在于,在步骤S103中,建模方法选取以下任一种:偏最小二乘、主成分回归、独立分量分析。5.根据权利要求1所述的一种基于集成学习的近红外光谱定量建模方法,其特征在于,所述步骤S104的具体步骤为:步骤S201:从整体模型中的校正集(Xc,Yc)选取子模型的校正集样本(Xi,Yi)和验证集样品(Xt,Yt);步骤S202:选取定量校正方法构成弱学习机对子模型进行训练;步骤S203:利用选取的子模型校正集数据(Xi,Yi)和定量建模方法建立该子模型Yi=Xi*betai+Ei,并得到该子模型的输出参数betai,根据betai对子模型验证集样品(Xt,Yt)进行预测Ypred=Xt*betai+Ep,得到预测误差Ep=|Yt-Ypred|;步骤S204:重复步骤S201,S202和S203x次得到x个子模型对各自...

【专利技术属性】
技术研发人员:刘晶吴跃进王琦余立祥刘斌美倪晓宇杨阳周子军杨叶詹玥
申请(专利权)人:中国科学院合肥物质科学研究院
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1