当前位置: 首页 > 专利查询>温州大学专利>正文

一种基于样本共识的近红外光谱建模方法技术

技术编号:20026060 阅读:28 留言:0更新日期:2019-01-06 04:52
本发明专利技术公开了一种基于样本共识的近红外光谱建模方法,包括以下步骤:选取n个样本,测定某一有机物样本参考值,记为列向量Y,采集n个样本的近红外光谱数据,记为矩阵X,对矩阵X进行预处理,记为矩阵Xpre,将样本参考值列向量Y和光谱数据矩阵Xpre进行合并,记为矩阵Z,选取矩阵Z中n/4的样本数据作为预测集记为Zp,按照比例r对矩阵Z中剩余的3n/4的样本数据进行s次随机划分得到矩阵Zc,以每个Zc为建模集、Zp为预测集分别建立s个偏最小二乘回归子模型,再采用样本共识算法计算出模型表达式。本发明专利技术的有益效果是在当前样本数据较少的情况下,提出一种样本共识模型,此模型可以充分利用采集到的样本信息,提升检测模型的精度。

【技术实现步骤摘要】
一种基于样本共识的近红外光谱建模方法
本专利技术涉及化学计量学和光谱学领域领域,特别涉及一种基于样本共识的近红外光谱建模方法。
技术介绍
近红外光谱的波数范围为12500~4000cm-1,其光谱信息的来源于此区域有机物含氢官能团的倍频和合频吸收。随着近些年近红外光谱技术的快速发展,以及近红外光谱技术本身所具有快速、无损、安全、样品无需预处理和无需有毒有害化学试剂等优点,使得近红外光谱技术已经被广泛的应用于有机物定性和定量分析中。虽然近红外光谱技术具有方便、简单、快速等特点,但在实际样本的近红外光谱信息采集过程中,会由于采集样本对象本身所具有的限制(例如样本稀少、样本的季节性、储藏性时间短等特性)或外界环境的限制(例如经济条件、实验时间、仪器的复杂性等条件限制),使得实际中采集到的样本数据较少,导致构建的定性和定量检测模型具有较低的准确性和稳定性。
技术实现思路
本专利技术要解决的技术问题是提供在一定程度上解决模型样本数据较少的问题,并且提升模型的准确性和鲁棒性的基于样本共识的近红外光谱建模方法。为解决上述技术问题,本专利技术是通过以下技术方案实现的:一种基于样本共识的近红外光谱建模方法,包括以下步骤:步骤1,选取n个样本,通过标准化学方法测定某一有机物的样本参考值,记为列向量Y;步骤2,采集n个样本的近红外光谱数据,记为矩阵X;步骤3,对矩阵X选用一阶导数、二阶导数、矢量归一化、多元散射校正或平滑处理中的一种或多种方法进行预处理,记为矩阵Xpre;步骤4,将样本参考值列向量Y和光谱数据矩阵Xpre进行合并,记为样本数据矩阵Z,Z=[YXpre];步骤5,采用蒙特卡洛取样法随机选取矩阵Z中n/4的样本数据作为预测集记为Zp,Zp中属于列向量Y的部分为Yp,属于Xpre的部分为XP,Zp=[YpXP];步骤6,按照比例r对矩阵Z中剩余的3/4的样本数据进行随机划分得到矩阵Zc,其中r∈[0.5,0.9],以Zc为建模集、Zp为预测集,建立子模型的偏最小二乘回归模型;步骤7,重复步骤6的操作,对矩阵Z中剩余的3n/4的样本数据进行s次随机划分,以每次得到的Zc为建模集、固定的Zp为预测集分别建立s个偏最小二乘回归子模型f1(x)、f2(x)、f3(x)…fk(x)…fs(x);步骤8,根据步骤7中建立的s个偏最小二乘回归子模型对预测集样本进行预测,并分别计算每个子模型预测值与真实参考值之间的误差,然后计算出s个子模型的权重系数w1、w2、w3…wk…ws,其中wk为第k个子模型的权重系数,权重系数的计算公式为:步骤9,基于权重系数w1、w2、w3…wk…ws对s个子模型进行样本共识,得到预测精度更高、鲁棒性更优的模型f(x),样本共识计算公式为:进一步的:步骤6中r=0.6,步骤7中s=30。本专利技术的有益效果是在当前样本数据较少的情况下,提出一种样本共识模型,此模型通过建立多个偏最小二乘子模型,并对这些子模型进行共识计算,相比于单个偏最小二乘回归模型,共识后模型f(x)的RMSEP值更低,说明共识模型充分利用了采集到的样本信息,提升检测模型的精度,RMSEC与RMSEP之间的差值减少,说明共识模型提升了检测模型的鲁棒性。附图说明图1为本专利技术的实施流程图。具体实施方式为了使本专利技术的技术方案更加清楚明白,以下结合附图及实施例,对本专利技术作进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。参考图1,本专利技术提供一种基于样本共识的近红外光谱建模方法,下面以玉米样本为例解释本专利技术,包括以下步骤:S1:选取80个玉米目标样本,测定玉米的淀粉含量作为样本参考值,记为列向量Y。S2:采集80个玉米样本的近红外光谱数据,记为矩阵X,光谱范围为1100-2498nm,间隔为2nm,共700个波段。S3:对矩阵X进行一阶导数的Savitzky–Golay预处理,记为矩阵Xpre。S4:将样本参考值列向量Y和光谱数据矩阵Xpre进行合并,记为样本数据矩阵Z,Z=[YXpre]。S5:采用蒙特卡洛取样法随机选取矩阵Z中20个的样本数据作为预测集记为Zp,Zp中属于列向量Y的部分为Yp,属于Xpre的部分为XP,Zp=[YpXP]。S6:对样本矩阵Z中剩余的60个样本数据按照比例r=0.6随机划分得到矩阵Zc,以Zc为建模集、Zp为预测集,建立偏最小二乘回归子模型。S7:重复步骤6的操作,对矩阵Z中剩余的60个样本数据进行30次划分,以每次得到的Zc为建模集、Zp为预测集分别建立30个偏最小二乘回归子模型f1(x)、f2(x)、f3(x)…fk(x)…fs(x)。S8:根据步骤7中的30个偏最小二乘回归子模型对预测集样本进行预测,并分别计算每个子模型预测值与真实参考值之间的误差,然后计算出30个子模型的权重系数w1、w2、w3…w30,权重系数的计算公式为。S9:基于权重系数w1、w2、w3…w30对30个子模型进行样本共识,得到预测精度更高、鲁棒性更优的模型f(x),样本共识计算公式为:f(x)=∑kwkfk(x)。以上实施例仅仅是对本专利技术的解释,其并不是对本专利技术的限制,对于本领域的普通技术人员来说,在不脱离本专利技术原理的前提下,还可以做出若干变形和改进,这些都属于本专利技术的保护范围,因此本专利技术专利的保护范围应以权利要求为准。本文档来自技高网...

【技术保护点】
1.一种基于样本共识的近红外光谱建模方法,其特征在于包括以下步骤:步骤1,选取n个样本,其中n为小于100的正整数,通过标准化学方法测定某一有机物样本参考值,记为列向量Y;步骤2,采集n个样本的近红外光谱数据,记为矩阵X;步骤3,对矩阵X选用一阶导数、二阶导数、矢量归一化、多远散射校正或平滑处理中的一种或多种方法进行预处理,记为矩阵Xpre;步骤4,将样本参考值列向量Y和光谱数据矩阵Xpre进行合并,记为样本数据矩阵Z,Z=[YXpre];步骤5,采用蒙特卡洛特取样法随机选取样本数据矩阵Z中n/4的样本数据作为预测集记为Zp,Zp中属于列向量Y的部分为Yp,属于Xpre的部分为XP,Zp=[YpXP];步骤6,对样本数据矩阵Z中剩余的3n/4样本按照比例r随机划分得到样本集矩阵Zc,其中r∈[0.5,0.9],以样本集矩阵Zc为建模集、Zp为预测集,建立偏最小二乘回归子模型;步骤7,重复步骤6的操作,对矩阵Z中剩余的3n/4的样本数据进行s次随机划分,以每次得到的Zc为建模集、固定的Zp为预测集分别建立s个偏最小二乘回归子模型f1(x)、f2(x)、f3(x)…fk(x)…fs(x);步骤8,根据步骤7中建立的s个偏最小二乘回归子模型对预测集样本进行预测,并分别计算每个子模型预测值与真实参考值之间的误差,然后计算出s个子模型的权重系数w1、w2、w3…wk…ws,其中wk为第k个子模型的权重系数,权重系数的计算公式为:...

【技术特征摘要】
1.一种基于样本共识的近红外光谱建模方法,其特征在于包括以下步骤:步骤1,选取n个样本,其中n为小于100的正整数,通过标准化学方法测定某一有机物样本参考值,记为列向量Y;步骤2,采集n个样本的近红外光谱数据,记为矩阵X;步骤3,对矩阵X选用一阶导数、二阶导数、矢量归一化、多远散射校正或平滑处理中的一种或多种方法进行预处理,记为矩阵Xpre;步骤4,将样本参考值列向量Y和光谱数据矩阵Xpre进行合并,记为样本数据矩阵Z,Z=[YXpre];步骤5,采用蒙特卡洛特取样法随机选取样本数据矩阵Z中n/4的样本数据作为预测集记为Zp,Zp中属于列向量Y的部分为Yp,属于Xpre的部分为XP,Zp=[YpXP];步骤6,对样本数据矩阵Z中剩余的3n/4样本按照比例r随机划分得到样本集矩阵Zc,其中r∈[0.5,0.9],以样本集矩阵Zc为建模...

【专利技术属性】
技术研发人员:陈孝敬李理敏石文袁雷明
申请(专利权)人:温州大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1