基于集成学习校准模型的松子蛋白质含量预测方法技术

技术编号:26508402 阅读:22 留言:0更新日期:2020-11-27 15:36
基于集成学习校准模型的松子蛋白质含量预测方法,它属于食品成分检测技术领域。本发明专利技术解决了利用现有近红外校准模型对松子中蛋白质含量预测的准确率低的问题。本发明专利技术对松子的近红外光谱数据进行预处理,并在预处理结束后选用局部切线空间对齐、等距特征映射、局部线性嵌入与主成分分析对预处理后光谱数据进行特征提取;然后使用提取的特征数据集建立松子蛋白质含量与光谱数据的偏最小二乘模型;最后依据stacking法作为集成策略,以BP神经网络为次级学习器,输出最终松子蛋白质含量结果。本发明专利技术方法对光谱数据利用程度更高,充分利用了近红外光谱中复杂的空间特征,提高了校准模型预测的准确率。本发明专利技术可以应用于松子中蛋白质含量预测。

【技术实现步骤摘要】
基于集成学习校准模型的松子蛋白质含量预测方法
本专利技术涉及食品成分检测
,具体涉及一种基于集成学习校准模型的松子蛋白质含量预测方法。
技术介绍
近红外光谱建模技术是测定实验样品的近红外光谱波段内的一系列反射率、透射率以及实验样品的理化特性后,使用统计学方法,优选光谱波段并建立实验样品理化特性与近红外光谱的校准模型,使用所建立的校准模型预测其他样品理化特性的一种技术。校准模型大多选用PLS、PCR、MCR等传统统计模型,近年来随着机器学习与数据挖掘领域的发展,越来越多的机器学习方法也被用于近红外光谱建模中。流形学习是机器学习的一个分支,流形学习能够捕捉高维空间中复杂的拓扑结构以及低维流形,图1为瑞士卷数据集,数据符合低维流形结构。面对近红外光谱这种高维空间复杂数据,较之PCA方法,流形学习方法对光谱数据中的低维流形与非线性结构更加敏感。流形学习主要方法包括等距离映射(isomap)、局部线性嵌入(LocallyLinearEmbedding,LLE)、海森特征映射(HessianEigenmapping)、谱嵌入(SpectralEmbedding)、多维缩放(Multidimensionalscaling,MDS)、t-SNE以及局部切空间排列(LTSA)等方法。集成学习,也称强化学习,是机器学习的另一个分支。集成学习通过构建并结合多个弱学习器来完成建模任务,大多数情况下,集成学习模型比单一机器学习模型与统计模型拥有更高的泛化性能与准确率。集成学习分为构建弱学习器策略与结合策略,其中构建弱学习器策略主要有:adaboost方法、bagging与随机森林方法;结合策略主要有:平均法、投票法与学习法。目前,主流近红外光谱建模方法大多使用PCA、SPA等特征提取与光谱优选方法提取光谱数据后,使用PLS、BiPLS等模型建立近红外光谱校准模型,由于使用所建立的校准模型可以预测其他样品的理化特性,因此,可以将建立的近红外光谱校准模型应用于食品中成分含量的预测。由于松子中蛋白质含量很高,且蛋白质含量是衡量不同松子质量的一个重要标准,因此对松子中的蛋白质含量进行预测十分必要。虽然利用现有方法建立的近红外光谱校准模型可以对松子中的蛋白质含量进行预测,但是现有方法存在的问题是没有充分利用近红外所包含的大量信息,尤其是近红外光谱中复杂的空间特征,PCA与SPA特征提取与光谱优选方法造成的数据损失较大,最终校准模型对松子中蛋白质含量预测的准确率较低。
技术实现思路
本专利技术的目的是为解决现有方法在建立近红外校准模型时没有充分利用近红外光谱中复杂的空间特征,导致利用现有近红外校准模型对松子中蛋白质含量预测的准确率低的问题,而提出了一种基于集成学习校准模型的松子蛋白质含量预测方法。本专利技术为解决上述技术问题采取的技术方案是:基于集成学习校准模型的松子蛋白质含量预测方法,所述方法具体包括以下步骤:步骤一、采集松子样品的原始光谱数据样本,样本数量为m,再分别对各个原始光谱数据样本进行预处理,获得预处理后的近红外光谱数据;步骤二、分别采用LTSA、isomap、LLE与PCA方法提取预处理后的近红外光谱数据特征,获得采用四种方法提取出的四组特征向量;步骤三、选用boosting集成学习算法建立用于松子蛋白质含量预测的校准模型,并对校准模型进行训练,获得训练好的校准模型;所述校准模型由四个弱学习器和BP神经网络组成;且所述的四个弱学习器是分别基于步骤二提取出的四组特征向量建立的;步骤四、对于蛋白质含量待测的松子原始光谱数据,对待测数据进行步骤一和步骤二的处理后,获得待测数据的四组特征向量,将获得的四组特征向量输入校准模型,将校准模型的输出作为蛋白质含量的预测结果。本专利技术的有益效果是:本专利技术提出了一种基于集成学习校准模型的松子蛋白质含量预测方法,本专利技术使用标准正态变换与Savitzky-Golay平滑滤波对松子的近红外光谱数据进行预处理,并在预处理结束后,选用局部切线空间对齐(LTSA)、等距特征映射(isomap)、局部线性嵌入(LLE)与主成分分析(PCA)对预处理后光谱数据进行特征提取;然后使用提取得到的特征数据集建立松子蛋白质含量与光谱数据的偏最小二乘模型;最后依据stacking法作为集成策略,以BP神经网络为次级学习器,输出最终松子蛋白质含量结果。相比较于现有方法,本专利技术方法对光谱数据利用程度更高,充分利用了近红外光谱中复杂的空间特征,提高了校准模型预测的准确率。附图说明图1为瑞士卷数据集的示意图;图2为光谱仪采集到的松子样品原始光谱图;图3为SG平滑滤波后的光谱数据曲线图;图4为经预处理后的松子近红外光谱数据曲线图;图5是本专利技术方法的流程图;图6是采用PCA-PLS校准模型的回归结果图;图7是采用SPA-PLS校准模型的回归结果图;图8是采用本专利技术校准模型的回归结果图。具体实施方式具体实施方式一:结合图5说明本实施方式。本实施方式所述的一种基于集成学习校准模型的松子蛋白质含量预测方法,所述方法具体通过以下步骤实现:步骤一、采集松子样品的原始光谱数据样本,样本数量为m,再分别对各个原始光谱数据样本进行预处理,获得预处理后的近红外光谱数据;步骤二、分别采用LTSA(局部切线空间对齐)、isomap(等距特征映射)、LLE(局部线性嵌入)与PCA(主成分分析)方法提取预处理后的近红外光谱数据特征,获得采用四种方法提取出的四组特征向量;步骤三、选用boosting集成学习算法建立用于松子蛋白质含量预测的校准模型,并对校准模型进行训练,获得训练好的校准模型;所述校准模型由四个弱学习器和BP神经网络组成;且所述的四个弱学习器是分别基于步骤二提取出的四组特征向量建立的;步骤四、对于蛋白质含量待测的松子原始光谱数据,对待测数据进行步骤一和步骤二的处理后,获得待测数据的四组特征向量,将获得的四组特征向量输入校准模型,将校准模型的输出作为蛋白质含量的预测结果。本专利技术通过不同流形学习与降维方法,将近红外高维原始数据映射在不同的流形子空间中,分析高维光谱数据在低维流形空间中的性质并建立相应的弱学习器模型。本专利技术做法的理论依据是,近红外光谱数据通常具有某些特殊的低维流形结构,集成学习校准模型能够组合多个弱学习模型建立一个鲁棒性更强、泛化性能更加优秀的校准模型,相较于传统PLS、iPLS与BiPLS方法,本实验能够将光谱数据中存在的低维流形结构融入所建立的校正模型中,从而提高预测精度。具体实施方式二:本实施方式是对具体实施方式一的进一步具体说明,所述步骤一中,分别对各个原始光谱数据样本进行预处理,预处理采用的方法是标准正态变换(standardnormalvariate,SNV)和SG(Savitzky-Golay)平滑滤波。本实施方式对松子样品的近红外光谱数据进行预处理,其目的是消除样品表面散射干扰、本文档来自技高网
...

【技术保护点】
1.基于集成学习校准模型的松子蛋白质含量预测方法,其特征在于,所述方法具体通过以下步骤实现:/n步骤一、采集松子样品的原始光谱数据样本,样本数量为m,再分别对各个原始光谱数据样本进行预处理,获得预处理后的近红外光谱数据;/n步骤二、分别采用LTSA、isomap、LLE与PCA方法提取预处理后的近红外光谱数据特征,获得采用四种方法提取出的四组特征向量;/n步骤三、选用boosting集成学习算法建立用于松子蛋白质含量预测的校准模型,并对校准模型进行训练,获得训练好的校准模型;/n所述校准模型由四个弱学习器和BP神经网络组成;且所述的四个弱学习器是分别基于步骤二提取出的四组特征向量建立的;/n步骤四、对于蛋白质含量待测的松子原始光谱数据,对待测数据进行步骤一和步骤二的处理后,获得待测数据的四组特征向量,将获得的四组特征向量输入校准模型,将校准模型的输出作为蛋白质含量的预测结果。/n

【技术特征摘要】
1.基于集成学习校准模型的松子蛋白质含量预测方法,其特征在于,所述方法具体通过以下步骤实现:
步骤一、采集松子样品的原始光谱数据样本,样本数量为m,再分别对各个原始光谱数据样本进行预处理,获得预处理后的近红外光谱数据;
步骤二、分别采用LTSA、isomap、LLE与PCA方法提取预处理后的近红外光谱数据特征,获得采用四种方法提取出的四组特征向量;
步骤三、选用boosting集成学习算法建立用于松子蛋白质含量预测的校准模型,并对校准模型进行训练,获得训练好的校准模型;
所述校准模型由四个弱学习器和BP神经网络组成;且所述的四个弱学习器是分别基于步骤二提取出的四组特征向量建立的;
步骤四、对于蛋白质含量待测的松子原始光谱数据,对待测数据进行步骤一和步骤二的处理后,获得待测数据的四组特征向量,将获得的四组特征向量输入校准模型,将校准模型的输出作为蛋白质含量的预测结果。


2.根据权利要求1所述的基于集成学习校准模型的松子蛋白质含量预测方法,其特征在于,所述步骤一中,分别对各个原始光谱数据样本进行预处理,预处理采用的方法是标准正态变换和SG平滑滤波。


3.根据权利要求1所述的基于集成学习校准模型的松子蛋白质含量预测方法,其特征在于,所述步骤一的具体过程为:
步骤一一、对于第i个原始光谱数据样本,设光程位置序号为j,j=1,2,…,l,l代表光程的总个数,为利用p阶多项式对第j个光程位置的原始光谱数据进行拟合而得到的近红外光谱数据;



其中,aj′为权值系数,j′=0,1,…,p,p阶多项式拟合的窗口宽度为2q+1,λ为窗口宽度波长范围内的吸光度;
采用最小二乘法,计算通过多项式拟合得到的近红外光谱数据与原始光谱数据间的最小误差ε:



其中,xj,λ为第j个光程位置的原始光谱数据,当时,求得最小误差ε对应的权值系数aj′,j′=0,1,…,p;
步骤一二、采用标准正态变换方法对拟合得到的近红外光谱数据进行标准正态变换,则第i个原始光谱数据样本中第j个光程位置对应的预处理后近红外光谱数据xi,j,SNV为:



其中:为对第i个原始光谱数据样本进行拟合得到的近红外光谱数据中各光程位置数据的平均值,则第i个原始光谱数据样本对应的预处理后近红外光谱数据xi,SNV为:xi,SNV=(xi,1,SNV,xi,2,SNV,…,xi,l,SNV);
步骤一三、重复步骤一一和步骤一二的过程,分别对各原始光谱数据样本进行预处理,分别获得各原始光谱数据样本对应的预处理后近红外光谱数据。


4.根据权利要求3所述的基于集成学习校准模型的松子蛋白质含量预测方法,其特征在于,所述步骤三的具体过程为:
步骤三一、基于步骤二获得的四组特征向量,分别采用PLS方法建立四个弱学习器,建立好弱学习器后,将获得的四组特征向量分别输入对应的弱学习器;
利用输入的特征向量对弱学习器进行训练,直至达到设置的最大训练次数时停止训练,获得训练好的弱学习器;
步骤三二、将四个训练好的弱学习器的输出结果作为BP神经网络的输入,利用输入对BP神经网络进行训练,直至达到设置的最大训练次数时停止训练,获得训练好的BP神经网络。


5.根据权利要求1所述的基于集成学习校准模型的松子蛋白质含量预测方法,其特征在于,所述boos...

【专利技术属性】
技术研发人员:张冬妍蒋大鹏李鸿博李丹丹曹军
申请(专利权)人:东北林业大学
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1