基于集成学习校准模型的松子蛋白质含量预测方法技术

技术编号：26508402 阅读：22 留言：0更新日期：2020-11-27 15:36

基于集成学习校准模型的松子蛋白质含量预测方法，它属于食品成分检测技术领域。本发明专利技术解决了利用现有近红外校准模型对松子中蛋白质含量预测的准确率低的问题。本发明专利技术对松子的近红外光谱数据进行预处理，并在预处理结束后选用局部切线空间对齐、等距特征映射、局部线性嵌入与主成分分析对预处理后光谱数据进行特征提取；然后使用提取的特征数据集建立松子蛋白质含量与光谱数据的偏最小二乘模型；最后依据stacking法作为集成策略，以BP神经网络为次级学习器，输出最终松子蛋白质含量结果。本发明专利技术方法对光谱数据利用程度更高，充分利用了近红外光谱中复杂的空间特征，提高了校准模型预测的准确率。本发明专利技术可以应用于松子中蛋白质含量预测。

全部详细技术资料下载

【技术实现步骤摘要】
基于集成学习校准模型的松子蛋白质含量预测方法
本专利技术涉及食品成分检测
，具体涉及一种基于集成学习校准模型的松子蛋白质含量预测方法。
技术介绍
近红外光谱建模技术是测定实验样品的近红外光谱波段内的一系列反射率、透射率以及实验样品的理化特性后，使用统计学方法，优选光谱波段并建立实验样品理化特性与近红外光谱的校准模型，使用所建立的校准模型预测其他样品理化特性的一种技术。校准模型大多选用PLS、PCR、MCR等传统统计模型，近年来随着机器学习与数据挖掘领域的发展，越来越多的机器学习方法也被用于近红外光谱建模中。流形学习是机器学习的一个分支，流形学习能够捕捉高维空间中复杂的拓扑结构以及低维流形，图1为瑞士卷数据集，数据符合低维流形结构。面对近红外光谱这种高维空间复杂数据，较之PCA方法，流形学习方法对光谱数据中的低维流形与非线性结构更加敏感。流形学习主要方法包括等距离映射(isomap)、局部线性嵌入(LocallyLinearEmbedding,LLE)、海森特征映射(HessianEigenmapping)、谱嵌入(SpectralEmbedding)、多维缩放(Multidimensionalscaling,MDS)、t-SNE以及局部切空间排列(LTSA)等方法。集成学习，也称强化学习，是机器学习的另一个分支。集成学习通过构建并结合多个弱学习器来完成建模任务，大多数情况下，集成学习模型比单一机器学习模型与统计模型拥有更高的泛化性能与准确率。集成学习分为构建弱学习器策略与结合策略，其中构建弱学习...

【技术保护点】
1.基于集成学习校准模型的松子蛋白质含量预测方法，其特征在于，所述方法具体通过以下步骤实现：/n步骤一、采集松子样品的原始光谱数据样本，样本数量为m，再分别对各个原始光谱数据样本进行预处理，获得预处理后的近红外光谱数据；/n步骤二、分别采用LTSA、isomap、LLE与PCA方法提取预处理后的近红外光谱数据特征，获得采用四种方法提取出的四组特征向量；/n步骤三、选用boosting集成学习算法建立用于松子蛋白质含量预测的校准模型，并对校准模型进行训练，获得训练好的校准模型；/n所述校准模型由四个弱学习器和BP神经网络组成；且所述的四个弱学习器是分别基于步骤二提取出的四组特征向量建立的；/n步骤四、对于蛋白质含量待测的松子原始光谱数据，对待测数据进行步骤一和步骤二的处理后，获得待测数据的四组特征向量，将获得的四组特征向量输入校准模型，将校准模型的输出作为蛋白质含量的预测结果。/n

【技术特征摘要】
1.基于集成学习校准模型的松子蛋白质含量预测方法，其特征在于，所述方法具体通过以下步骤实现：
步骤一、采集松子样品的原始光谱数据样本，样本数量为m，再分别对各个原始光谱数据样本进行预处理，获得预处理后的近红外光谱数据；
步骤二、分别采用LTSA、isomap、LLE与PCA方法提取预处理后的近红外光谱数据特征，获得采用四种方法提取出的四组特征向量；
步骤三、选用boosting集成学习算法建立用于松子蛋白质含量预测的校准模型，并对校准模型进行训练，获得训练好的校准模型；
所述校准模型由四个弱学习器和BP神经网络组成；且所述的四个弱学习器是分别基于步骤二提取出的四组特征向量建立的；
步骤四、对于蛋白质含量待测的松子原始光谱数据，对待测数据进行步骤一和步骤二的处理后，获得待测数据的四组特征向量，将获得的四组特征向量输入校准模型，将校准模型的输出作为蛋白质含量的预测结果。

2.根据权利要求1所述的基于集成学习校准模型的松子蛋白质含量预测方法，其特征在于，所述步骤一中，分别对各个原始光谱数据样本进行预处理，预处理采用的方法是标准正态变换和SG平滑滤波。

3.根据权利要求1所述的基于集成学习校准模型的松子蛋白质含量预测方法，其特征在于，所述步骤一的具体过程为：
步骤一一、对于第i个原始光谱数据样本，设光程位置序号为j，j＝1,2,…,l，l代表光程的总个数，为利用p阶多项式对第j个光程位置的原始光谱数据进行拟合而得到的近红外光谱数据；

其中，aj′为权值系数，j′＝0,1,…,p，p阶多项式拟合的窗口宽度为2q+1，λ为窗口宽度波长范围内的吸光度；
采用最小二乘法，计算通过多项式拟合得到的近红外光谱数据与原始光谱数据间的最小误差ε：

其中，xj,λ为第j个光程位置的原始光谱数据，当时，求得最小误差ε对应的权值系数aj′，j′＝0,1,…,p；
步骤一二、采用标准正态变换方法对拟合得到的近红外光谱数据进行标准正态变换，则第i个原始光谱数据样本中第j个光程位置对应的预处理后近红外光谱数据xi,j,SNV为：

其中：为对第i个原始光谱数据样本进行拟合得到的近红外光谱数据中各光程位置数据的平均值，则第i个原始光谱数据样本对应的预处理后近红外光谱数据xi,SNV为：xi,SNV＝(xi,1,SNV，xi,2,SNV，…，xi,l,SNV)；
步骤一三、重复步骤一一和步骤一二的过程，分别对各原始光谱数据样本进行预处理，分别获得各原始光谱数据样本对应的预处理后近红外光谱数据。

4.根据权利要求3所述的基于集成学习校准模型的松子蛋白质含量预测方法，其特征在于，所述步骤三的具体过程为：
步骤三一、基于步骤二获得的四组特征向量，分别采用PLS方法建立四个弱学习器，建立好弱学习器后，将获得的四组特征向量分别输入对应的弱学习器；
利用输入的特征向量对弱学习器进行训练，直至达到设置的最大训练次数时停止训练，获得训练好的弱学习器；
步骤三二、将四个训练好的弱学习器的输出结果作为BP神经网络的输入，利用输入对BP神经网络进行训练，直至达到设置的最大训练次数时停止训练，获得训练好的BP神经网络。

5.根据权利要求1所述的基于集成学习校准模型的松子蛋白质含量预测方法，其特征在于，所述boos...

【专利技术属性】
技术研发人员：张冬妍，蒋大鹏，李鸿博，李丹丹，曹军，
申请(专利权)人：东北林业大学，
类型：发明
国别省市：黑龙江;23

全部详细技术资料下载我是这个专利的主人