一种提高小麦水分预测精度的近红外光谱变量选择方法技术

技术编号:22362768 阅读:52 留言:0更新日期:2019-10-23 04:15
本发明专利技术涉及一种提高小麦水分预测精度的近红外光谱变量选择方法,属于农业分析领域。具体实施过程如下:首先采集小麦的近红外光谱数据,测量小麦水分化学值含量;其次,通过二进制矩阵采样法对光谱变量空间进行随机采样,将变量出现频率和偏最小二乘回归系数两种信息向量做加权处理得到每个光谱变量的贡献值,采用指数衰减函数删除贡献值小的变量,生成新的变量空间;最后,基于新的变量空间,采用加权采样法生成新的子集,建立回归子模型,利用模型的回归系数绝对值,得到子集中每个变量的权重,逐步校正优化变量权重,得到最优变量集,以此建立小麦水分预测模型。该方法与现有技术相比较,提高了模型的预测精度及稳定性。

A method of near infrared spectrum variable selection to improve the accuracy of wheat moisture prediction

【技术实现步骤摘要】
一种提高小麦水分预测精度的近红外光谱变量选择方法
本方法专利技术属于农业分析领域,具体涉及一种提高小麦水分预测精度的近红外光谱变量选择方法。
技术介绍
小麦是我国主要的粮食作物之一,小麦作为一种广泛种植的谷类作物,富含淀粉、水分、蛋白质、脂肪、矿物质以及一些人体所需的微量元素,磨成粉后可以制作饼干、糕点、面条、馒头、面包,发酵后可以制成啤酒、酒精等,具有很好的营养价值,小麦水分含量是评估小麦品质的重要指标,快速无损检测小麦品质的方法和技术,对于粮食检验和食品加工等方面有重要意义。近红外光谱技术可以同时、快速、无损的对小麦多个指标进行检测分析,由于近红外光谱主要是物质的倍频与合频吸收,信号相对较弱,并且谱带较宽、重叠严重,因此需要结合基于变量选择算法的化学计量方法来对近红外光谱数据进行处理,提取样品的特征信息,从而实现对未知样品化学值的预测。国内外常见的变量选择方法有变量组合集群分析法(VariableCombinationPopulationAnalysis,VCPA,参见YongHuanYun,WeiTingWang,BaiChuanDeng.UsingvariablecombinationpopulationAnalysisforvariableselectioninmultivariatecalibration.[J].AnalyticaChimicaActa.2015.862:14-23)、迭代保留信息变量法(IterativelyRetainsInformativeVariables,IRIV,参见YongHuanYun,WeiTingWang,YiZengLiang.Astrategythatiterativelyretainsinformativevariablesforselectingoptimalvariablesubsetinmultivariatecalibration.[J].AnalyticaChimicaActa.2014,807:36-43)、遗传学算法(geneticalgorithm,GA,参见LeardiR,GonzalezAL,GeneticalgorithmsappliedtofeatureselectioninPLSregression:howandwhentousethem,ChemomIntellLabSyst,1998,41,195-207)、竞争性自适应重加权采样分析法(CompetitiveAdaptiveReweightedSamplingCARS,参见HongDongLi,YiZengLiang.Keywavelengthsscreeninguingcompetitiveadaptivereweightedsamplingmethodformultivariatecalibration.[J].AnalyticaChimicaActa.2009,648(1):77-84)、自加权变量组合集群分析法(AutomaticWeightingVariableCombinationPopulationAnalysis,AWVCPA,参见赵环,宦克为,石晓光.基于自加权变量组合集群分析法的近红外光谱变量选择方法研究.[J].分析化学,2018,46(1):136-142)和变量组合集群分析迭代保留信息变量法(VariableCombinationPopulationAnalysis-IterativelyRetainsInformativeVariables,VCPA-IRIV)等。在小麦水分含量预测中,现有的变量选择方法都强制删除了次要变量与贡献较少的变量,忽视了变量组合对预测性能的影响,当这些变量组合在一起时会存在重要的特征信息,当变量数目很大时,一些变量选择方法会导致非常高的过拟合风险,产生很高的预测误差,使得预测结果不准确,此外现有算法模型复杂,预测精度低,模型不稳定。
技术实现思路
针对现有技术的不足及缺陷,本专利技术提出了一种用于提高小麦水分预测精度的近红外光谱变量选择方法,该方法基于较小的交叉验证均方根误差值,对偏最小二乘回归系数和变量出现频率两种信息向量的结果进行归一化加权处理,计算出每个光谱变量的贡献值,根据贡献值的大小,建立回归模型,基于模型的回归系数绝对值,得到变量权重,逐步校正优化变量权重,得到最优的变量集,以此建立预测模型,可以很好的提高预测模型的精度及稳定性。具体步骤如下:A测量小麦样本的近红外光谱数据X和小麦水分含量化学值数据Y,运用Kennard-Stone算法分为校正集和预测集;B通过二进制矩阵采样法从变量空间中采样K次,得到K个变量子集,每一个变量子集都含有一组随机的变量组合,其中K值为1500;C利用偏最小二乘法计算出每个变量组合的交互检验均方根误差,并选取其交互检验均方根误差最小的前σ×K个变量子集作为变量集,其中σ值取15%;D统计变量集中每个变量出现的频率并进行归一化处理,进而得到了一个变量重要性判断依据称为第一类信息向量,归一化处理后的变量出现频率值为在以第一类信息向量为判定标准下的变量贡献值;E计算出步骤C中所述变量集中每个变量在不同的变量子集中的偏最小二乘回归系数的绝对值,并进行归一化处理,最后对变量集中每个变量在不同变量子集中的归一化回归系数绝对值进行求和,变量归一化回归系数绝对值之和的大小与变量的重要性成正比,进而得到第二个变量重要性判据称为第二类信息向量,每个变量在不同变量子集中的归一化回归系数绝对值和为该变量在以第二类信息向量为判定标准下的变量贡献值;F根据每种信息向量的交互检验均方根误差设置第一类信息向量和第二类信息向量的权重;G根据第一类信息向量和第二类信息向量的权重,计算出变量集中每个变量的贡献值;H运用指数衰减函数删除利用步骤G计算出的贡献值小的变量,保留利用步骤G计算出的贡献值大的变量,得到一个新的变量空间R;I将变量空间R中的变量重复执行步骤B~步骤H进行变量筛选,此过程迭代N次,N值为50,在迭代过程中保留交互检验均方根误差值小的集合,最终剩下L个变量,L值为100;J对剩余的L个变量采用自助随机采样方法进行采样,生成相互不完全相同的Z个子集,Z值为500,Z个子集中的所有变量具有相同的选取概率权重;K用步骤J中获得的Z个子集建立子模型,计算子模型的交叉验证均方根误差,提取出交叉验证均方根误差最小的15%的最佳模型;L计算步骤K中提取的每个最佳模型的回归系数,得到每个最佳模型的回归矢量,将上述回归矢量中所有回归系数转换为绝对值的形式,得到二次回归矢量,把所有二次回归矢量进行归一化得到最终回归矢量,并对最终回归矢量进行求和,根据最终回归矢量求和的结果,赋予每个变量新的权重;M基于每个变量的新权重,应用加权采样去生成相互不完全相同的新的子集,并构建新的子集的子模型,在新的子集的子模型中,令回归系数绝对值越大的变量的选择概率值越大;N将J~M步骤迭代运行N次,N值为50,在迭代过程中将交叉验证均方根误差值最小的子集作为最优变量集,以最优变量集建立小麦水分预测模型。根据上述的变量选择方法,所述步骤F中的第一信息向量权重和第二信息向量权重的计算公式:w1:第一类信息向量的权重;w2:第二类信息本文档来自技高网
...

【技术保护点】
1.一种提高小麦水分预测精度的近红外光谱变量选择方法,其特征在于,包含以下步骤:A测量小麦样本的近红外光谱数据X和小麦水分含量化学值数据Y,运用Kennard‑Stone算法分为校正集和预测集;B通过二进制矩阵采样法从变量空间中采样K次,得到K个变量子集,每一个变量子集都含有一组随机的变量组合,其中K值为1500;C利用偏最小二乘法计算出每个变量组合的交互检验均方根误差,并选取其交互检验均方根误差最小的前σ×K个变量子集作为变量集,其中σ值取15%;D统计变量集中每个变量出现的频率并进行归一化处理,进而得到了一个变量重要性判断依据称为第一类信息向量,归一化处理后的变量出现频率值为在以第一类信息向量为判定标准下的变量贡献值;E计算出步骤C中所述变量集中每个变量在不同的变量子集中的偏最小二乘回归系数的绝对值,并进行归一化处理,最后对变量集中每个变量在不同变量子集中的归一化回归系数绝对值进行求和,变量归一化回归系数绝对值之和的大小与变量的重要性成正比,进而得到第二个变量重要性判据称为第二类信息向量,每个变量在不同变量子集中的归一化回归系数绝对值和为该变量在以第二类信息向量为判定标准下的变量贡献值;F根据每种信息向量的交互检验均方根误差设置第一类信息向量和第二类信息向量的权重;G根据第一类信息向量和第二类信息向量的权重,计算出变量集中每个变量的贡献值;H运用指数衰减函数删除利用步骤G计算出的贡献值小的变量,保留利用步骤G计算出的贡献值大的变量,得到一个新的变量空间R;I将变量空间R中的变量重复执行步骤B~步骤H进行变量筛选,此过程迭代N次,N值为50,在迭代过程中保留交互检验均方根误差值小的集合,最终剩下L个变量,L值为100;J对剩余的L个变量采用自助随机采样方法进行采样,生成相互不完全相同的Z个子集,Z值为500,Z个子集中的所有变量具有相同的选取概率权重;K用步骤J中获得的Z个子集建立子模型,计算子模型的交叉验证均方根误差,提取出交叉验证均方根误差最小的15%的最佳模型;L计算步骤K中提取的每个最佳模型的回归系数,得到每个最佳模型的回归矢量,将上述回归矢量中所有回归系数转换为绝对值的形式,得到二次回归矢量,把所有二次回归矢量进行归一化得到最终回归矢量,并对最终回归矢量进行求和,根据最终回归矢量求和的结果,赋予每个变量新的权重;M基于每个变量的新权重,应用加权采样去生成相互不完全相同的新的子集,并构建新的子集的子模型,在新的子集的子模型中,令回归系数绝对值越大的变量的选择概率值越大;N将J~M步骤迭代运行N次,N值为50,在迭代过程中将交叉验证均方根误差值最小的子集作为最优变量集,以最优变量集建立小麦水分预测模型。...

【技术特征摘要】
1.一种提高小麦水分预测精度的近红外光谱变量选择方法,其特征在于,包含以下步骤:A测量小麦样本的近红外光谱数据X和小麦水分含量化学值数据Y,运用Kennard-Stone算法分为校正集和预测集;B通过二进制矩阵采样法从变量空间中采样K次,得到K个变量子集,每一个变量子集都含有一组随机的变量组合,其中K值为1500;C利用偏最小二乘法计算出每个变量组合的交互检验均方根误差,并选取其交互检验均方根误差最小的前σ×K个变量子集作为变量集,其中σ值取15%;D统计变量集中每个变量出现的频率并进行归一化处理,进而得到了一个变量重要性判断依据称为第一类信息向量,归一化处理后的变量出现频率值为在以第一类信息向量为判定标准下的变量贡献值;E计算出步骤C中所述变量集中每个变量在不同的变量子集中的偏最小二乘回归系数的绝对值,并进行归一化处理,最后对变量集中每个变量在不同变量子集中的归一化回归系数绝对值进行求和,变量归一化回归系数绝对值之和的大小与变量的重要性成正比,进而得到第二个变量重要性判据称为第二类信息向量,每个变量在不同变量子集中的归一化回归系数绝对值和为该变量在以第二类信息向量为判定标准下的变量贡献值;F根据每种信息向量的交互检验均方根误差设置第一类信息向量和第二类信息向量的权重;G根据第一类信息向量和第二类信息向量的权重,计算出变量集中每个变量的贡献值;H运用指数衰减函数删除利用步骤G计算出的贡献值小的变量,保留利用步骤G计算出的贡献值大的变量,得到一个新的变量空间R;I将变量空间R中的变量重复执行步骤B~步骤H进行变量筛选,此过程迭代N次,N值为50,在迭代过程中保留...

【专利技术属性】
技术研发人员:宦克为孙大明刘小溪韩雪艳赵环
申请(专利权)人:长春理工大学
类型:发明
国别省市:吉林,22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1