一种基于零空间投影的近红外光谱预处理方法技术

技术编号:13398477 阅读:72 留言:0更新日期:2016-07-23 22:40
本发明专利技术公开了一种基于零空间投影的近红外光谱预处理方法,包括:步骤1,采集训练样本的近红外光谱以及化学值;步骤2,对近红外光谱进行排序;步骤3,利用相邻两个训练样本的化学值,计算拟合权重;步骤4,利用拟合权重生成虚拟近红外光谱;步骤5,计算差谱矩阵;步骤6,对差谱矩阵进行主成分分析,选取投影向量P;步骤7,将训练样本矩阵在P的正交方向进行投影,得到Xp;步骤8,利用偏最小二乘算法建模;步骤9,对待测样本Xnew,在P的正交方向进行投影,将投影结果代入步骤8所建模型中,得到预测物质的含量。本发明专利技术在建模之前,对训练样本和后续预测样本进行零空间的正交投影,消除干扰因素,提高建模结果的鲁棒性,降低模型的维护频率。

【技术实现步骤摘要】
一种基于零空间投影的近红外光谱预处理方法
本专利技术涉及近红外光谱
,具体涉及一种基于零空间投影的近红外光谱预处理方法。
技术介绍
近红外光谱能够表征待测物中的多种含氢基团信息,具有采样方便、无损伤、无污染、能够在线检测等优点,非常适合用于各种复杂混合物的检测。近红外光谱检测技术目前已广泛应用于制药、烟草、石油化工及农业等领域。近年来,近红外光谱技术结合多元校正技术,如偏最小二乘算法(PartialLeastSquares,PLS)等进行定量分析越来越普遍,然而,在实际应用中,在模型建立之后,由于时间间隔的原因,测试样本与训练样本的状态可能不一致。例如,测试温度,湿度(水分),光谱基线漂移等不一致。当测试样本中的干扰程度不在训练样本包含的范围之内时,其模型不能很好的应对这些新的干扰,导致预测精度降低。常用的近红外光谱预处理技术主要有求导(一阶导数谱,二阶导数谱),多元散射校正(Multiplicativescattercorrection,MSC)(参见文献H.Martens,S.A.Jensen,andP.Geladi,“Multivariatelinearitytransformationsfornearinfraredreflectancespectroscopy,”inProc.NordicSymp.AppliedStatistics,1983,pp.205–234.)和标准正态变量校正(Standardnormalvariate,SNV)(参见文献R.J.Barnes,M.S.Dhanoa,andS.J.Lister,“Standardnormalvariatetransformationandde-trendingofnear-infrareddiffusereflectancespectra,”Appliedspectroscopy,vol.43,no.5,pp.772–777,1989.)等。这些方法都假设光谱干扰项可由一常数项a和一乘性项b组成,通过对两种干扰项进行消除来达到校正目的。例如,一阶导数谱可以消除常数性的基线漂移,二阶导数谱在一阶导数之上,还可以消除乘性项的基线漂移。MSC和SNV分别通过估计近红外光谱中的干扰项a和b,从而对其进行校正。现有的预处理方法的缺点主要是:在校正中没有考虑实际的干扰因素及其幅度,当测试样本的干扰项幅度超出训练样本范围时,会导致模型对新样本的预测精度降低。现有的预处理方法只针对近红外光谱,没有考虑到建模对象的信息,预处理对建模对象的影响是未知的,可能出现由于预处理不当导致的预测效果不理想,甚至预测偏差超出设定阈值的现象。
技术实现思路
本专利技术提供了一种基于零空间投影的近红外光谱预处理方法,在建模之前,对训练样本和后续预测样本进行零空间的正交投影,消除干扰因素,提高建模结果的鲁棒性,降低模型的维护频率。一种基于零空间投影的近红外光谱预处理方法,包括:步骤1,采集训练样本的近红外光谱以及感兴趣成分的化学值;步骤2,依据训练样本化学值由小到大的顺序,对近红外光谱进行排序;步骤3,除化学值最大和化学值最小的训练样本外,对其余训练样本,利用相邻两个训练样本的化学值,计算拟合权重;步骤4,除化学值最大和化学值最小的训练样本外,对其余训练样本,利用拟合权重生成虚拟近红外光谱;步骤5,除化学值最大和化学值最小的训练样本外,对其余训练样本,用真实近红外光谱减去虚拟近红外光谱,得到差谱,所有差谱构成差谱矩阵;步骤6,对差谱矩阵进行主成分分析,选取表征总体95%以上的投影向量,记为P;步骤7,将训练样本矩阵在P的正交方向进行投影,得到Xp;步骤8,对Xp和相对应的感兴趣成分的化学值Y,利用偏最小二乘算法建模;步骤9,对待测样本Xnew,在P的正交方向进行投影,将投影结果代入步骤8所建模型中,得到预测物质的含量。本专利技术针对给定物质的定量建模问题,构造建模光谱基于该物质含量的零空间,该零空间表征了训练样本中的干扰因素,例如温度,湿度(水分),基线漂移等。建模之前,对训练样本和后续测试样本进行该零空间的正交投影,以消除这些干扰因素。在训练样本和测试样本干扰因素不一致的情况下,通过零空间投影可以显著消除两者差异,从而提高模型的鲁棒性,降低维护频率。步骤1中的训练样本感兴趣成分的测量采用国际标准,或者国内标准,或者其他成熟的化学方法测量得到。感兴趣的成分如:总糖含量,烟碱含量等。作为优选,步骤3中,利用下式计算拟合权重:式中,yi-1yiyi+1分别为第i-1,i,i+1个训练样本的感兴趣成分的化学值,i=2...N-1。作为优选,步骤4中,第i个样本的虚拟近红外光谱的计算公式如下:zi=wxi-1+(1-w)xi+1其中,xi-1xi+1分别表示第i-1个和第i+1个训练样本的真实近红外光谱,w为拟合权重。作为优选,步骤5中的差谱矩阵为:E=[e2;e3;...;eN-1],ei=xi-zi。本专利技术提供的基于零空间投影的近红外光谱预处理方法,在预处理过程中,考虑了与建模对象无关的信息(干扰因素),预先在光谱中对这些干扰因素进行正交投影,以消除这些干扰因素。由于消除的是整个干扰因素的零空间,因此,在测试样本受干扰幅度与训练样本不一致的情况下,仍然可以通过投影对其进行消除,从而使利用投影后光谱建立的模型可以长久适用,降低模型的维护频率和成本。附图说明图1a为训练集和测试集的原始近红外光谱;图1b为测试集光谱在训练集光谱中的PCA投影;图2a为训练集和测试集的二阶导数谱;图2b为测试集二阶导数谱在训练集二级导数谱中的PCA投影;图3a为训练集和测试集经标准校正后的光谱;图3b为测试集经标准校正后的光谱在训练集经标准校正后的光谱中的PCA投影;图4a为训练集和测试集经零空间投影后的光谱;图4b为测试集经零空间投影后的光谱在训练集经零空间投影后的光谱中的PCA投影。具体实施方式下面结合附图,对本专利技术基于零空间投影的近红外光谱预处理方法做详细描述。一种基于零空间投影的近红外光谱预处理方法,包括:步骤1,利用近红外光谱采集训练样本的近红外光谱数据,同时利用其它方法测量训练样本中感兴趣成分的含量。近红外光谱数据已2维矩阵形式存储,矩阵的行列分别代表训练样本的数量以及光谱维数。步骤2,对步骤1中的获取的感兴趣成分的含量值(即化学值),将含量值按升序排序,同时,将光谱按同样的方式排序,以保证光谱与化学值的一一对应。步骤3,除化学值最大和化学值最小的训练样本外,对其余训练样本,利用相邻两个训练样本的化学值以及下式计算拟合权重:式中,yi-1yiyi+1分别为第i-1,i,i+1个训练样本的感兴趣成分的化学值,i=2...N-1。步骤4,除化学值最大和化学值最小的训练样本外,对其余训练样本,利用拟合权重生成虚拟近红外光谱。第i个样本的虚拟近红外光谱的计算公式如下:zi=wxi-1+(1-w)xi+1其中,xi-1xi+1分别表示第i-1个和第i+1个训练样本的真实近红外光谱,w为拟合权重。步骤5,生成零空间。除化学值最大和化学值最小的训练样本外,对其余训练样本,用真实近红外光谱减去虚拟近红外光谱,得到差谱,所有差谱构成差谱矩阵,差谱矩阵为:E=[e2;e3;...;eN-1],ei=xi本文档来自技高网
...

【技术保护点】
一种基于零空间投影的近红外光谱预处理方法,其特征在于,包括:步骤1,采集训练样本的近红外光谱以及感兴趣成分的化学值;步骤2,依据训练样本化学值由小到大的顺序,对近红外光谱进行排序;步骤3,除化学值最大和化学值最小的训练样本外,对其余训练样本,利用相邻两个训练样本的化学值,计算拟合权重;步骤4,除化学值最大和化学值最小的训练样本外,对其余训练样本,利用拟合权重生成虚拟近红外光谱;步骤5,除化学值最大和化学值最小的训练样本外,对其余训练样本,用真实近红外光谱减去虚拟近红外光谱,得到差谱,所有差谱构成差谱矩阵;步骤6,对差谱矩阵进行主成分分析,选取表征总体95%以上的投影向量,记为P;步骤7,将训练样本矩阵在P的正交方向进行投影,得到Xp;步骤8,对Xp和相对应的感兴趣成分的化学值Y,利用偏最小二乘算法建模;步骤9,对待测样本Xnew,在P的正交方向进行投影,将投影结果代入步骤8所建模型中,得到预测物质的含量。

【技术特征摘要】
1.一种基于零空间投影的近红外光谱预处理方法,其特征在于,包括:步骤1,采集训练样本的近红外光谱以及感兴趣成分的化学值;步骤2,依据训练样本化学值由小到大的顺序,对近红外光谱进行排序;步骤3,除化学值最大和化学值最小的训练样本外,对其余训练样本,利用相邻两个训练样本的化学值,计算拟合权重;利用下式计算拟合权重:式中,yi-1yiyi+1分别为第i-1,i,i+1个训练样本的感兴趣成分的化学值,i=2···N-1;步骤4,除化学值最大和化学值最小的训练样本外,对其余训练样本,利用拟合权重生成虚拟近红外光谱;步骤4中,第i个样本的虚拟近红外光谱的计算公式如下:zi=wxi-1+(1-w)xi+1其中,xi-1xi+1分别表示第i-1个...

【专利技术属性】
技术研发人员:吴继忠徐清泉夏琛毕一鸣吴键廖付李石头夏骏苏燕慕继瑞张立立李永生何文苗郝贤伟
申请(专利权)人:浙江中烟工业有限责任公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1