一种基于指标极值的光谱特征变量快速匹配方法组成比例

技术编号:16425169 阅读:74 留言:0更新日期:2017-10-21 18:10
本发明专利技术公开了一种基于指标极值的光谱特征变量快速匹配方法。该方法利用简单的线性模型为光谱校正预测模型挑选有效的特征变量。以朗伯比尔定律为基础,对光谱变量集合中的每一个变量(波长)建立一元线性回归模型,以模型预测指标极值为目标,选择峰值和谷值所对应的一元特征变量,并进一步寻找与每一个一元特征变量形成最佳匹配的第二变量,组成离散特征变量集合,利用此特征变量集合建立光谱校正模型能够有效克服简单的线性模型中常出现的光谱共线性问题。该方法具有模型简便、计算量少、遴选自由度大等优点,可推广应用到拉曼、近红外、中红外、紫外光谱分析领域,为设计小型便携式专用光谱仪提出有效的技术支持。

【技术实现步骤摘要】
一种基于指标极值的光谱特征变量快速匹配方法
本专利技术属于光谱分析中的模型优化
,具体涉及一种基于指标极值的光谱特征变量快速匹配方法。
技术介绍
光谱分析是根据物质的光谱通过定性或定量来确定物质的化学成分及其含量的一种技术。它具有简便快速、非破坏性、实时在线、多成分同时检测等优点,在环境、食品、农业、生物医学等众多领域得到广泛的应用。红外光谱、紫外光谱、拉曼光谱等光谱分析技术的应用首先需要采用相应的光谱仪测量光谱数据。全谱段通用型光谱仪器体型庞大,不便于携带;对于不同对象都不作区分地进行全谱扫描,并不能实现实时在线的快速测定。因此,有必要研发便携式的小型专用光谱仪,这其中涉及的关键技术是如何快速有效地选取高信噪比的光谱波长(特征变量)组合进行建模优化。由于光谱检测对象通常是包含有多种组分的复杂体系,每一种组分所对应的光谱吸收带各不相同;而光谱测量数据中不同组分的信息往往重叠在一起,特征吸收峰不突出、信息不明显(特别是近红外光谱),所以必须通过模型指标分析,根据建模效果选择不同的波长组成离散波长点组合,通过进一步的优化构建特征波长数据库,为小型便携式光谱分析仪器的设计提供理论基础和技术支持。光谱测量的波长点很多,以近红外为例,整个近红外波段为780-2526nm(或记为12821-3958cm-1)(ASTM标准),如果波长间隔是0.5nm,那么一共有3493个波长。实验证明,如果通过全谱波长随机任意组合进行全局筛选,其计算复杂度太大,达不到快速检测的效果,而且光谱的共线性问题影响模型预测精度的提高。因此,在全谱段波长变量中有效地选取特征变量组合是实现数据降维的必要途径,特征变量的选取必须趋于离散化波长变量组合,它对于建立高精度分析模型、降低模型复杂性和分光系统的设计等方面具有重要意义。如果能够找到待测组分对应的若干离散特征波长点,线性回归模型也可以得到良好的预测效果。于是,本专利技术提出了一种基于指标极值的光谱特征变量快速匹配(SpeedMatchingofCharacteristicVariablesbasedonExtremums,SMCVE)的方法。
技术实现思路
本专利技术所要解决的技术问题是为光谱分析提供一种基于指标极值的光谱特征变量快速匹配方法(SMCVE)。该方法能够针对不同的分析对象选择其对应的光谱特征波长组合。具体步骤为:步骤一,根据朗伯比尔定律,待测组分的浓度值与其纯光谱的吸光度数据成正比,对光谱的全部变量集合即全谱波长集合中的每一个变量即波长点建立一元线性回归模型。步骤二,根据模型预测效果绘制模型评价指标曲线,从全谱波长集合中挑选出指标极值对应的若干波长点,从而筛选出了若干个离散特征变量即特征波长,称为一元特征变量。步骤三,在一元模型的基础上,寻找与一元特征变量能够达到最佳匹配效果的第二变量即第二波长,于是,以每一个一元特征变量作为基本变量,在全谱波长集合中的每一个波长与之组合,建立二元模型,根据模型预测指标极大值或极小值挑选出最优的二元模型所对应的第二波长,称之为最佳匹配变量。步骤四,经过反复实验,选中所有的一元特征变量和最佳匹配变量,去除重复变量以后组成离散特征变量集合。所述指标的选择选用预测相关系数谱线R或者预测误差曲线E,寻找预测相关系数谱线R或者预测误差曲线E的极值,即波峰或波谷,以此确定一元特征变量;通过合理选择指标极值,所选的一元特征变量和它们所对应的最佳匹配变量组成的离散特征变量集合将会直接指向该待测组分的特征信息。本专利技术方法的优势在于,由于本方法选择的离散特征变量集合在一定程度上反映了待测组分的特征信息,采用离散特征变量集合进行线性、非线性建模有望克服光谱数据中的共线性,进而获得模型预测效果的提高;以线性回归模型为基础,能够大大减低光谱建模的复杂度,计算自由度大幅度提升。且本专利技术方法计算量少、模型简便、遴选自由度大、定标效果好,可为小型专用分析仪器中分光系统的设计提出有效的解决方案,适用于拉曼(Raman)、近红外(NIR)、中红外(MIR)、紫外(UV)等光谱分析领域,已经在土壤总氮的FT-NIR分析、柚子皮果胶的FT-IR分析、鱼粉蛋白的NIR分析中得到验证。本专利技术方法能够为光谱分析模型的变量筛选优化过程提高效率。结合待测目标成分的参考浓度值进行建模预测,通过比较校正集样本和预测集样本的内部相关系数,保证快速匹配优选的离散特征变量集合对光谱分析模型具有足够大的贡献率。应用此方法可以为指定待测对象快速优选出合适的离散特征波长组合。在这个意义下,本专利技术提出的SMCVE方法为光谱分析建模优化提供了快速实现的可能性,并且技术方法简单,容易操作;该方法适用于红外、紫外、拉曼等光谱分析的数据建模优化及模型验证系统,为优选连续波段、离散波长组合,以及原光谱、导数光谱的峰值优选等模型优化的快速实现提供了理论上和技术上的支撑。附图说明图1为本专利技术实施例中基于指标极值的光谱特征变量快速匹配方法的工作流程图,该图以两个一元特征变量为例,表示了SMCVE方法选最佳匹配变量的过程。图2为本专利技术实施例中根据指标极值(预测均方根误差曲线的波峰和波谷)挑选一元特征变量的图示。图3为本专利技术实施例中一元特征变量对应寻找最佳匹配变量的图示。图中:全谱段范围是10000-4000cm-1,包含了可见光和近红外谱段,以每一个变量(波长点)的光谱数据结合样本的参考浓度值建立一元回归模型,根据预测结果绘制均方根误差曲线,并找到曲线的峰值和谷值,进一步利用二元校正模型寻找每一个一元特征变量的最佳匹配变量,依此,校正模型始终以寻找特征变量为目标,在一定程度上保证所挑选的特征变量较高的模型贡献度。具体实施方式以下实施例将对本专利技术予以进一步的说明,但并不因此而限制本专利技术。实施例:以土壤总氮的近红外分析为例,共有135个土壤样品,每个样品通过光谱实验测量得到1512个波长变量的光谱值,将样品划分为校正集和预测集,采用本专利技术的SMCVE方法定量检测土壤样品中的总氮含量,本案例选择使用预测均方根偏差(RMSEP)曲线的极值作为寻找特征变量的目标,具体步骤为:步骤一,对光谱的全部变量集合(全谱波长集合)中的每一个变量(波长点)建立一元线性回归模型,所得每个波长的一元回归模型的RMSEP曲线如图2所示;步骤二,从图2中挑选RMSEP曲线的波峰和波谷,针对土壤总氮含量定量检测,确定18个一元特征变量;步骤三,以18个一元特征变量作为基本变量,在全谱波长集合中逐个寻找其对应的最佳匹配变量(如图3所示);步骤四,将18个一元特征变量和18个最佳匹配变量组合,去除重复变量,形成离散特征变量集合,共包含32个特征变量。利用32个离散特征变量的光谱数据作为建模自变量,结合常规化学检测的土壤总氮浓度值,建立光谱校正模型,校正方法采用经典的偏最小二乘法(PLS),所得预测结果和基于全谱段光谱数据的预测结果进行对比,结果见表1。结果表明,采用本专利技术的基于指标极值的光谱特征变量快速匹配(SMCVE)方法进行校正模型变量筛选,可以找到光谱的特征信息,有效地实现模型降维,降低计算复杂度,同时能够提高模型的预测结果,总体改善近红外的检测能力。表1基于SMCVE方法筛选变量建模和基于全谱数据建模的预测结果对比变量个数预测均方根误差(RMSEP)本文档来自技高网
...
一种基于指标极值的光谱特征变量快速匹配方法

【技术保护点】
一种基于指标极值的光谱特征变量快速匹配方法,其特征在于具体步骤为:步骤一,根据朗伯比尔定律,待测组分的浓度值与其纯光谱的吸光度数据成正比,对光谱的全部变量集合即全谱波长集合中的每一个变量即波长点建立一元线性回归模型;步骤二,根据模型预测效果绘制模型评价指标曲线,从全谱波长集合中挑选出指标极值对应的若干波长点,从而筛选出了若干个离散特征变量即特征波长,称为一元特征变量;步骤三,在一元模型的基础上,寻找与一元特征变量能够达到最佳匹配效果的第二变量即第二波长,于是,以每一个一元特征变量作为基本变量,在全谱波长集合中的每一个波长与之组合,建立二元模型,根据模型预测指标极大值或极小值挑选出最优的二元模型所对应的第二波长,称之为最佳匹配变量;步骤四,经过反复实验,选中所有的一元特征变量和最佳匹配变量,去除重复变量以后组成离散特征变量集合;所述指标的选择选用预测相关系数谱线R或者预测误差曲线E,寻找预测相关系数谱线R或者预测误差曲线E的极值,即波峰或波谷,以此确定一元特征变量;通过合理选择指标极值,所选的一元特征变量和它们所对应的最佳匹配变量组成的离散特征变量集合将会直接指向该待测组分的特征信息。

【技术特征摘要】
1.一种基于指标极值的光谱特征变量快速匹配方法,其特征在于具体步骤为:步骤一,根据朗伯比尔定律,待测组分的浓度值与其纯光谱的吸光度数据成正比,对光谱的全部变量集合即全谱波长集合中的每一个变量即波长点建立一元线性回归模型;步骤二,根据模型预测效果绘制模型评价指标曲线,从全谱波长集合中挑选出指标极值对应的若干波长点,从而筛选出了若干个离散特征变量即特征波长,称为一元特征变量;步骤三,在一元模型的基础上,寻找与一元特征变量能够达到最佳匹配效果的第二变量即第二波长,于是,以每一个一元特征变量作为基本变量...

【专利技术属性】
技术研发人员:陈华舟石凯贾贞
申请(专利权)人:桂林理工大学
类型:发明
国别省市:广西,45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1