当前位置: 首页 > 专利查询>南开大学专利>正文

一种近红外光谱和拉曼光谱波长的筛选方法技术

技术编号:3959563 阅读:244 留言:0更新日期:2012-04-11 18:40
一种近红外光谱和拉曼光谱波长的筛选方法,把采集的近红外或拉曼光谱及对应的被测成分浓度数据分成训练集、检验集和预测集;利用原始光谱和被测成分浓度建立PLS模型,得到真实PLS模型系数;将被测成分浓度随机排序,利用被测成分浓度向量与原始光谱矩阵建立大量PLS模型;根据这些模型,分别统计单个波长模型系数大于其真实PLS模型系数的次数,可得到对应概率值;概率值小于域值的波长被保留;利用保留的波长建立最优模型,对预测集样本被测成分浓度进行预测。该方法可准确提取含有光谱信息的波长,简化了定量分析模型,提高了定量分析模型的预测精度,为近红外光谱和拉曼光谱多元校正分析提供了一种新的波长筛选技术。

【技术实现步骤摘要】

本方法专利技术属于分析化学领域的无损分析技术,特别涉及。
技术介绍
近红外光谱(OTR)是一种无损分析技术,具有处理简单、分析速度快、稳定性好等 优点,已被广泛应用于农业、石化、医疗等行业。然而,由于近红外光谱谱带重叠现象严重, 信号吸收较弱,且背景干扰严重等问题,必须借助于化学计量学方法才能进行定性定量分 析。拉曼光谱分析法可提供快速、简单、可重复、无损伤的定性定量分析,在生物学、考古学 和天文学等领域具有很好的应用前景。目前,拉曼光谱的分析主要还是利用典型物质的光 谱或标准谱图对未知光谱实现比较、鉴别和定性分析。由于标准谱库建立的难度和光谱数 据处理与分析的复杂性,多组分混合物样品拉曼光谱的定量分析还存在很多困难,而利用 计量学方法就可以使拉曼光谱定量分析变得简单快速。因此,化学计量学方法已成为近红 外光谱以及拉曼光谱分析中的研究热点,其中主成分分析方法(PCA)、偏最小二乘法(PLS) 就是常用的多元建模方法。实践证明,多元建模方法结合近红外光谱分析方法非常实用有 效,已被用于无创血糖浓度的定量分析的全新领域(U. S. Pat. No. 4,975,581)。利用PCA方 法结合拉曼光谱分析,可以实现在线分析和控制流化床反应器中的聚合物性能(U. S. Pat. No. 7,116,414)。在近红外光谱和拉曼光谱分析中,波长筛选一直是多元校正分析中的重要内容, 可以解决波长中背景、噪声等信息对模型的干扰。波长筛选的基本方法之一就是找到一种 评价波长对模型定量分析重要性的方法,根据波长评价值来筛选波长,保留对建模贡献较 大的波长。大量的研究工作表明,有效的波长筛选可以改善模型的预测能力和减少模型的 复杂程度。目前,光谱分析中波长筛选的方法主要包括遗传算法(GA)、无信息变量消除法 (UVE)、间隔偏最小二乘法(iPLS)以及连续投影算法(SPA)等。但是这些方法中,比如遗传 算法(GA)计算周期较长而且容易陷入局部最优的局限;无信息变量消除法(UVE)中采用留 一交叉验证法,使模型具有过拟合的风险。因此,如何建立预测能力好、稳健性强的模型,且 在模型构建中避免过拟合现象都是以后研究中需要解决的问题和努力的方向。统计学是研究如何有效地运用数据收集与数据处理、多种模型与技术分析等对数 据进行推理,以便对问题进行推断或预测,从而为决策和行动提供依据和建议的应用广泛 的基础性学科。由于统计分析是基于大量数据进行分析,通过统计得到的规律往往比较具 有全局代表性和真实可靠性。波长筛选与统计分析结合的思想将会是以后的研究发展趋 势。本方法专利技术是通过统计学方法与化学计量学相结合,来实现对近红外光谱的波长 选择。本方法通过建立大量的模型来实现,与单一模型相比可以从更多方面考虑光谱与浓 度间的关系,所以可以减少模型过拟合风险,且根据模型的系数统计得到的结论更加可靠。
技术实现思路
本专利技术的目的是针对上述存在问题,提供一种近红外光谱和拉曼光谱波长的筛选 方法,该方法可改善模型的预测能力、增强模型的稳健性、避免过拟合现象,使根据模型的 系数统计得到的结论更加可靠。本专利技术利用计量学方法建立多模型,结合统计学方法,通过对模型系数的统计分 析来评价波长,实现近红外光谱和拉曼光谱波长筛选。,包括以下步骤1)采集被测物样本的近红外光谱或拉曼光谱数据,随机分成三部分,包括训练集、 检验集和预测集样本,用常规方法测定训练集和检验集中样本的被测成分浓度含量,得到 训练集样本和检验集样本的被测成分浓度向量,其中训练集样本用来建立模型、检验集样 本用来确定模型参数、预测集样本用来检验模型的预测能力;2)利用训练集样本的光谱和被测成分浓度,进行偏最小二乘回归,得到真实模型 回归系数向量b (1 Xp),P指波长点总数;3)将上述训练集样本的被测成分浓度向量随机排序,即被测成分浓度不再与样本 光谱呈一一对应的关系,利用这种随机化后的被测成分浓度向量Y与训练集样本的原始光 谱矩阵X进行偏最小二乘回归,得到随机模型;4)重复步骤3,得到系列偏最小二乘回归随机模型及其模型回归系数矩阵B ;5)对于每个波长,比较其对应的随机模型回归模型系数与其真实模型回归系数的 大小,统计随机模型回归系数值大于真实模型回归系数的次数,计算每个波长对应的概率 值;6)将波长根据其概率值的升序进行排列,得到概率向量f ;7)保留概率值小于最优域值的波长;8)根据保留的波长点位置,仅保留训练集光谱矩阵相应的波长列,得到新的光谱 矩阵X1,并且与训练集样本被测成分浓度向量建立偏最小二乘回归模型,利用这个模型,测 定预测集样本被测成分的浓度含量。所述系列偏最小二乘回归随机模型为1000个,模型回归系数矩阵为B(IOOOXp)。所述最优域值是指首先根据概率值从小到大对波长进行排序;然后每次保留不 同数目的排序后的波长分别建模对检验集样本被测成分浓度进行测定;最后考察预测均方 根误差(RMSEP)值与建模所用波长数的关系,得到预测均方根误差(RMSEP)值最小时对应 的波长数N,从而确定概率向量f的第N个值为最优域值。本专利技术的优点是该筛选方法可准确提取含有光谱信息的波长,简化了定量分析模型,提高了定量分析模型的预测精度,为近红外光谱和拉曼光谱多元校正分析提供了一 种新的筛选技术,具有较高的实用价值。附图说明图1为烟草样本近红外光谱尼古丁模型第200个波长点(对应波数8234. 7CHT1) 的模型回归系数的频数分布直方图。图2为烟草样本近红外光谱尼古丁模型波长的概率分布和保留波长分布图。图3为烟草样本近红外光谱总糖模型波长的概率分布和保留波长分布图。图4为代谢物样本拉曼光谱肌氨酸模型波长的概率分布和保留波长分布图。图5为代谢物样本拉曼光谱甘氨酸模型波长的概率分布和保留波长分布图。具体实施例方式实施例1 本实施例是应用于近红外光谱分析,对烟草样本中的尼古丁成分含量值进行测定。具体的步骤如下1)通过测定800个烟草的近红外光谱建立定量分析模型,光谱采用MPAFT-NIR光 谱仪(Bruker,Germany)测定,波数范围为 3999. 7-9002. 3cm"1 (2500. 2-833. 7nm),采样间隔 约为4个波数,共1298个波长点,在建模前把烟草样本随机分成三部分,包括训练集、检验 集和预测集,其中训练集样本数为400,检验集和预测集样本数均为200,样本中尼古丁的 含量采用AAIII型连续流动分析仪(BRAN+LUBBE,Germany)按照标准方法测定;2)利用训练集样本的光谱和尼古丁成分浓度,进行偏最小二乘回归,模型因子数 为10,得到真实模型回归系数向量b(lX1298);3)将上述训练集样本的尼古丁成分浓度向量随机排序,利用这种随机化后的尼古 丁成分浓度向量Y与训练集样本的原始光谱矩阵X进行偏最小二乘回归,模型因子数为10, 得到随机模型;4)重复步骤3,得到1000个偏最小二乘回归随机模型及其模型回归系数矩阵 B(1000X1298);5)对于每个波长,比较其对应的随机模型回归模型系数与其真实模型回归系数的 大小,统计随机模型回归系数值大于真实模型回归系数的次数,计算每个波长对应的概率 值;6)将波长根据其概率值的升序进行排列,得到概率向量f ;7本文档来自技高网
...

【技术保护点】
一种近红外光谱和拉曼光谱波长的筛选方法,其特征在于包括以下步骤:1)采集被测物样本的近红外光谱或拉曼光谱数据,随机分成三部分,包括训练集、检验集和预测集样本,用常规方法测定训练集和检验集中样本的被测成分浓度含量,得到训练集样本和检验集样本的被测成分浓度向量,其中训练集样本用来建立模型、检验集样本用来确定模型参数、预测集样本用来检验模型的预测能力;2)利用训练集样本的光谱和被测成分浓度,进行偏最小二乘回归,得到真实模型回归系数向量b(1×p),p指波长点总数;3)将上述训练集样本的被测成分浓度向量随机排序,即被测成分浓度不再与样本光谱呈一一对应的关系,利用这种随机化后的被测成分浓度向量Y与训练集样本的原始光谱矩阵X进行偏最小二乘回归,得到随机模型;4)重复步骤3,得到系列偏最小二乘回归随机模型及其模型回归系数矩阵B;5)对于每个波长,比较其对应的随机模型回归模型系数与其真实模型回归系数的大小,统计随机模型回归系数值大于真实模型回归系数的次数,计算每个波长对应的概率值;6)将波长根据其概率值的升序进行排列,得到概率向量f;7)保留概率值小于最优域值的波长;8)根据保留的波长点位置,仅保留训练集光谱矩阵相应的波长列,得到新的光谱矩阵X↓[1],并且与训练集样本被测成分浓度向量建立偏最小二乘回归模型,利用这个模型,测定预测集样本被测成分的浓度含量。...

【技术特征摘要】

【专利技术属性】
技术研发人员:邵学广徐恒刘智超蔡文生
申请(专利权)人:南开大学
类型:发明
国别省市:12[中国|天津]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利