当前位置: 首页 > 专利查询>东北大学专利>正文

一种用于分析分子光谱的改进可变移动窗偏最小二乘法制造技术

技术编号:12482493 阅读:131 留言:0更新日期:2015-12-10 19:34
本发明专利技术涉及一种在分析分子光谱时同时优选数据预处理算法和波长变量的方法——预处理方法分类参数可调的可变移动窗偏最小二乘法。首先该算法对读入的光谱数据和待测物性质数据进行样本划分,完成窗口的个数、窗口宽度等参数进行初始化,并选择回归模型;然后该算法将其生成的部分个体按照其编码规则初始化在信息含量较高的区域上,其它个体初始化在全光谱区域内;接着根据该算法的解码规则和适应度函数进行模型评价,并执行遗传操作;最后完成既定的独立运行次数后进行输出并统计结果。该方法生成的个体较易给出合理的化学解释,同时也避免人工挑选数据预处理算法时的主观性和单一变量引入的噪声,显著降低模型的复杂度,提高模型的准确性鲁棒性。

【技术实现步骤摘要】

本专利技术涉及分子光谱分析技术,尤其涉及一种在分析分子光谱时同时优选波长变 量和数据预处理算法的方法。
技术介绍
分子光谱形成的本质是组成物质分子的原子受外部光子照射时发生了能级跃迀, 它包括紫外光谱、近红外光谱、红外光谱和拉曼光谱等。虽然近代化学分析仪器的快速发展 促使该技术在众多行业得以广泛应用,但是随之而来的问题是:由这些仪器采集而来的数 据具有严重的多重相关性。主成分回归(Principle Component Regression, PCR)和偏最 小二乘回归(Partial Least Square Regression, PLSR)是解决该问题时应用最多的方法。 这两种方法通过将有效信息映射到得分较高的载荷向量上,滤除在得分低的载荷向量的噪 声,进而可以对全谱直接分析。然而由于光谱中有时存在大量无用信息,在使用PCR或者 PLSR之前很有必要进行变量和光谱数据预处理算法的选择,这将有利于模型性能的提高。 迄今为止,光谱波长变量选择方法大概可以分为离散单波长和连续区间波长选 择两种方法。前者主要包括先验知识选择法、相关系数选择法、连续投影法、无信息变量 消除法、遗传算法(Genetic Algorithm, GA)、模拟退火等;后者包括区间偏最小二乘法、 反向区间偏最小二乘、组合区间偏最小二乘(synergy interval Partial Least Square, siPLS)、移动窗偏最小二乘(Moving Window Partial Least Square, MWPLS)、可变移动 窗偏最小二乘(Changeable Size Moving Window Partial Least Square, CSMWPLS)、搜 索组合窗偏最小二乘和区间随机青蛙法等。大量试验数据已经证实,连续区间波长选择方 法中的中移动窗偏最小二乘法以及其衍生方法在提高模型性能方面已经广泛得到认可。 如在《应用光谱学(Applied Spectroscopy)》(2000年第54卷,413-419页)上发表的名 称为"间隔偏最小二乘回归:利用一个近红外光谱例子比较化学计量学的研究(Interval Partial Least-Squares Regression (iPLS): A Comparative Chemometric Study with an Example from Near-Infrared Spectroscopy)",所涉及的正是这样一种利用连续区间 波长选择法和移动窗偏最小二乘法进行光谱分析方法。 在建立光谱数学模型时,合理地选择光谱数据预处理算法也是一项重要的工 作。特别是对于一些复杂物质,或者原始谱图中信息含量较弱的物质,数据预处理算法合 理地应用就显得更为重要。常见的数据预处理算法,大概可分为平滑(Savitzk y-Golay Smoothing,SGS)、导数(Savitzky-Golay Derivatization,S⑶)、信号校正和数据标准化等 四类。其中SGS、S⑶算法由于采用Savitzky-Golay方式,分别涉及到3个和2个可调参 数;数据标准化算法包括均值中心化(Mean Center,MC)和标准化两种方法;信号校正算法 包括标准正态变换(SNV)、多元散射校正(MSC)等方法。事实上,光谱波长变量和数据预处 理算法会在一定程度上相互影响的。如在《化学计量学和智能实验室系统(Chemometrics and Intelligent Laboratory Systems)》(2011 年第 107 卷,50-58 页)上发表的名称为"同 时优化光谱预处理方法和波长变量的并行遗传算法在PLSR中的应用(Parallel genetic algorithm co-optimization of spectral pre-processing and wavelength selection for PLS regression)",所涉及的正是这样一种利用GA对玉米、猪肉和甜菜等近红外光谱 进行建模的方法,文章明确指出在优选数据预处理算法的同时优化波长变量将会进一步提 尚丰旲型的性能。 然而,在分子光谱分析时,以往的同时优选波长变量和数据预处理算法仍然具有 以下不足:(1)算法生成的个体解码后,存在同一类型数据预处理算法多次被选择的情况, 导致了该个体难以用合理的化学进行解释;(2)数据预处理算法参与计算的顺序不能得以 优化;(3)由于采用了特定基因编码对应特定的数据预处理算法,造成数据预处理算法内 部可调参数变化的范围有限,这在一定程度上限制了全局最优解的合理导出。
技术实现思路
针对上述技术的不足,本专利技术的目的是为分析分子光谱提供一种改进的可变移 动窗偏最小二乘法:预处理方法分类参数可调的可变移动窗偏最小二乘法(pretreatment method Classification and Adjustable parameter Changeable Size Moving Window Partial Least Square,CA-CSMWPLS)。该方法通过其自身特有的编码机制、染色体结构和 解码规则,不仅能够克服以往相关方法的不足,而且可以避免人工选择数据预处理算法和 波长变量的主观性,从而进一步改善光谱模型的各项性能指标。 本专利技术所采用的技术方案是:利用所述CA-CSMffPLS进行光谱分析时包括下列步 骤: Sl参数初始化:首先读入光谱数据和待测物性质数据,按照样本划分的方法以比例为 4:1或者3:1或其它合理比值,将其划分为建模样本和测试样本;然后设置窗口的个数N、窗 口宽度的变化范围、GA精英数量E、GA已完成独立运行的次数i=0、允许GA独立运行的最大 次数L,GA的种群规模P、GA已完成的遗传操作次数g=0、允许遗传操作的最大次数G ;最后 选择一种回归算法M。 S2个体初始化:对于CA-CSMffPLS个体的染色体中的数据预处理算法优化区的基 因按照CA-CSMffPLS编码规则进行随机初始化;对于CA-CSMffPLS染色体中的波长变量优化 区的基因,使用MffPLS搜索有效信息含量较高的光谱区域后,将CA-CSMffPLS的全部个体中 80%左右的个体的窗口位置按照CA-CSMffPLS编码规则初始化在该有效信息含量较高的光 谱区域上,其余个体的窗口位置随机初始化在全光谱区域内。 S3模型评价:首先按照CA-CSMffPLS解码规则对每一个个体进行解码,并根据解码 的结果,得到波长变量优化区基因和数据预处理算法优化区基因对应的波长变量信息和数 据预处理算法信息;然后基于留一法交互验证和得到的上述信息,拟合最佳的回归模型M, 同时根据CA-CSMffPLS适应度函数计算每个个体的适应度,选择适应度值最佳的个体对测 试样本进行精度评价。 S4遗传操作:适应度最高的E个个体跳过该步骤直接进入下次循环,其它个体按 照赌轮盘的方法对个体进行复制、交叉和变异等遗传操作,并且令g=g+l,即完成一次遗传 操作,如果g彡G,则返回S3 ;否则执行S5。 S5输出结果:令i=i+l ;如果GA独立运行的次数i彡L,则执本文档来自技高网
...

【技术保护点】
一种用于分析分子光谱的改进可变移动窗偏最小二乘法—预处理方法分类参数可调的可变移动窗偏最小二乘法(CA‑CSMWPLS),其特征是:首先进行相关参数的初始化,其次对于CA‑CSMWPLS的个体按照CA‑CSMWPLS的编码规则进行初始化,接着根据CA‑CSMWPLS的解码规则和CA‑CSMWPLS适应度函数进行模型评价,然后执行遗传操作,最后完成既定次数的独立运行后进行输出并统计结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:赵勇王圣毫李智
申请(专利权)人:东北大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1