一种新型光谱多元分析分类与识别方法及其用途技术

技术编号:15389848 阅读:69 留言:0更新日期:2017-05-19 03:41
本发明专利技术为一种新型光谱多元分析分类与识别方法及其用途,针对SIMCA方法因欧氏距离导致分类不够精确的问题,采用了马氏距离来代替欧式距离进行预测,是一种改进的SIMCA方法。主要包括:样本制备与光谱采集、样本光谱数据采集与处理、建立多元校正模型、预测和评价五个部分。与传统的SIMCA方法相比,本发明专利技术的优势:改善了SIMCA的分类精度,应用的范围更广。本发明专利技术适用于对固体、液体、气体状态的多组分样品的识别,具有良好的应用前景。

Novel spectral multielement analysis, classification and identification method and use thereof

The invention relates to a novel spectral multivariate analysis classification and recognition method and its use for the SIMCA method for the Euclidean distance leads to inaccurate classification problem, using Mahalanobis distance instead of Euclidean distance prediction is a kind of improved SIMCA method. It mainly includes five parts: sample preparation and spectrum collection, sampling and processing of spectral data, establishment of multivariate correction model, prediction and evaluation. Compared with the traditional SIMCA method, the invention has the advantages of improving the classification accuracy of SIMCA and wider application range. The invention is suitable for the identification of multi component samples of solid, liquid and gaseous state, and has good application prospect.

【技术实现步骤摘要】
一种新型光谱多元分析分类与识别方法及其用途
本专利技术涉及光谱分析领域,可用于石化、烟草、医药、环境、食品检测等领域。本专利技术针对SIMCA方法因欧氏距离导致分类不够精确的问题,采用了马氏距离来代替欧式距离进行预测,是一种改进的SIMCA方法。
技术介绍
分子光谱(红外、近红外和拉曼)从分子水平上反映了物质组成与结构信息,紫外,LIBS、X荧光等波谱则从电子或原子水平上反映物质组成和结构的信息。随着光谱仪器技术的发展,这些光谱的获取也越来越容易,不仅速度快,且大多无损,因此,光谱已经成为分析技术的理想信息载体。复杂物质光谱是其组分光谱的叠加,共存组分信息干扰使得分析难度增加,多元分析方法则是用来提取其有用信息的有力工具。将光谱和多元分析方法结合起来,称之为现代光谱分析技术,可以实现复杂体系的定性和定量分析,具有快速、无损和高通量的等优点,已广泛应用于石化、烟草、医药、环境、食品检测等领域,对工业生产过程质量和成本控制以及流通领域质量监督等具有不可或缺的重要作用。现代光谱分析方法包括定性和定量。其中,光谱定性分析也称判别分析,主要用于两个方面。一是用于判别样品的种类,等级,来源及真伪等,二是判别待分析样品是否落在定量分析模型范围之内,即用于确定多元定量分析模型的适用范围,对于保障光谱多元定量分析结果的准确性具有关键作用。目前光谱多元分析中常用的分类方法主要包括:线性学习机(LinearLearningMachine)、K-最近邻法(K-NearestNeighborsDiscriminationMethod,KNN)、主成分分析(PrincipalComponentAnalysis,PCA)、马氏距离(MahalanobisDistance,MD)法、判别分析法(DiscriminationAnalysis,DA)、SIMCA方法、聚类分析、支持向量机等。在实际分析中普遍认为SIMCA方法是应用最广和最成熟的方法,被MATLAB软件列入工具箱,在科学研究中也是使用频率最高的。SIMCA方法是有监督的分类方法,分别对各类样品光谱进行主成分分析,建立各类样本的主成分光谱空间,分别采用主成分得分和光谱残差信息及F检验构造两个统计量T2和Q(残差),作为样本分类的新属性,然后,使用这两个属性计算样本到各类样品主成分光谱空间的欧氏距离,通过比较待测样品到各类样品主成分光谱空间的欧氏距离和设定阈值,实现样本的有效分类与识别。大量光谱应用结果表明,SIMCA方法分类可以获得很好的效果。但是,对于区分成分相近又存在着微小差异的样本,SIMCA方法分类的效果也不理想。在光谱主成分分析分类中常用马氏距离,以马氏距离描述的分布在几何学上呈椭圆状。相比欧式距离,用马氏距离描述实际样本空间分布将更贴近于实际。为此,本专利技术提出一种改进的SIMCA新方法,采用马氏距离来代替欧氏距离进行预测,改善SIMCA方法的分类精度。
技术实现思路
针对SIMCA方法难以区分成分相近又存在着微小差异的样本的问题,本专利技术提供了一种改进的SIMCA方法。其关键点在于:在SIMCA建立好模型之后,采用马氏距离来代替欧氏距离进行预测。本专利技术所述一种新型光谱多元分析分类与识别方法,包括以下步骤:(1)样本制备与光谱采集:收集待检测材料,根据材料特性,将待检测材料加工处理制成样本,使得光谱仪能采集到样本的光谱数据;(2)样本光谱数据采集与处理:用光谱仪器对步骤(1)中制得的样本进行光谱测量,可获得由步骤(1)制得的样本的光谱数据组成的样本光谱数据集Sm,,并利用SG平滑方法消除样本光谱数据集Sm中光谱数据的高频噪音,然后用一阶求导方法消除样本光谱数据集Sm中光谱数据的基线漂移,接着对样本光谱数据集Sm中光谱数据进行均值中心化处理;(3)建立多元校正模型:将经过步骤(2)处理后的样本光谱数据集Sm分为校正集Smc和验证集Smv,校正集Smc由具有的样本光谱数据组成且占样本光谱数据集Sm的光谱数据的80%;分别对校正集Smc中的每类样本建立主成分模型,并根据HotellingT2检验计算T2的临界值根据建模样本集的二次分布结果近似出残差阈值Q;其中,建模样本集的二次分布结果为校正集Smc的高斯分布结果;(4)预测:根据主成分模型的最佳主成分数A计算验证集Smc中样本的T2和残差Si的值,通过临界值和Q计算验证集Smv中的样本到主成分模型的马氏距离,并根据最小的马氏距离值判别待测样本的类别;(5)评价:以步骤(3)中所得到的验证集Smv对不同方法预测的结果进行评价,以主成分模型的预测准确率和错误样本个数为指标,评价方法的优劣,其中,预测准确率的计算公式如下:下面对本专利技术进行进一步的说明:上述方法中,在步骤(3)中,分别对校正集Smc中的每类样本建立主成分模型,并根据HotellingT2检验计算T2的临界值根据建模样本集的二次分布结果近似出残差的阈值Q,具体步骤如下:(3.1)对于每一个校正集Smc,将校正集Smc中样本光谱数据按类别分开并进行编号,然后分别对每类样本光谱数据建立PCA模型;以其中的一类光谱数据X为例,建立PCA模型:其中为样本均值,T为得分矩阵,P为载荷矩阵;(3.2)用交叉验证计算预测误差平方加和PRESS,根据PRESS随主成分数变化曲线确定步骤(3.1)中所建PCA模型的最佳主成分数A;(3.3)根据步骤(3.2)中确定的最佳主成分数A建立主成分模型其中X为样本均值,T为得分矩阵,P为载荷矩阵,E为残差矩阵;(3.4)根据HotellingT2检验,利用步骤(3.2)中确定的最佳主成分数A,计算T2的临界值(3.5)根据建模样本集的二次分布结果,利用协方差矩阵,近似出残差阈值Q。上述方法中,步骤(4)具体包括如下步骤:(4.1)根据步骤(3.2)中确定的最佳主成分数A,计算验证集Smc中样本的Ti2和残差Si的值;(4.2)根据步骤(3.1)中T2的临界值和残差阈值Q,对验证集Smv中的样本i进行特征提取,于是样本i可表示为(4.3)计算样本i到步骤(3.1)中所建PCA模型的中心(O={0,0})的马氏距离;(4.4)如果样本i在哪一类PCA模型下得到的马氏距离值最小,就将此样本判为哪一类。上述方法中,步骤(4.3)中,样本i到步骤(3.1)中所建PCA模型的中心(O={0,0})的马氏距离Dij的计算公式如下:上述方法中,利用得分向量计算验证集Smv中样本i的Ti2,Ti2计算公式如下:然后用F检验计算T2的临界值公式(4)中自由度分别为A和(n-A),n为建模的样本数,A为确定的最佳主成分数。上述方法中,PCA模型的残差阈值Q,可以用建模样本集的二次分布结果来近似确定,残差阈值Q计算公式如下:其中,zα为置信上限为100(1-α)%时的单位偏差,α的置信区间为0.04~0.06;其中,m为样本属性的维度,λj是协方差矩阵第j个特征值;此时,可将和作为样本的属性,于是可将样本表示为Z={xi|i=1,2……m},其中上述方法适用于对固体、液体、气体状态的多组分样品的识别。在对固体状态的多组分样品识别时,制备样本时,需要将固体样本摊开使得厚度均匀;而在对液体状态的多组分样品识别时,制备样本时,需要将液体样本充分静置使得密度均匀;在对气本文档来自技高网
...
一种新型光谱多元分析分类与识别方法及其用途

【技术保护点】
一种新型光谱多元分析分类与识别方法,其特征在于,包括如下步骤:(1)样本制备:与光谱采集:收集待检测材料,根据材料特性,将待检测材料加工处理制成样本,使得光谱仪能采集到样本的光谱数据;(2)样本光谱数据采集与处理:用光谱仪器对步骤(1)中制得的样本进行光谱测量,可获得由步骤(1)制得的样本的光谱数据组成的样本光谱数据集Sm,,并利用SG平滑方法消除样本光谱数据集Sm中光谱数据的高频噪音,然后用一阶求导方法消除样本光谱数据集Sm中光谱数据的基线漂移,接着对样本光谱数据集Sm中光谱数据进行均值中心化处理;(3)建立多元校正模型:将经过步骤(2)处理后的样本光谱数据集Sm分为校正集Smc和验证集Smv,校正集Smc由具有的样本光谱数据组成且占样本光谱数据集Sm的光谱数据的80%;分别对校正集Smc中的每类样本建立主成分模型,并根据Hotelling T2检验计算T^2的临界值

【技术特征摘要】
1.一种新型光谱多元分析分类与识别方法,其特征在于,包括如下步骤:(1)样本制备:与光谱采集:收集待检测材料,根据材料特性,将待检测材料加工处理制成样本,使得光谱仪能采集到样本的光谱数据;(2)样本光谱数据采集与处理:用光谱仪器对步骤(1)中制得的样本进行光谱测量,可获得由步骤(1)制得的样本的光谱数据组成的样本光谱数据集Sm,,并利用SG平滑方法消除样本光谱数据集Sm中光谱数据的高频噪音,然后用一阶求导方法消除样本光谱数据集Sm中光谱数据的基线漂移,接着对样本光谱数据集Sm中光谱数据进行均值中心化处理;(3)建立多元校正模型:将经过步骤(2)处理后的样本光谱数据集Sm分为校正集Smc和验证集Smv,校正集Smc由具有的样本光谱数据组成且占样本光谱数据集Sm的光谱数据的80%;分别对校正集Smc中的每类样本建立主成分模型,并根据HotellingT2检验计算T^2的临界值根据建模样本集的二次分布结果近似出残差阈值Q;(4)预测:根据主成分模型的最佳主成分数A计算验证集Smc中样本的T^2和残差Si的值,通过T^2的临界值和残差阈值Q计算验证集Smv中的样本到主成分模型的马氏距离,并根据最小的马氏距离值判别待测样本的类别;(5)评价:以步骤(3)中所得到的验证集Smv对不同方法预测的结果进行评价,以主成分模型的预测准确率和错误样本个数为指标,评价方法的优劣,其中,预测准确率的计算公式如下:2.按照权利要求1所述的方法,其特征在于,步骤(3)中,分别对校正集Smc中的每类样本建立主成分模型,并根据HotellingT2检验计算T^2的临界值根据建模样本集的二次分布结果近似出残差的阈值Q,具体步骤如下:(3.1)对于每一个校正集Smc,将校正集Smc中样本光谱数据按类别分开并进行编号,然后分别对每类样本光谱数据建立PCA模型;(3.2)用交叉验证计算预测误差平方加和PRESS,根据PRESS随主成分数变化曲线确定步骤(3.1)中所建PCA模型的最佳主成分数A;(3.3)根据步骤(3.2)中确定的最佳主成分数A建立主成分模型其中为样本均值,T为得分矩阵,P为载荷矩阵,E为残差矩阵;(3.4)根据HotellingT2检验,利用步骤(3.2)中确定的最佳主成分数A,计算T^2的临界值(3.5)根据建模样本集的二次分布结果,利用协方差矩阵,近似出残差阈值Q。3.按照权利要求2所述的方法,...

【专利技术属性】
技术研发人员:袁洪福吴妍娴宋春风赵众
申请(专利权)人:北京化工大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1