The invention relates to a novel spectral multivariate analysis classification and recognition method and its use for the SIMCA method for the Euclidean distance leads to inaccurate classification problem, using Mahalanobis distance instead of Euclidean distance prediction is a kind of improved SIMCA method. It mainly includes five parts: sample preparation and spectrum collection, sampling and processing of spectral data, establishment of multivariate correction model, prediction and evaluation. Compared with the traditional SIMCA method, the invention has the advantages of improving the classification accuracy of SIMCA and wider application range. The invention is suitable for the identification of multi component samples of solid, liquid and gaseous state, and has good application prospect.
【技术实现步骤摘要】
一种新型光谱多元分析分类与识别方法及其用途
本专利技术涉及光谱分析领域,可用于石化、烟草、医药、环境、食品检测等领域。本专利技术针对SIMCA方法因欧氏距离导致分类不够精确的问题,采用了马氏距离来代替欧式距离进行预测,是一种改进的SIMCA方法。
技术介绍
分子光谱(红外、近红外和拉曼)从分子水平上反映了物质组成与结构信息,紫外,LIBS、X荧光等波谱则从电子或原子水平上反映物质组成和结构的信息。随着光谱仪器技术的发展,这些光谱的获取也越来越容易,不仅速度快,且大多无损,因此,光谱已经成为分析技术的理想信息载体。复杂物质光谱是其组分光谱的叠加,共存组分信息干扰使得分析难度增加,多元分析方法则是用来提取其有用信息的有力工具。将光谱和多元分析方法结合起来,称之为现代光谱分析技术,可以实现复杂体系的定性和定量分析,具有快速、无损和高通量的等优点,已广泛应用于石化、烟草、医药、环境、食品检测等领域,对工业生产过程质量和成本控制以及流通领域质量监督等具有不可或缺的重要作用。现代光谱分析方法包括定性和定量。其中,光谱定性分析也称判别分析,主要用于两个方面。一是用于判别样品的种类,等级,来源及真伪等,二是判别待分析样品是否落在定量分析模型范围之内,即用于确定多元定量分析模型的适用范围,对于保障光谱多元定量分析结果的准确性具有关键作用。目前光谱多元分析中常用的分类方法主要包括:线性学习机(LinearLearningMachine)、K-最近邻法(K-NearestNeighborsDiscriminationMethod,KNN)、主成分分析(PrincipalComp ...
【技术保护点】
一种新型光谱多元分析分类与识别方法,其特征在于,包括如下步骤:(1)样本制备:与光谱采集:收集待检测材料,根据材料特性,将待检测材料加工处理制成样本,使得光谱仪能采集到样本的光谱数据;(2)样本光谱数据采集与处理:用光谱仪器对步骤(1)中制得的样本进行光谱测量,可获得由步骤(1)制得的样本的光谱数据组成的样本光谱数据集Sm,,并利用SG平滑方法消除样本光谱数据集Sm中光谱数据的高频噪音,然后用一阶求导方法消除样本光谱数据集Sm中光谱数据的基线漂移,接着对样本光谱数据集Sm中光谱数据进行均值中心化处理;(3)建立多元校正模型:将经过步骤(2)处理后的样本光谱数据集Sm分为校正集Smc和验证集Smv,校正集Smc由具有的样本光谱数据组成且占样本光谱数据集Sm的光谱数据的80%;分别对校正集Smc中的每类样本建立主成分模型,并根据Hotelling T2检验计算T^2的临界值
【技术特征摘要】
1.一种新型光谱多元分析分类与识别方法,其特征在于,包括如下步骤:(1)样本制备:与光谱采集:收集待检测材料,根据材料特性,将待检测材料加工处理制成样本,使得光谱仪能采集到样本的光谱数据;(2)样本光谱数据采集与处理:用光谱仪器对步骤(1)中制得的样本进行光谱测量,可获得由步骤(1)制得的样本的光谱数据组成的样本光谱数据集Sm,,并利用SG平滑方法消除样本光谱数据集Sm中光谱数据的高频噪音,然后用一阶求导方法消除样本光谱数据集Sm中光谱数据的基线漂移,接着对样本光谱数据集Sm中光谱数据进行均值中心化处理;(3)建立多元校正模型:将经过步骤(2)处理后的样本光谱数据集Sm分为校正集Smc和验证集Smv,校正集Smc由具有的样本光谱数据组成且占样本光谱数据集Sm的光谱数据的80%;分别对校正集Smc中的每类样本建立主成分模型,并根据HotellingT2检验计算T^2的临界值根据建模样本集的二次分布结果近似出残差阈值Q;(4)预测:根据主成分模型的最佳主成分数A计算验证集Smc中样本的T^2和残差Si的值,通过T^2的临界值和残差阈值Q计算验证集Smv中的样本到主成分模型的马氏距离,并根据最小的马氏距离值判别待测样本的类别;(5)评价:以步骤(3)中所得到的验证集Smv对不同方法预测的结果进行评价,以主成分模型的预测准确率和错误样本个数为指标,评价方法的优劣,其中,预测准确率的计算公式如下:2.按照权利要求1所述的方法,其特征在于,步骤(3)中,分别对校正集Smc中的每类样本建立主成分模型,并根据HotellingT2检验计算T^2的临界值根据建模样本集的二次分布结果近似出残差的阈值Q,具体步骤如下:(3.1)对于每一个校正集Smc,将校正集Smc中样本光谱数据按类别分开并进行编号,然后分别对每类样本光谱数据建立PCA模型;(3.2)用交叉验证计算预测误差平方加和PRESS,根据PRESS随主成分数变化曲线确定步骤(3.1)中所建PCA模型的最佳主成分数A;(3.3)根据步骤(3.2)中确定的最佳主成分数A建立主成分模型其中为样本均值,T为得分矩阵,P为载荷矩阵,E为残差矩阵;(3.4)根据HotellingT2检验,利用步骤(3.2)中确定的最佳主成分数A,计算T^2的临界值(3.5)根据建模样本集的二次分布结果,利用协方差矩阵,近似出残差阈值Q。3.按照权利要求2所述的方法,...
【专利技术属性】
技术研发人员:袁洪福,吴妍娴,宋春风,赵众,
申请(专利权)人:北京化工大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。