当前位置: 首页 > 专利查询>西北大学专利>正文

一种拉曼光谱多元数据分析方法技术

技术编号:28219829 阅读:279 留言:0更新日期:2021-04-28 09:40
本发明专利技术涉及一种拉曼光谱多元数据分析方法,具体包括以下步骤:利用拉曼光谱检测仪器采集各种样品的原始拉曼光谱数据;通过自主开发分析方法对原始数据进行预处理;在光谱数据预处理基础上开展归一化和均值中心化数据处理;针对预处理后的数据选择使用主成分分析或最小二乘判别分析提取光谱特征数据,并分别利用单因素方差分析和交叉验证选取所述光谱数据中的显著特征成分;结合分类模型进行光谱识别,使用无偏留一法交叉验证来评估各分类模型可靠性;选取剩余样本进行测试,得到样本分类的准确率,敏感性,特异性,以及模型的受试工作者特征曲线评估系统的识别性能。本发明专利技术可广泛应用于拉曼光谱信息处理及其光谱特征计算机识别领域。识别领域。识别领域。

【技术实现步骤摘要】
一种拉曼光谱多元数据分析方法


[0001]本专利技术涉及拉曼光谱信息处理及其光谱特征计算机识别领域,特别是涉及一种拉曼光谱多元数据分析方法。

技术介绍

[0002]拉曼光谱是基于光和材料内化学键的相互作用而产生的,是一种无损的分析技术可以获得样品的化学结构、相和形态、结晶度以及分子相互作用的详细信息。利用拉曼光谱还可以把处于红外区的分子能谱转移到可见光区来进行检测。因此拉曼光谱作为红外光谱的补充,是研究分子物质结构的一种强有力武器。随着科学技术的发展进步,拉曼光谱技术在石油、化工、材料、生物、环保、地质等多个领域得到应用,为各行业的发展提供了更多的分子结构方面的信息。
[0003]目前,拉曼光谱技术已经发展成为分析科学领域基础与应用科学研究中最为重要的技术之一。因其具有分子敏感性、易于实施以及水环境适用性等技术特征,拉曼光谱分析技术也已被广泛应用于其他多学科研究领域。此外,最新的发展已经将拉曼散射的化学敏感性和特异性与共焦显微镜的高空间分辨率结合起来,重构产生样品生化构成的图像信息。尽管如此,拉曼光谱分析技术及其相关分析技术的广泛应用,也还受到一些技术难点的制约。首先,拉曼散射为一种微弱的光学现象,其所产生的光谱信息(即拉曼光谱)极易受环境及外界因素的干扰;其次,在复杂的生化环境或其他体系内,不同种类的生物大分子含有类似的生化构成,从而导致其拉曼光谱出现谱峰位置交叠、谱峰强度不均及谱峰宽度(半高宽)延展的现象。
[0004]基于以上背景,提出一种拉曼光谱多元数据分析方法,在实现不同种类样品原始拉曼光谱预处理的基础上,运用特征提取和分类鉴别多元数据分析方法,实现不同材料光谱特征信息的提取与判定。

技术实现思路

[0005]本专利技术的目的是提供一种拉曼光谱多元数据分析方法及软件系统,应用于各类有机与无机材料的拉曼光谱与光谱数据集预处理与多元分析。根据拉曼光谱数据集结合PCA,PLS

DA算法对样品光谱进行特征提取,而后结合LDA,PLS

DA,SVM,PCA

SVM算法对样品特征判别分析。
[0006]为实现上述目的,本专利技术提供了如下方案:
[0007]一种拉曼光谱多元数据分析方法,包括以下步骤:
[0008]S1、利用拉曼光谱检测仪器,测量得到各类有机与无机材料的原始拉曼光谱与光谱数据集;
[0009]S2、使用拉曼光谱多元数据分析软件系统对得到的拉曼光谱数据集进行预处理;
[0010]S3、对所述得到的拉曼光谱数据集进行预处理后,对所述拉曼光谱数据进行归一化和均值中心化处理;
[0011]S4、采用主成分分析法PCA或偏最小二乘

判别分析法PLS

DA提取拉曼光谱特征数据,分别利用单因素方差分析和交叉验证提取所述拉曼光谱数据中显著特征成分;
[0012]S5、结合分类模型,对所述步骤S4中提取的特征分别建立并利用四种分类模型,进行光谱信息分类鉴别;
[0013]S6、使用无偏留一法交叉验证,评估所述分类模型的可靠性;
[0014]S7、选取剩余数据进行测试,得到样本分类的准确率、敏感性、特异性、以及所述分类模型的受试工作者特征曲线,并对分类模型性能进行评估。
[0015]优选地,所述步骤S2中,预处理主要包括:对光谱特征范围选择、去宇宙射线、基于多项式拟合方法的背景荧光信号处理和基于Savitzky

Golay卷积方法的光谱平滑处理。
[0016]优选地,所述步骤S3中,在预处理的基础上,根据需求选择光谱强度归一化、谱峰面积归一化、峰强归一化和均值中心化处理。
[0017]优选地,所述步骤S4中的主成分分析法PCA的过程为:
[0018]通过正交变换将一组线性相关变量转换成线性无关变量,降低光谱数据集的维度,同时提取数据集中显著的特征J;根据观测样本数I及光谱特征数J构建样本数据集X(I
×
J),对样本数据集进行谱峰面积归一化和均值中心化处理,然后获得协方差矩阵X
T
X;对所述协方差矩阵进行奇异值分解,得到X=PΔQ
T
,其中,P是左奇异矢量,Q是右奇异矢量,Δ是奇异值的对角矩阵;
[0019]F=PΔ,F=PΔ=PΔQ
T
Q=XQ,矩阵Q给出了用于计算因子得分的线性组合的系数,因此也称为投影矩阵,用X乘以Q得到了主成分上观测值的投影值F。
[0020]优选地,所述步骤S5中的四种分类模型包括:基于线性判别分析方法LDA、偏最小二乘

判别分析方法PLS

DA、支持向量机SVM和主成分分析结合支持向量机PCA

SVM算法建立的分类模型。
[0021]优选地,在所述步骤S7中选取剩余数据进行测试,得到所述各分类模型性能指标的受试工作者特征曲线ROC,结合所述步骤S5

S7对所述拉曼光谱数据及生化差异进行分析。
[0022]优选地,所述ROC曲线为受试者工作特征曲线,能够反映光谱分类模型灵敏度和特异性;所述ROC曲线通过连续改变分类阈值从而计算出一系列灵敏度和特异性,再以灵敏度为纵坐标、1

特异性为横坐标绘制成ROC曲线,曲线下面积越大,分类模型的预测准确性越高。
[0023]本专利技术的有益效果为:
[0024]1、本专利技术具有完善的拉曼光谱数据集预处理功能,能够对采集的单个拉曼光谱或光谱数据集进行光谱特征范围选择,去除宇宙射线,基于多项式拟合方法的背景荧光信号处理和基于Savitzky

Golay卷积的光谱平滑处理,以及根据需求选择进行归一化(光谱强度归一化,谱峰面积归一化,峰强归一化)与均值中心化处理功能;
[0025]2、本专利技术集成优化了多种常用于各类有机材料和无机材料的拉曼光谱多元数据分析方法:主成分分析方法(PCA),偏最小二乘

判别分析方法(PLS

DA),线性判别分析方法(LDA),支持向量机(SVM),主成分分析结合支持向量机(PCA

SVM);
[0026]3、本专利技术将主成分分析与支持向量机结合的PCA

SVM分类算法模型,在SVM的基础上提高了模型的分类性能;
[0027]4、本专利技术能有效识别出包括,以生物组织、细胞为代表的各类有机与无机材料在内的样品特征并进行区分,但不仅限于这几类样品;
[0028]5、本专利技术在特征提取部分,利用PCA,PLS

DA结合单因素方差分析以及交叉验证选取数据集中具有显著意义的特征。
附图说明
[0029]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种拉曼光谱多元数据分析方法,其特征在于,包括以下步骤:S1、利用拉曼光谱检测仪器,测量得到各类有机与无机材料的原始拉曼光谱与光谱数据集;S2、使用拉曼光谱多元数据分析软件系统对得到的拉曼光谱数据集进行预处理;S3、对所述得到的拉曼光谱数据集进行预处理后,对所述拉曼光谱数据进行归一化和均值中心化处理;S4、采用主成分分析法PCA或偏最小二乘

判别分析法PLS

DA提取拉曼光谱特征数据,分别利用单因素方差分析和交叉验证提取所述拉曼光谱数据中显著特征成分;S5、结合分类模型,对所述步骤S4中提取的特征分别建立并利用四种分类模型,进行光谱信息分类鉴别;S6、使用无偏留一法交叉验证,评估所述分类模型的可靠性;S7、选取剩余数据进行测试,得到样本分类的准确率、敏感性、特异性、以及所述分类模型的受试工作者特征曲线,并对分类模型性能进行评估。2.根据权利要求1所述的拉曼光谱多元数据分析方法,其特征在于,所述步骤S2中,预处理主要包括:对光谱特征范围选择、去宇宙射线、基于多项式拟合方法的背景荧光信号处理和基于Savitzky

Golay卷积方法的光谱平滑处理。3.根据权利要求1所述的拉曼光谱多元数据分析方法,其特征在于,所述步骤S3中,在预处理的基础上,根据需求选择光谱强度归一化、谱峰面积归一化、峰强归一化和均值中心化处理。4.根据权利要求1所述的拉曼光谱多元数据分析方法,其特征在于,所述步骤S4中的主成分分析法PCA的过程为:通过正交变换将一组线性相关变量转换成线性无关变量,降低光谱数据集的维度,同时提取数据集中显著...

【专利技术属性】
技术研发人员:王爽陈一申宋东良李洁王海峰
申请(专利权)人:西北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1