自动解析GC‑MS重叠峰准确识别化合物的方法技术

技术编号:17594556 阅读:102 留言:0更新日期:2018-03-31 08:32
一种自动解析GC‑MS重叠峰准确识别化合物的方法,利用GC‑MS获得表征样本中化合物的数据信息,随后针对各m/z下的色谱信号(EIC)采用多尺度高斯平滑函数提取其中的色谱峰信息。利用基于密度函数的聚类方法,以EIC色谱峰的形状和保留时间作为相似度标准,将归属于同一化合物的EIC峰聚类到一起,采用非负约束的多元曲线分辨‑交替最小二乘法实现单样本中重叠化合物的解析。该发明专利技术能够快速、准确地实现样本中化合物的自动化解析并筛选差异性化合物,对复杂植物样本分析如非靶向代谢组学研究具有重要价值。

Method of automatic analysis of GC MS overlapping peak accurate identification of compounds

A method for automatic analysis of GC MS overlapping peak accurate identification of compounds, the use of GC MS characterization of compound sample data information, then according to the chromatographic signal under m/z (EIC) using multi-scale Gauss smoothing function to extract the information of chromatographic peaks. The clustering method based on density function, with EIC chromatographic peak shape and retention time as similarity standard, EIC peak cluster will belong to the same compound together with non negative constraints multivariate curve resolution alternating least squares method to achieve resolution of overlapping compounds in single sample. The invention can automatically and automatically analyze and select different compounds in samples, and is of great value for complex plant sample analysis, such as non target metabonomics.

【技术实现步骤摘要】
自动解析GC-MS重叠峰准确识别化合物的方法
本专利技术涉及解析气相色谱-质谱联用仪数据的领域,尤其涉及一种自动解析GC-MS重叠峰准确识别化合物的方法。
技术介绍
气相色谱-质谱联用仪(GC-MS:GasChromatography-MassSpectrometer)分析技术被用于不同的科研领域中来剖析研究对象中的挥发性化学组分。由于植物样本的复杂性,特别是在非靶向代谢组学研究中强调针对全成分的分析,导致GC-MS分析中色谱峰的数量超出色谱柱的分离能力,不可避免地出现色谱重叠峰问题。这一问题对于后续的数据分析,如化合物准确识别、定量分析、差异性代谢物的筛选有严重影响。另一方面,在植物代谢组分研究中,植物资源在不同的生长环境中产生的次生代谢物构成极为复杂,利用GC-MS技术筛选不同产地间具有差异性的代谢物,对于产地溯源、植物代谢通路研究、香精香料品质调控等具有重要的实际意义。然而由于GC-MS中的重叠峰问题,会导致数据分析结果的质量大幅降低。如何从复杂的GC-MS中准确识别其中的化学成分是目前极具挑战性的科研工作,也是当前分析化学领域的研究热点和难点。目前已有一些可用于GC-MS数据分析的方法,如XCMS、AMDIS、ADAP等。我们在使用中发现这些方法存在一些问题,如XCMS强调EIC峰的解析,无法自动将解析结果整合以实现GC-MS中重叠峰的解析,需要人为干预。AMDIS是美国NIST库中推荐的方法,它在峰检出的基础上采用模式峰进行重叠峰解析,由于模式峰本身可能受到其它物质的影响,这个方法在解析复杂的重叠峰会出现问题。在实际的分析中AMDIS的另一个重要问题是产生的大量假阳性结果,分析人员必须逐一识别色谱峰,导致分析效率极低。ADAP是目前较为先进的一种方法,Du课题组对ADAP进行了一系列升级,对其中的色谱峰和EIC峰聚类进行了优化:从早期利用一阶导数进行峰检出到目前基于连续小波变换峰检出,从K均值聚类EIC峰到目前的基于距离聚类的方法。然而,由于连续小波变换本身的问题,导致这一方法存在假阴性问题。另外,K均值聚类中会导致假阳性和假阴性的聚类结果,导致最终的物质信息解析出现问题。除此以外,ADAP和AMDIS一样采用的是模式峰对信号进行拟合,如果初始的模式峰存在问题,最终的定性和定量结果可靠性大大降低。在重叠峰解析问题上,利用化学计量学方法有望提供高质量的重叠峰解析结果,其中的代表性方法为多元曲线分辨-交替最小二乘法。遗憾是,目前所有的化学计量学算法需要分析人员手动设定计算参数,难以做到自动化实现重叠信号的解析。虽然报道了某方法在代谢组学中一些应用,但由于无法实现数据的自动化解析,使其难以胜任上百个色谱峰的高效分析,因而尚无法在非靶向代谢组学研究中进行深入推广。总之,目前在代谢组学等复杂样本研究中亟待自动化、高质量的物质剖析新方法。
技术实现思路
针对现有技术的不足,本专利技术提供一种自动解析GC-MS重叠峰准确识别化合物的新方法,该专利技术能够快速、准确地实现样本中化合物解析并实现筛选样本差异性化合物,对非靶向代谢组学等复杂样本的分析研究具有重要价值。本专利技术解决其技术问题所采用的技术方案是:一种自动解析GC-MS重叠峰准确识别化合物的方法,利用GC-MS获得单样本中化合物的数据信息,提取其中的色谱峰信息,基于密度函数的聚类方法,以EIC色谱峰的形状和保留时间作为相似度标准,将归属于同一化合物的EIC峰聚类到一起,采用非负约束的多元曲线分辨-交替最小二乘法实现单样本中重叠化合物的解析,实现单样本中化合物的解析。最优的,具体步骤包括:单样本中EIC峰的聚类:根据获得的EIC信号中有效色谱峰,将设定数目采样点范围内的EIC色谱峰划分为一个大类,设定所有色谱峰的平均值作为参考峰,计算每个EIC峰与参考峰的相似度,结合每一个EIC色谱峰的保留时间,作为一个点投影到时间-相似度的二维坐标系中,计算每一个点的局部密度,选择局部密度数值最大的点最为第一个子类的中心,第一个子类中心设定波动范围内的点都归属第一个子类,然后,剔除属于第一个子类的点,随后,在剩余点中选择局部密度数值最大点作为第二个子类的中心,第二个子类中心设定波动范围内的点都归属第二个子类,然后,剔除属于第二个子类的点,如此反复,一直到所有的点都被聚类,最终得到单样本中EIC色谱峰的聚类。最优的,所述单样本中EIC峰的聚类步骤中,对于每一个子类,中心设定波动范围,是对应子类的中心点的时间和相似度坐标±2~4个采样点时间且±0.01~0.02相似度。最优的,所述单样本中EIC峰的聚类步骤中,将设定数目采样点范围内的EIC色谱峰划分为一个大类,设定数目采样点为3~5个采样点。最优的,所述单样本中EIC峰的聚类步骤中,对于每一个子类,统计点的数量,当点的数量小于2~4时,剔除该子类所有的点。最优的,具体步骤还包括:单样本中色谱峰的解析:气质联用信号具有双线性结构,采用非负约束的多元曲线分辨-交替最小二乘法,利用公式X=CST,公式中X为采集的信号,C为物质的色谱信号,S为物质的质谱信号,C和S均为需要求解的部分,在解析过程中,首先根据得到的单样本中EIC色谱峰的聚类,通过奇异值分析来初始化各物质的色谱信号矩阵C,然后通过ST=C+X求解S,再通过C=X(ST)+求解C,交替求解C和S,直到收敛,接着对于样本中基线已分离的色谱峰,也通过该方法进行求解C和S,其中基线分离的定义为:初始化色谱信号之间重叠区域占各自面积的比值不超过5%,最终得到单样本中解析后的化合物。最优的,具体步骤还包括:单样本中EIC基线校正:利用获得的单样本GC-MS分析后的化合物数据信息,将GC-MS中质谱信号中质谱四舍五入圆整,在不同采样点下,对应于同一个m/z值的信号提取到一个色谱峰中,构成EIC,提取EIC下极小值,建立一个向量,通过移动窗口迭代优化修正属于色谱峰的极小值,窗口宽度用信号中的采样点数表示,且窗口内含有奇数个采样点,取窗口内所有数值的中位数与窗口中心位置的数值进行对比,若两者的差值大于窗口内所有数值一阶导数的标准偏差的2~3倍,则将中心位置的数值更换成窗口内所有数值的中位数,接着将窗口向右移动一个采样点,直到所有数据点均进行平滑,随后,根据这些极小值在原始EIC信号中的位置,利用线性插值估计出EIC的基线漂移值,扣除后实现基线校正,得到基线校正后的EIC。最优的,具体步骤还包括:单样本中EIC有效色谱峰提取:针对基线校正后的EIC,使用不同尺度高斯平滑卷积运算进行EIC信号平滑,对于每一个尺度平滑后的EIC信号,提取其中所有的极大值,利用脊线寻优算法,确定属于色谱峰的脊线,即将脊线长度超过设定阈值的判定为潜在色谱峰,将色谱最高点设定为中心位置,其左侧单调递增和右侧单调的信号判定为该色谱峰的信号,随后,将数据中非色谱峰部分信号中大于90%点的数值确定为仪器噪声,剔除信噪比小于设定值的色谱峰,剩下的色谱峰为有效色谱峰,即获得EIC信号中的有效色谱峰。最优的,所述单样本中EIC有效色谱峰提取步骤中,使用不同尺度高斯平滑卷积运算进行EIC信号平滑具体是以高斯函数的标准偏差作为平滑尺度,以0.1为步长,将尺度从1逐步增长到13;色谱峰的脊线长度设定阈值为20~30;另剔除信噪比小本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/52/201711099024.html" title="自动解析GC‑MS重叠峰准确识别化合物的方法原文来自X技术">自动解析GC‑MS重叠峰准确识别化合物的方法</a>

【技术保护点】
一种自动解析GC‑MS重叠峰准确识别化合物的方法,其特征在于:利用GC‑MS获得单样本中化合物的数据信息,提取其中的色谱峰信息,基于密度函数的聚类方法,以EIC色谱峰的形状和保留时间作为相似度标准,将归属于同一化合物的EIC峰聚类到一起,采用非负约束的多元曲线分辨‑交替最小二乘法实现单样本中重叠化合物的解析,实现单样本中重叠化合物的解析。

【技术特征摘要】
1.一种自动解析GC-MS重叠峰准确识别化合物的方法,其特征在于:利用GC-MS获得单样本中化合物的数据信息,提取其中的色谱峰信息,基于密度函数的聚类方法,以EIC色谱峰的形状和保留时间作为相似度标准,将归属于同一化合物的EIC峰聚类到一起,采用非负约束的多元曲线分辨-交替最小二乘法实现单样本中重叠化合物的解析,实现单样本中重叠化合物的解析。2.根据权利要求1所述的自动解析GC-MS重叠峰准确识别化合物的方法,其特征在于,具体步骤包括:单样本中EIC峰的聚类:根据获得的EIC信号中有效色谱峰,将设定数目采样点范围内的EIC色谱峰划分为一个大类,设定所有色谱峰的平均值作为参考峰,计算每个EIC峰与参考峰的相似度,结合每一个EIC色谱峰的保留时间,作为一个点投影到时间-相似度的二维坐标系中,计算每一个点的局部密度,选择局部密度数值最大的点最为第一个子类的中心,第一个子类中心设定波动范围内的点都归属第一个子类,然后,剔除属于第一个子类的点,随后,在剩余点中选择局部密度数值最大点作为第二个子类的中心,第二个子类中心设定波动范围内的点都归属第二个子类,然后,剔除属于第二个子类的点,如此反复,一直到所有的点都被聚类,最终得到单样本中EIC色谱峰的聚类。3.根据权利要求2所述的自动解析GC-MS重叠峰准确识别化合物的方法,其特征在于:所述单样本中EIC峰的聚类步骤中,对于每一个子类,中心设定波动范围,是对应子类的中心点的时间和相似度坐标±2~4个采样点时间且±0.01~0.02相似度。4.根据权利要求3所述的自动解析GC-MS重叠峰准确识别化合物的方法,其特征在于:所述单样本中EIC峰的聚类步骤中,将设定数目采样点范围内的EIC色谱峰划分为一个大类,设定数目采样点为3~5个采样点。5.根据权利要求4所述的自动解析GC-MS重叠峰准确识别化合物的方法,其特征在于:所述单样本中EIC峰的聚类步骤中,对于每一个子类,统计点的数量,当点的数量小于2~4时,剔除该子类所有的点。6.根据权利要求1~5中任意一项所述的自动解析GC-MS重叠峰准确识别化合物的方法,其特征在于,具体步骤还包括:单样本中色谱峰的解析:气质联用信号具有双线性结构,采用非负约束的多元曲线分辨-交替最小二乘法,利用公式X=CST,公式中X为采集的信号,C为物质的色谱信号,S为物质的质谱信号,C和S均为需要求解的部分,在解析过程中,首先根据得到的单样本中EIC色谱峰的聚类,通过奇异值分析来初始化各物质的色谱信号矩阵C,然后通过ST=C+X求解S,再通过...

【专利技术属性】
技术研发人员:于永杰张月明白长财佘远斌
申请(专利权)人:宁夏医科大学
类型:发明
国别省市:宁夏,64

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1