自动解析GC‑MS重叠峰准确识别化合物的方法技术

技术编号：17594556 阅读：102 留言：0更新日期：2018-03-31 08:32

一种自动解析GC‑MS重叠峰准确识别化合物的方法，利用GC‑MS获得表征样本中化合物的数据信息，随后针对各m/z下的色谱信号(EIC)采用多尺度高斯平滑函数提取其中的色谱峰信息。利用基于密度函数的聚类方法，以EIC色谱峰的形状和保留时间作为相似度标准，将归属于同一化合物的EIC峰聚类到一起，采用非负约束的多元曲线分辨‑交替最小二乘法实现单样本中重叠化合物的解析。该发明专利技术能够快速、准确地实现样本中化合物的自动化解析并筛选差异性化合物，对复杂植物样本分析如非靶向代谢组学研究具有重要价值。

Method of automatic analysis of GC MS overlapping peak accurate identification of compounds

A method for automatic analysis of GC MS overlapping peak accurate identification of compounds, the use of GC MS characterization of compound sample data information, then according to the chromatographic signal under m/z (EIC) using multi-scale Gauss smoothing function to extract the information of chromatographic peaks. The clustering method based on density function, with EIC chromatographic peak shape and retention time as similarity standard, EIC peak cluster will belong to the same compound together with non negative constraints multivariate curve resolution alternating least squares method to achieve resolution of overlapping compounds in single sample. The invention can automatically and automatically analyze and select different compounds in samples, and is of great value for complex plant sample analysis, such as non target metabonomics.

全部详细技术资料下载

【技术实现步骤摘要】
自动解析GC-MS重叠峰准确识别化合物的方法
本专利技术涉及解析气相色谱-质谱联用仪数据的领域，尤其涉及一种自动解析GC-MS重叠峰准确识别化合物的方法。
技术介绍
气相色谱-质谱联用仪(GC-MS：GasChromatography-MassSpectrometer)分析技术被用于不同的科研领域中来剖析研究对象中的挥发性化学组分。由于植物样本的复杂性，特别是在非靶向代谢组学研究中强调针对全成分的分析，导致GC-MS分析中色谱峰的数量超出色谱柱的分离能力，不可避免地出现色谱重叠峰问题。这一问题对于后续的数据分析，如化合物准确识别、定量分析、差异性代谢物的筛选有严重影响。另一方面，在植物代谢组分研究中，植物资源在不同的生长环境中产生的次生代谢物构成极为复杂，利用GC-MS技术筛选不同产地间具有差异性的代谢物，对于产地溯源、植物代谢通路研究、香精香料品质调控等具有重要的实际意义。然而由于GC-MS中的重叠峰问题，会导致数据分析结果的质量大幅降低。如何从复杂的GC-MS中准确识别其中的化学成分是目前极具挑战性的科研工作，也是当前分析化学领域的研究热点和难点。目前已有一些可用于GC-MS数据分析的方法，如XCMS、AMDIS、ADAP等。我们在使用中发现这些方法存在一些问题，如XCMS强调EIC峰的解析，无法自动将解析结果整合以实现GC-MS中重叠峰的解析，需要人为干预。AMDIS是美国NIST库中推荐的方法，它在峰检出的基础上采用模式峰进行重叠峰解析，由于模式峰本身可能受到其它物质的影响，这个方法在解析复杂的重叠峰会出现问题。在实际的分析中AMDIS的另一个重要...
<a href="http://www.xjishu.com/zhuanli/52/201711099024.html" title="自动解析GC‑MS重叠峰准确识别化合物的方法原文来自X技术">自动解析GC‑MS重叠峰准确识别化合物的方法</a>

【技术保护点】
一种自动解析GC‑MS重叠峰准确识别化合物的方法，其特征在于：利用GC‑MS获得单样本中化合物的数据信息，提取其中的色谱峰信息，基于密度函数的聚类方法，以EIC色谱峰的形状和保留时间作为相似度标准，将归属于同一化合物的EIC峰聚类到一起，采用非负约束的多元曲线分辨‑交替最小二乘法实现单样本中重叠化合物的解析，实现单样本中重叠化合物的解析。

【技术特征摘要】
1.一种自动解析GC-MS重叠峰准确识别化合物的方法，其特征在于：利用GC-MS获得单样本中化合物的数据信息，提取其中的色谱峰信息，基于密度函数的聚类方法，以EIC色谱峰的形状和保留时间作为相似度标准，将归属于同一化合物的EIC峰聚类到一起，采用非负约束的多元曲线分辨-交替最小二乘法实现单样本中重叠化合物的解析，实现单样本中重叠化合物的解析。2.根据权利要求1所述的自动解析GC-MS重叠峰准确识别化合物的方法，其特征在于，具体步骤包括：单样本中EIC峰的聚类：根据获得的EIC信号中有效色谱峰，将设定数目采样点范围内的EIC色谱峰划分为一个大类，设定所有色谱峰的平均值作为参考峰，计算每个EIC峰与参考峰的相似度，结合每一个EIC色谱峰的保留时间，作为一个点投影到时间-相似度的二维坐标系中，计算每一个点的局部密度，选择局部密度数值最大的点最为第一个子类的中心，第一个子类中心设定波动范围内的点都归属第一个子类，然后，剔除属于第一个子类的点，随后，在剩余点中选择局部密度数值最大点作为第二个子类的中心，第二个子类中心设定波动范围内的点都归属第二个子类，然后，剔除属于第二个子类的点，如此反复，一直到所有的点都被聚类，最终得到单样本中EIC色谱峰的聚类。3.根据权利要求2所述的自动解析GC-MS重叠峰准确识别化合物的方法，其特征在于：所述单样本中EIC峰的聚类步骤中，对于每一个子类，中心设定波动范围，是对应子类的中心点的时间和相似度坐标±2～4个采样点时间且±0.01～0.02相似度。4.根据权利要求3所述的自动解析GC-MS重叠峰准确识别化合物的方法，其特征在于：所述单样本中EIC峰的聚类步骤中，将设定数目采样点范围内的EIC色谱峰划分为一个大类，设定数目采样点为3～5个采样点。5.根据权利要求4所述的自动解析GC-MS重叠峰准确识别化合物的方法，其特征在于：所述单样本中EIC峰的聚类步骤中，对于每一个子类，统计点的数量，当点的数量小于2～4时，剔除该子类所有的点。6.根据权利要求1～5中任意一项所述的自动解析GC-MS重叠峰准确识别化合物的方法，其特征在于，具体步骤还包括：单样本中色谱峰的解析：气质联用信号具有双线性结构，采用非负约束的多元曲线分辨-交替最小二乘法，利用公式X＝CST，公式中X为采集的信号，C为物质的色谱信号，S为物质的质谱信号，C和S均为需要求解的部分，在解析过程中，首先根据得到的单样本中EIC色谱峰的聚类，通过奇异值分析来初始化各物质的色谱信号矩阵C，然后通过ST＝C+X求解S，再通过...

【专利技术属性】
技术研发人员：于永杰，张月明，白长财，佘远斌，
申请(专利权)人：宁夏医科大学，
类型：发明
国别省市：宁夏,64

全部详细技术资料下载我是这个专利的主人