用于代谢组学的气相色谱‑质谱分析处理方法和系统技术方案

技术编号:17303232 阅读:102 留言:0更新日期:2018-02-18 20:09
本发明专利技术公开了一种用于代谢组学的气相色谱‑质谱分析处理方法和系统,包括以下步骤:S1:定义为提取参数模板,用AMDIS以可重复的方式提取每个样品的参数,用这些参数来整合整个数据集的色谱峰,并且在此过程结束时,生成汇总报告文件;S2:进行峰值提取,根据峰高或峰面积确定代谢物的浓度,将代谢物的浓度保存到汇总报告文件中;S3:验证峰值和代谢物浓度的正确性,将重新整合的峰值保存到汇总报告文件中;S4:执行污染物标记和校正;S5:对数据进行统计分析。本发明专利技术不需要像常规方法那样对每个样品进行峰鉴定、代谢物鉴定和比对,可以最大限度地减少分析处理大数据的时间,经检验,运用终端计算机可以在一小时内处理数百个样本。

Method and system for processing and analysis chromatography mass spectrometry metabolomics gas

The invention discloses a method and system for processing and analysis chromatography mass spectrometry for metabolomics gas, comprises the following steps: S1, defined as the parameter extraction of template parameters for each sample can be extracted by using AMDIS method, the chromatographic peak with these parameters to the integration of the entire data set, and at the end of this process the summary report, generate S2: file; peak extraction, based on the peak height or area to determine the concentration of metabolites, save the metabolites to report file; S3: validate the peak value and the concentration of metabolites, the peak will save re integration into the report file; S4: the implementation of pollutant marking and correction; S5: statistical analysis of data. The invention does not need to perform peak identification, metabolite identification and comparison for each sample as usual method, which can minimize the time to analyze and process large data. After testing, the terminal computers can process hundreds of samples within one hour.

【技术实现步骤摘要】
用于代谢组学的气相色谱-质谱分析处理方法和系统
本专利技术属于代谢组学的数据处理领域,特别是涉及一种用于代谢组学的气相色谱-质谱分析处理方法和系统。
技术介绍
GC-MS(GasChromatography-MassSpectrometer)是指气相色谱-质谱联用仪,是一种测量离子荷质比的仪器。由于气相色谱的流动相为惰性气体,气-固色谱法中以表面积大且具有一定活性的吸附剂作为固定相,当多组分的混合样品进入色谱柱后,由于吸附剂对每个组分的吸附力不同,经过一定时间后,各组分在色谱柱中的运行速度也就不同,吸附力弱的组分容易被解吸下来,最先离开色谱柱进入检测器,而吸附能力强的组分最不容易被解吸下来,因此最后离开色谱柱,如此各组分得以在色谱柱中彼此分离,顺序进入检测器中被检测、记录下来。在代谢组学中虽然气相色谱-质谱能在短时间内对几百或几千个样本进行分析,但同时也面临一些挑战,包括仪器的性能变化、质谱柱老化而引起的信号强度损失、例子源中污染物的积聚以及采样处理的差异等因素。虽然,气相色谱-质谱是应用于代谢组学研究的一种成熟的分析平台,能够分离复杂的生物化学混合物,并且能够从高复现性的电子轰击离子化质谱中快速的鉴定化合物,然而,当然气相色谱-质谱用于大样本研究时,在数月内分析成千上万个样品,将增加分析难度,很多用于气相色谱-质谱数据提取装置都是设计为了进行靶向分析,或者是少于一百个样本的分析,不能用于大数据处理。自动化质谱图解卷积和鉴定系统(简称AMDIS)利用算法提高了气相色谱-质谱鉴定化合物的可靠性,然而AMDIS不是为大数据而设计的,有时可能不准确地将同一色谱峰鉴定出多种物质,当化合物没有高准确度时,AMDIS也会产生缺失值,从而使多变量统计分析产生问题。
技术实现思路
针对现有技术的不足,本专利技术的目的在于提供一种可以大大提高GC-MS数据提取效率和准确性的用于代谢组学的气相色谱-质谱分析处理方法和系统。为了解决上述技术问题,本专利技术采用了如下的技术方案:一种用于代谢组学的气相色谱-质谱分析处理方法,包括以下步骤:S1:将参考离子的参数定义为提取参数模板,用AMDIS以可重复的方式提取每个样品的参数,用这些参数来整合整个数据集的色谱峰,并且在此过程结束时,生成汇总报告文件;S2:访问S1创建的汇总文件报告,进行峰值提取,根据峰高或峰面积确定代谢物的浓度,将代谢物的浓度保存到汇总报告文件中;S3:访问S2创建的汇总报告文件,验证峰值和代谢物浓度的正确性,将重新整合的峰值保存到汇总报告文件中;S4:执行污染物标记和校正;S5:对S5中的数据文件进行统计分析,并将最终统计结果保存在选定的工作目录下。在步骤S1中,若在质谱库中未预先定义参考离子,则可以选择从质谱库大量离子中自动生成一个参考离子。在进行峰值提取前,将AMDIS提取的全部样品参数生成图案文件。所述步骤S1中的参数包括参考离子、保留时间和化合物鉴定。在汇总报告文件中,为每个保留时间范围返回一个值。在步骤S3中,验证峰值浓度的方式包括:第一种方式:通过汇总报告文件中列出的警告信息判断不正确峰值浓度;第二种方式:通过重叠色谱图来判断不正确峰值浓度。在步骤S4中,生成的数据文件包括样本名称、样品类型和批次信息,通过样本中检测到的峰值与同一批次检测的平均值进行比较来鉴定污染物。在步骤S5中,所述统计分析的方法包括:第一种方法:主成分分析;第二种方法:偏最小二乘法-判别分析;第三种方法:方差分析或T检验。与现有技术相比,本专利技术的有益效果在于:1、本专利技术不需要像常规方法那样对每个样品进行峰鉴定、代谢物鉴定和比对,可以最大限度地减少分析处理大数据的时间,经检验,运用终端计算机可以在一小时内处理数百个样本。2、本专利技术通过峰值提取-峰值检测-污染物标记和校正-统计分析操作大大提高了GC-MS数据提取准确性。具体实施方式一种用于代谢组学的气相色谱-质谱分析处理方法,包括以下步骤:S1:将参考离子的参数定义为提取参数模板,用AMDIS以可重复的方式提取每个样品的参数,用这些参数来整合整个数据集的色谱峰,并且在此过程结束时,生成汇总报告文件;S2:访问S1创建的汇总文件报告,进行峰值提取,根据峰高或峰面积确定代谢物的浓度,将代谢物的浓度保存到汇总报告文件中;S3:访问S2创建的汇总报告文件,验证峰值和代谢物浓度的正确性,将重新整合的峰值保存到汇总报告文件中;S4:执行污染物标记和校正;S5:对S5中的数据文件进行统计分析,并将最终统计结果保存在选定的工作目录下。采用常规方法需要对每个样品进行峰鉴定、代谢物鉴定和比对,使得整个过程产生不必要的耗时;本方法通过AMDIS按照模板参数以可重复的方式提取所有样品的参数,然后再进行分析处理,最大限度地减少了分析处理大数据的时间;经过检验,通过使用总结模板中集成参数,运用终端计算机可以在一小时内处理数百个样本,极大地满足了代谢组学对大数据处理的要求。在步骤S1中,若在质谱库中未预先定义参考离子,则可以选择从质谱库大量离子中自动生成一个参考离子。在进行峰值提取前,将AMDIS提取的全部样品参数生成图案文件,以便在峰值提取前进行手动校正。所述步骤S1中的参数包括参考离子、保留时间和化合物鉴定。当然,用户还可以根据自己的喜好和需求轻松修改模板参数,例如纳入或排除特定化合物、或选择整合所有同位素离子。在AMDIS提取样品参数时,经常会出现保留时间偏移现象,重复性差,为了解决此问题,可以根据峰的保留时间偏移和峰值宽度来调整峰值保留时间,具体公式如下:其中,X=所有样品中被鉴定的代谢物的保留时间;peakwidth峰值宽度=色谱峰的宽度;IQR=四分位间距;Q1=第一四分位;Q2=第三四分位;为了确定保留时间范围内的多个色谱峰,一旦保留时间大于预设阈值,可以通过下列公式自动确定可能峰值。其中,i=initialscantime;n=endofscantime;density.yaxis=densityestimationofpeakheight;density.xaxis=densityestimationofscantime;i=最初扫描时间;n=扫描结束时间;density.yaxis=峰高的密度估计;density.xaxis=扫描时间的密度估计。当低丰度或共洗脱化合物未达到AMDIS中的光谱鉴定阈值时,或峰值嵌入背景噪声中,会产生大部分缺失值。因此,本方法为汇总报告文件中的每个保留时间范围返回一个值,不管是否确定了峰值,用这种方法,加上使用低基线阈值,可以将缺失值减少到所获取数据的0.02%以下。在步骤S3中,验证峰值浓度的方式包括:第一种方式:通过汇总报告文件中列出的警告信息判断不正确峰值浓度;第二种方式:通过重叠色谱图来判断不正确峰值浓度。在步骤S4中,为执行污染物标记和校正,生成的数据文件包括样本名称、样品类型和批次信息,通过样本中检测到的峰值与同一批次检测的平均值进行比较来鉴定污染物。在步骤S5中,所述统计分析的方法包括:第一种方法:主成分分析(PCA),主成分分析是通过微观谱图对未知成分进行分析,用于分析样品的主要成分。第二种方法:偏最小二乘法-判别分析,是一种根据观察或测量到的若干变量值,来判断研究对象如何分类的常用统计分析方法本文档来自技高网
...

【技术保护点】
一种用于代谢组学的气相色谱‑质谱分析处理方法,其特征在于,包括以下步骤:S1:将参考离子的参数定义为提取参数模板,用AMDIS以可重复的方式提取每个样品的参数,用这些参数来整合整个数据集的色谱峰,并且在此过程结束时,生成汇总报告文件;S2:访问S1创建的汇总文件报告,进行峰值提取,根据峰高或峰面积确定代谢物的浓度,将代谢物的浓度保存到汇总报告文件中;S3:访问S2创建的汇总报告文件,验证峰值和代谢物浓度的正确性,将重新整合的峰值保存到汇总报告文件中;S4:执行污染物标记和校正;S5:对S5中的数据文件进行统计分析,并将最终统计结果保存在选定的工作目录下。

【技术特征摘要】
1.一种用于代谢组学的气相色谱-质谱分析处理方法,其特征在于,包括以下步骤:S1:将参考离子的参数定义为提取参数模板,用AMDIS以可重复的方式提取每个样品的参数,用这些参数来整合整个数据集的色谱峰,并且在此过程结束时,生成汇总报告文件;S2:访问S1创建的汇总文件报告,进行峰值提取,根据峰高或峰面积确定代谢物的浓度,将代谢物的浓度保存到汇总报告文件中;S3:访问S2创建的汇总报告文件,验证峰值和代谢物浓度的正确性,将重新整合的峰值保存到汇总报告文件中;S4:执行污染物标记和校正;S5:对S5中的数据文件进行统计分析,并将最终统计结果保存在选定的工作目录下。2.根据权利要求1所述的一种用于代谢组学的气相色谱-质谱分析的数据处理方法,其特征在于:在步骤S1中,若在质谱库中未预先定义参考离子,则可以选择从质谱库大量离子中自动生成一个参考离子。3.根据权利要求1所述的一种用于代谢组学的气相色谱-质谱分析的数据处理方法,其特征在于:在进行峰值提取前,将AMDIS提取的全部样品参数生成图案文件。4.根据权利要求1所述的一种用于代谢组学的气相色谱-质谱分析的数据处理方法,其特征在于:所述步骤S1中的参数包括参考离子、保留时间和化合物鉴定。5.根据权利要求1所述的一种用于代谢组学的气相色谱-质谱...

【专利技术属性】
技术研发人员:张华韩顶立
申请(专利权)人:重庆医科大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1