复杂样本GC-MS自动解析实现化合物准确鉴别与差异性组分筛查的方法技术

技术编号:20654010 阅读:27 留言:0更新日期:2019-03-23 06:08
本发明专利技术提供了一种复杂样本GC‑MS自动解析实现化合物准确鉴别与差异性组分筛查的方法,属于气相色谱‑质谱联用数据解析。首先针对TIC和EIC下的色谱峰进行自动化提取,随后明确每个TIC色谱峰的解析范围,查找解析范围内的EIC色谱峰信息。根据EIC色谱峰信息进行聚类,获得每一个类的代表性色谱轮廓谱图。经过筛查后,构建初始色谱谱图矩阵,利用修正的多元曲线分辨‑交替最小二乘法对初始色谱谱图矩阵进行优化解析,获得每个TIC色谱峰下的化学成分。将解析所得每个化学成分的质谱谱图导入到质谱库中自动匹配化合物,完成单个样本GC‑MS中化合物智能化精准识别。本发明专利技术在GC‑MS技术涉及的科研、检测、工业应用等领域,具有良好的应用价值。

【技术实现步骤摘要】
复杂样本GC-MS自动解析实现化合物准确鉴别与差异性组分筛查的方法
本专利技术属于气相色谱-质谱联用数据解析
,具体涉及复杂样本GC-MS自动解析实现化合物准确鉴别与差异性组分筛查的方法。
技术介绍
GC-MS在众多实验室用于高通量表征复杂样本中的小分子挥发、半性成分。作为目前普及率最高的分析测试仪器之一,GC-MS本身提供的物质谱库为复杂样本分析提供了非常有帮助的工具。但在GC-MS的应用中,复杂样本中化合物的精准解析是当前应用中面临的一个难题。化合物解析包含了两个核心步骤,一是色谱峰的识别,二是共流出组分的解析。在代谢组学等涉及多样本同时分析进行比较的研究中,还包含了如何实现峰对齐的问题。当前,色谱峰的识别多针对TIC中峰提取,围绕这个问题,目前已有一部分卓有成效的方法,但如何在TIC提取的基础上实现共流出化合物的高通量、自动化解析,却是当前应用中的亟待解决的难题。当前方法中对于峰对齐步骤没有给予太多的重视。根据我们的经验,化合物峰对齐不能只是依靠质谱谱图。样本构成复杂时,有可能存在共流出化合物质谱谱图相似的情况。此时,若仅仅依靠质谱谱图进行化合物峰对齐,会导致样本与样本之间存在多重匹配,给出错误的峰对齐结果,最终导致筛查出来的差异性化合物结果不可靠。同时,发展智能化、可靠的GC-MS自动化解析方法实现化合物解析与识别,实现差异性代谢物的筛查,是当前GC-MS技术涉及的科研、检测、工业应用等领域,如食品分析、药物分析、香精香料、工业化学品分析等亟待解决的需求。
技术实现思路
有鉴于此,本专利技术提供一种能够高效完成复杂样本GC-MS自动解析实现化合物准确鉴别与差异性组分筛查的方法。本专利技术解决其技术问题所采用的技术手段是:一种复杂样本GC-MS自动解析实现化合物准确鉴别与差异性组分筛查的方法,包括以下步骤:a.提取GC-MS质谱中的TIC色谱峰及EIC色谱峰;b.明确每个所述TIC色谱峰的解析范围,查找解析范围内的所述EIC色谱峰信息;c.根据所查找得到EIC色谱峰信息对所述EIC色谱峰进行聚类,获得每一个类的代表性色谱轮廓谱图;d.构建初始色谱谱图矩阵,利用修正的多元曲线分辨-交替最小二乘法对初始色谱谱图矩阵进行优化解析,获得每个所述TIC色谱峰下的化学成分的质谱谱图;e.构建质谱谱库,所述质谱谱库中包含标准化合物质谱谱图,将解析所得的每个TIC色谱峰下的化学成分的质谱谱图导入至所述质谱谱库,进行单一样本的自动识别;f.对不同样本分组,利用统计分析方法筛选组间有差异的代谢物;其中,步骤c中,“对EIC色谱峰进行聚类”方法为:根据每个所述EIC色谱峰色谱轮廓谱图的形状,采用层次聚类法进行聚类,包括以下步骤:c1.采用Pearson相关系数衡量色谱轮廓之间的相似度;c2.将相似度低于预定相似度阈值,并且EIC色谱峰之间的距离大于预定距离阈值的相似度设置为0;c3.根据相关系数从大到小,将EIC色谱峰进行聚类。本专利技术采用上述技术方案,其有益效果在于:本专利技术提供的复杂样本GC-MS自动解析实现化合物准确鉴别与差异性组分筛查的方法,采用层次聚类法,对所述EIC色谱峰进行聚类,利用修正的多元曲线分辨-交替最小二乘法对初始色谱谱图矩阵进行优化解析,能够快速实现对复杂样本化合物的GC-MS数据精准解析,克服传统方法针对共流出组分解析中存在的解析不准确的问题,同时提供了一种复杂样本化合物自动识别以及差异性组分的筛查方法,达到自动高通量的精准解析。附图说明图1是TIC色谱峰提取与确定解析范围示例。图2是TIC色谱峰下化合物解析与识别示例。图3是考察本专利技术定性定量结果示例。图4是样本中组分时间漂移校准与化合物注册示例。图5是本专利技术筛选出来的差异性代谢中分析不提产地烟叶样品的聚类结果。图6是当前不同方法解析所得结果。具体实施方式结合本专利技术的附图,对专利技术实施例的技术方案做进一步的详细阐述。本专利技术通过以下示例展示智能化解析GC-MS数据准确实现化合物识别与差异性组分筛查。S1.GC-MS信号采集为了获得烟草植物样本中尽可能多的挥发性、半挥发性成分,对样本进行衍生化处理。具体如下:(1)称样20mg,甲醇氯仿提取其中的化学成分后,用BSTFA与室温下衍生60min。取1μL进入GC-MS分析。GC-MS条件设置如下:色谱柱DB-5MS60m×0.25µm×0.25mm。程序升温,从70℃升温至310℃,升温速率3℃min-1。进样口温度180℃。传输线温度280℃。质谱采集范围50-500Da,采样频率3scans-1。S2.TIC和EIC色谱峰的提取与TIC解析范围确定以TIC中峰提取为例。提取TIC信号中的极小值,利用稳健统计分析剔除来源于色谱峰的极小值后,利用线性插值法估计背景漂移,并从原始信号中剔除出去,获得基线校正后的TIC信号,作为原始信号。针对该信号,采用高斯平滑法实现色谱峰的提取。高斯平滑法采用一系列不同尺度的高斯函数作为平滑函数,通过卷积运算实现信号平滑。TIC平滑后,获得一系列平滑后信号,提取每一个平滑信号的极大值,筛选不同平滑后均存在的极大值,作为初始色谱峰。在原始TIC信号中剔除初始色谱峰左侧连续上升和右侧连续下降的部分,估计出原始信号中的噪声。将初始色谱峰中高于噪声的部分设置为流出范围。剔除信噪比低的色谱峰,优选剔除信噪比低于3的色谱峰,最终实现TIC色谱峰的提取。EIC色谱峰的提取与TIC提取类似。请参看图1,图中,(A)表示在一个流出范围内提取得到的TIC色谱峰,用颜色标记出每个TIC色谱峰的范围。(B)根据本专利技术设计获得每个TIC色谱峰的解析范围(B中第一行),以及解析范围内的EIC色谱峰(B中第二行),在此基础上解析得到的组分信息(B中第三行)。(C)经过解析后的组分,表明TIC色谱峰的解析范围能够有效、完整地解析其中的共流出组分。图1A给出了经过本方法获得TIC中的色谱峰,并用深色标注出了每个色谱峰的流出范围,从图中可以看出,TIC中的色谱峰能得到较好的提取,其范围能够得到较好的估计。对于解析范围的估计如下:待获得每一个TIC色谱峰的流出范围后,估计其解析范围,以估计TIC色谱峰前半部分的解析范围为例,具体计算如下:(1)计算流出峰起始位置信号响度与峰最高点位置之间的比值r(该比值小于1);(2)将TIC前半部分流出宽度扩大(w/r)-5(w表示前半部分的宽度,-5表示向前面延伸5个扫描点),TIC色谱峰后半部分的解析范围估计与之相似。只是需要向后延伸5个扫描点。图1B中给出了几个基线未分离47-50号TIC色谱峰的解析范围,从图中能够看出,每个TIC色谱峰的解析范围基本能够涵盖色谱峰的范围。而最终的解析结果(图1C)证明能够实现每个TIC下化合物的解析。S3.EIC聚类与初始化色谱矩阵构建获得每个TIC色谱峰的解析范围后。确定流出范围内所有EIC色谱峰,根据每个EIC色谱峰色谱轮廓谱图的形状,采用层次聚类法进行聚类。具体如下:(1)采用Pearson相关系数衡量色谱轮廓之间的相似度;(2)将相似度低于一定阈值(如0.95),并且EIC色谱峰之间的距离大于一定阈值(如0.02min)的相似度设置为0;(3)根据相关系数从大到小,将EIC色谱峰进行聚类。待获得聚类的EIC结果后,通过奇本文档来自技高网...

【技术保护点】
1.一种复杂样本GC‑MS自动解析实现化合物准确鉴别与差异性组分筛查的方法,其特征在于,包括以下步骤:a.提取GC‑MS质谱中的TIC色谱峰及EIC色谱峰;b.明确每个所述TIC色谱峰的解析范围,查找解析范围内的所述EIC色谱峰信息;c.根据所查找到的EIC色谱峰信息对所述EIC色谱峰进行聚类,获得每一个类的代表性色谱轮廓谱图;d.构建初始色谱谱图矩阵,利用修正的多元曲线分辨‑交替最小二乘法对初始色谱谱图矩阵进行优化解析,获得每个所述TIC色谱峰下的化学成分的质谱谱图;e.构建质谱谱库,所述质谱谱库中包含标准化合物质谱谱图,将解析所得的每个TIC色谱峰下的化学成分的质谱谱图导入至所述质谱谱库,进行单一样本中化合物的自动识别;f.对不同样本分组,利用统计分析方法筛选组间有差异的代谢物;其中,步骤c中,“对EIC色谱峰进行聚类”方法为:根据每个所述EIC峰色谱轮廓谱图的形状,采用层次聚类法进行聚类,包括以下步骤:c1.采用Pearson相关系数衡量色谱轮廓之间的相似度;c2.将相似度低于预定相似度阈值,并且EIC色谱峰之间的距离大于预定距离阈值的相似度设置为0;c3.根据相关系数从大到小,将EIC色谱峰进行聚类。...

【技术特征摘要】
1.一种复杂样本GC-MS自动解析实现化合物准确鉴别与差异性组分筛查的方法,其特征在于,包括以下步骤:a.提取GC-MS质谱中的TIC色谱峰及EIC色谱峰;b.明确每个所述TIC色谱峰的解析范围,查找解析范围内的所述EIC色谱峰信息;c.根据所查找到的EIC色谱峰信息对所述EIC色谱峰进行聚类,获得每一个类的代表性色谱轮廓谱图;d.构建初始色谱谱图矩阵,利用修正的多元曲线分辨-交替最小二乘法对初始色谱谱图矩阵进行优化解析,获得每个所述TIC色谱峰下的化学成分的质谱谱图;e.构建质谱谱库,所述质谱谱库中包含标准化合物质谱谱图,将解析所得的每个TIC色谱峰下的化学成分的质谱谱图导入至所述质谱谱库,进行单一样本中化合物的自动识别;f.对不同样本分组,利用统计分析方法筛选组间有差异的代谢物;其中,步骤c中,“对EIC色谱峰进行聚类”方法为:根据每个所述EIC峰色谱轮廓谱图的形状,采用层次聚类法进行聚类,包括以下步骤:c1.采用Pearson相关系数衡量色谱轮廓之间的相似度;c2.将相似度低于预定相似度阈值,并且EIC色谱峰之间的距离大于预定距离阈值的相似度设置为0;c3.根据相关系数从大到小,将EIC色谱峰进行聚类。2.如权利要求1所述的复杂样本GC-MS自动解析实现化合物准确鉴别与差异性组分筛查的方法,其特征在于,步骤c2中,所述预定相似度阈值为0.95,所述预定距离阈值为0.02min。3.如权利要求1所述的复杂样本GC-MS自动解析实现化合物准确鉴别与差异性组分筛查的方法,其特征在于,步骤a中,“提取GC-MS质谱中的TIC及EIC下的色谱峰”包括以下步骤:a1.对所述GC-MS质谱中的TIC色谱信号和EIC色谱信号进行基线校准,以消除背景漂移:采用极小值法,分别提取所述TIC色谱信号和所述EIC色谱信号中的极小值,利用稳健统计分析剔除来源于色谱峰的极小值后,利用线性插值法估算背景漂移,并从原始信号中剔除,获得基线校正后的所述TIC色谱信号和所述EIC色谱信号,作为原始TIC信号及原始EIC信号;a2.对基线校正后的所述TIC色谱信号和所述EIC色谱信号,采用高斯平滑法进行色谱峰的提取:采用一系列不同尺度的高斯函数作为平滑函数,通过卷积运算实现信号平滑;所述TIC色谱信号及所述EIC色谱信号平滑后,获得一系列平滑后信号,提取每一个平滑信号的极大值,筛选不同尺度下平滑后均存在的极大值,作为初始色谱峰;a3.在所述原始TIC信号及原始EIC信号中,剔除初始色谱峰左侧连续上升和右侧连续下降的部分,估计出原始信号中的噪声;将初始色谱峰中高于噪声的部分设置为流出峰;剔除信噪比低于3的初始色谱峰,最终实现所述TIC色谱峰及所述EIC色谱峰的提取。4.如权利要求1或3所述的复杂样本GC-MS自动解析实现化合物准确鉴别与差异性组分筛查的方法,其特征在于,步骤b中,“确定每个TIC峰的解析范围”包括以下步骤:b1.计算流出峰起始位置信号响度与峰最高点位置之间的比值r;b2.将所述TIC色谱峰前半部分流出宽度扩大至(w/r)-5,其中,w表示前半部分的宽度,-5表示向前面延伸5个扫描点,将所述...

【专利技术属性】
技术研发人员:于永杰张月明周婕婕王璇
申请(专利权)人:宁夏医科大学
类型:发明
国别省市:宁夏,64

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1