基于稳定同位素标记的代谢组学数据的处理方法和装置制造方法及图纸

技术编号:32969333 阅读:17 留言:0更新日期:2022-04-09 11:32
本申请公开了一种基于稳定同位素标记的代谢组学数据的处理方法和装置。该方法可以具体通过获取非标记样本中第一注释代谢物的同位素信息;基于同位素信息,按照预设划分条件,在待分析样本的同位素峰中确定参考同位素峰和待调整同位素峰;通过参考同位素峰顶点对应的色谱保留时间和峰边界,调整待调整同位素峰顶点对应的色谱保留时间和峰边界,得到目标同位素峰;分别计算参考同位素峰的第一同位素峰丰度值,以及目标同位素峰的第二同位素峰丰度值;通过天然同位素校正算法,校正第一同位素峰丰度值和第二同位素峰丰度值,得到待分析样本的同位素标记结果。由此,能够准确获取每个代谢物被标记的情况,以实现对生物体内代谢组进行全面的动态代谢分析。进行全面的动态代谢分析。进行全面的动态代谢分析。

【技术实现步骤摘要】
基于稳定同位素标记的代谢组学数据的处理方法和装置


[0001]本申请涉及数据数据处理
,尤其涉及一种基于稳定同位素标记的代谢组学数据的处理方法和装置。

技术介绍

[0002]相关技术中,处理稳定同位素标记的代谢组学数据的方式主要包括靶向提取和非靶向遍历寻找。前者的靶向提取策略通常针对特定的代谢物,覆盖范围比较小、且提取效率较低。后者非靶向遍历寻找的方式,虽然能找到所有在非标记样本和标记样本中发生显著性变化的质谱峰,再根据理论质量数去推断单同位素峰,但是这样通常会带来较高的假阳性率,即标记峰的发现和其对应的单同位素峰的判断往往是不准确的,导致无法准确获取每个代谢物被标记的情况,影响对生物样本的代谢组全面的标记情况分析。

技术实现思路

[0003]为解决上述问题,本申请提供一种基于稳定同位素标记的代谢组学数据的处理方法和装置,能够准确获取生物样本中每个代谢物被标记的情况,以实现对生物样本的代谢组进行全面的标记情况追踪。
[0004]为了解决上述技术问题,本申请是这样实现的:
[0005]第一方面,本申请实施例提供了一种基于稳定同位素标记的代谢组学数据的处理方法,该方法可以包括:
[0006]获取非标记样本中第一注释代谢物的同位素信息,同位素信息包括色谱保留时间、质谱图的标准峰形、至少两个预估同位素峰和至少两个预估同位素峰中每个预估同位素峰对应的质量数,至少两个预估同位素峰为第一注释代谢物在质谱图中不同质量的预估同位素形成的峰;
[0007]基于同位素信息,按照预设划分条件,在待分析样本的同位素峰中确定参考同位素峰和待调整同位素峰;
[0008]通过参考同位素峰顶点对应的色谱保留时间和峰边界,调整待调整同位素峰顶点对应的色谱保留时间和峰边界,得到目标同位素峰;
[0009]分别计算参考同位素峰的第一同位素峰丰度值,以及目标同位素峰的第二同位素峰丰度值;
[0010]通过天然同位素校正算法,校正第一同位素峰丰度值和第二同位素峰丰度值,得到待分析样本的同位素标记结果,同位素标记结果包括待分析样本中第一注释代谢物校正后的同位素的丰度数据和分布数据。
[0011]在一种可能的实施例中,上述涉及的“获取非标记样本中第一注释代谢物的同位素信息”的步骤中,具体可以包括:
[0012]通过预设注释算法,注释非标记样本中的代谢物,得到第一注释代谢物;
[0013]根据第一注释代谢物的分子式,获取与第一注释代谢物对应的至少两个预估同位
素峰;
[0014]计算至少两个预估同位素峰中每个预估同位素峰对应的质量数。
[0015]在另一种可能的实施例中,上述涉及的“获取非标记样本中第一注释代谢物的同位素信息”的步骤中,具体可以包括:
[0016]在多个非标记样本中至少两个非标记样本包括相同的第一注释代谢物的情况下,根据至少两个非标记样本中每组非标记样本的第一注释代谢物的质谱图,获取至少两个质谱图中的目标质谱图,目标质谱图中相同的第一注释代谢物的峰高满足第一预设峰高;
[0017]确定目标质谱图的峰形为质谱图的标准峰形。
[0018]在又一种可能的实施例中,上述涉及的“基于同位素信息,按照预设划分条件,在待分析样本的同位素峰中确定参考同位素峰和待调整同位素峰”的步骤中,具体可以包括:
[0019]获取待分析样本;在待分析样本中筛选与同位素信息中每个预估同位素峰对应的同位素峰;
[0020]按照预设划分条件,在同位素峰中筛选初始参考同位素峰;
[0021]对初始参考同位素峰的提取离子流色谱进行峰检测,得到目标参考同位素峰形;
[0022]计算目标参考同位素峰形和质谱图的标准峰形的皮尔森相关系数,并在多个皮尔森相关系数中筛选满足预设阈值的目标皮尔森相关系数;
[0023]将与目标皮尔森相关系数对应预估同位素峰进行聚类,得到至少一个聚类组;
[0024]分别计算至少一个聚类组中每个聚类组的色谱保留时间的时间平均值;
[0025]根据每个聚类组的色谱保留时间的时间平均值,分别计算每个聚类组内多个时间平均值与色谱保留时间的差值;
[0026]根据多个时间平均值与色谱保留时间的差值,确定目标聚类组,目标聚类组的时间平均值与色谱保留时间的差值满足预设差值;
[0027]在目标聚类组中确定峰高满足第二预设峰高的同位素峰为参考同位素峰。
[0028]基于此,上述涉及的“按照预设划分条件,在同位素峰中筛选初始参考同位素峰”的步骤中,具体可以包括:
[0029]在预设划分条件包括预设质量数差值和预设色谱保留时间差值的情况下,获取第一注释代谢物的预估同位素的理论质量数、获取第一注释代谢物的理论色谱保留时间、以及获取与质谱图的标准峰形对应的峰顶点值和基线的均值;
[0030]计算理论质量数与待分析样本的同位素峰对应的质量数的第一差值、计算理论色谱保留时间与待分析样本中第二注释代谢物的色谱保留时间的第二差值、以及,计算峰顶点值和基线的均值的比值,得到理论信噪比;
[0031]将待分析样本的同位素峰中第一差值大于预设质量数差值、第二差值大于预设色谱保留时间差值且信噪比大于理论信噪比的预估同位素峰确定为初始参考同位素峰,信噪比由待分析样本的同位素峰的峰顶点值和基线的均值的比值确定。
[0032]在再一种可能的实施例中,上述涉及的“分别计算参考同位素峰的第一同位素峰丰度值,以及目标同位素峰的第二同位素峰丰度值”的步骤中,具体可以包括:
[0033]根据参考同位素峰中预设数量的扫描点的峰强度,计算参考同位素峰的第一同位素峰丰度值;
[0034]以及,根据目标同位素峰中预设数量的扫描点的峰强度,计算目标同位素峰的第
二同位素峰丰度值。
[0035]在再一种可能的实施例中,上述涉及的“通过天然同位素校正算法,校正第一同位素峰丰度值和第二同位素峰丰度值,得到待分析样本的同位素标记结果”的步骤中,具体可以包括:
[0036]根据天然同位素校正算法,校正第一同位素峰丰度值和第二同位素峰丰度值,得到初始校正结果;
[0037]在初始校正结果表征待分析样本中非标记样本中任一同位素峰的被标记比例值大于预设比例阈值的情况下,通过污染校正算法,校正第一同位素峰丰度值和第二同位素峰丰度值,得到待分析样本的同位素标记结果。
[0038]基于此,上述涉及的“通过污染校正算法,校正第一同位素峰丰度值和第二同位素峰丰度值,得到待分析样本的同位素标记结果”的步骤中,具体可以包括:
[0039]获取与非标记样本对应的标记样本,并确定标记样本的同位素峰;从标记样本的同位素峰中,扣除非标记样本中被标记同位素峰,得到未被污染的同位素峰;
[0040]根据未被污染的同位素峰的分布数据和同位素峰丰度值,生成待分析样本的同位素标记结果。
[0041]第二方面,本申请实施例提供了一种基于第一方面所示的代谢流分析方法,该方法可以包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于稳定同位素标记的代谢组学数据的处理方法,其特征在于,包括:获取非标记样本中第一注释代谢物的同位素信息,所述同位素信息包括色谱保留时间、质谱图的标准峰形、至少两个预估同位素峰和所述至少两个预估同位素峰中每个预估同位素峰对应的质量数,所述至少两个预估同位素峰为所述第一注释代谢物在质谱图中不同质量的预估同位素形成的峰;基于所述同位素信息,按照预设划分条件,在待分析样本的同位素峰中确定参考同位素峰和待调整同位素峰;通过所述参考同位素峰顶点对应的色谱保留时间和峰边界,调整所述待调整同位素峰顶点对应的色谱保留时间和峰边界,得到目标同位素峰;分别计算所述参考同位素峰的第一同位素峰丰度值,以及所述目标同位素峰的第二同位素峰丰度值;通过天然同位素校正算法,校正所述第一同位素峰丰度值和所述第二同位素峰丰度值,得到所述待分析样本的同位素标记结果,所述同位素标记结果包括所述待分析样本中第一注释代谢物校正后的同位素的丰度数据和分布数据。2.根据权利要求1所述的方法,其特征在于,所述获取非标记样本中第一注释代谢物的同位素信息,包括:通过预设注释算法,注释所述非标记样本中的代谢物,得到第一注释代谢物;根据所述第一注释代谢物的分子式,获取与所述第一注释代谢物对应的至少两个预估同位素峰;计算所述至少两个预估同位素峰中每个预估同位素峰对应的质量数。3.根据权利要求1或2所述的方法,其特征在于,所述获取非标记样本中第一注释代谢物的同位素信息,包括:在多个非标记样本中至少两个非标记样本包括相同的第一注释代谢物的情况下,根据所述至少两个非标记样本中每个非标记样本的第一注释代谢物的质谱图,获取至少两个质谱图中的目标质谱图,所述目标质谱图中相同的第一注释代谢物的峰高满足第一预设峰高;确定所述目标质谱图的峰形为所述质谱图的标准峰形。4.根据权利要求1所述的方法,其特征在于,所述基于所述同位素信息,按照预设划分条件,在待分析样本的同位素峰中确定参考同位素峰和待调整同位素峰,包括:获取待分析样本;在所述待分析样本中,筛选与所述同位素信息中每个预估同位素峰对应的同位素峰;按照预设划分条件,在所述同位素峰中筛选初始参考同位素峰;对所述初始参考同位素峰的提取离子流色谱进行峰检测,得到目标参考同位素峰形;计算所述目标参考同位素峰形和所述质谱图的标准峰形的皮尔森相关系数,并在多个皮尔森相关系数中筛选满足预设阈值的目标皮尔森相关系数;将与所述目标皮尔森相关系数对应预估同位素峰进行聚类,得到至少一个聚类组;分别计算所述至少一个聚类组中每个聚类组的色谱保留时间的时间平均值;根据所述每个聚类组的色谱保留时间的时间平均值,分别计算每个聚类组内多个时间平均值与所述色谱保留时间的差值;
根据所述多个时间平均值与所述色谱保留时间的差值,确定目标聚类组,所述目标聚类组的时间平均值与所述色谱保留时间的差值满足预设差值;在所述目标聚类组中确定峰高满足第二预设峰高的同位素峰为参考同位素峰。5.根据权利要求4所述的方法,其特征在于,所述预设划分条件包括预设质量数差值和预设色谱保留时间差值;所述按照预设划分条件,在所述同位素峰中筛选初始参考同位素峰,包括:获取所述第一注释代谢物的预估同位素的理论质量数、获取所述第一注释代谢物的理论色谱保留时间、以及获取与所述质谱图的标准峰形对应的峰顶点值和基线的均值;计算所述理论质量数与所述待分析样本的同位素峰对应的质量数的第一差值、计算所述理论色谱保留时间与所述待分析样本中第二注释代谢物的色谱保留时间的第二差值、以及计算所述峰顶点值和所述基线的均值的比值,得到理论信噪比;将所述待分析样本的同位素峰中所述第一差值小于所述预设质量数...

【专利技术属性】
技术研发人员:朱正江王若鸿尹岩东
申请(专利权)人:中国科学院上海有机化学研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1