当前位置: 首页 > 专利查询>大连大学专利>正文

一种非条件依赖型高分辨质谱的构建方法技术

技术编号:39126584 阅读:12 留言:0更新日期:2023-10-23 14:49
本发明专利技术一种非条件依赖型高分辨质谱的构建方法,包含下述步骤:S1:采集同一化合物的多源实验与计算MS/MS数据;S2:对采集到的多源MS/MS数据的化合物识别分析;S3:融合质谱以精准表征化合物的质谱信息对及非条件依赖型MS/MS参考数据库进行构建。通过构建非条件依赖型高分辨二级质谱(MS/MS)数据库的策略,通过融合多源量测与计算质谱,以融合生成具有普适性的通用型MS/MS数据,从不同信息维度精准描述化合物的结构特征,结合“正向搜索”技术,适合仪器或实验条件,如仪器类型、碎裂模式、喷雾能量等变化下MS/MS的定性注释分析。量等变化下MS/MS的定性注释分析。量等变化下MS/MS的定性注释分析。

【技术实现步骤摘要】
一种非条件依赖型高分辨质谱的构建方法


[0001]本专利技术属于分析化学
,涉及一种非条件依赖型高分辨质谱的构建方法。

技术介绍

[0002]代谢物通常是指分子量小于1,500道尔顿的小分子化合物,是生命体系代谢过程的底物或产物,在能量传递、信号转导、合成调控等各种各样的生命过程中均具有非常重要的功能。代谢组学研究是对代谢物系统性的定性表征与定量量测,及其在生理或病理过程的动态变化分析,进而深刻阐释机理与机制
[1,2]。
[0003]代谢组学研究涉及对大量代谢物的深度注释,即代谢物的全面表征与定性鉴定,且处在整个研究过程的核心节点
[3]。(超)高效液相色谱

高分辨质谱(U/HPLC

HRMS)等分析仪器所产生的海量质谱特征,通过有效识别和提取,挖掘差异物后,仍需要准确定性鉴定,方可实现通路分析、机制阐释和验证分析。然而,据权威报道,非靶向代谢组学分析中,仅有1.8%的质谱特征能被注释,意味着代谢组学分析中所收集到的绝大部分信息,都将成为无法确定结构而被解释和利用的“暗物质”(Dark Matter)
[4]。代谢物深度注释,即定性表征尽可能多的代谢小分子化合物,被公认为代谢组学研究的主要瓶颈之一,如何系统性地注释研究体系中的代谢物,成为实验、数据和计算等诸多方面的巨大挑战,提升代谢物注释的覆盖度与准确性,具有重要的理论研究意义
[5,6]。
[0004]代谢物深度注释的上述难题,极大地阻碍构建科学问题与生物发现间的有效连接,从而导致片面性,甚至错误的代谢组学研究结论。以目前最为有效的代谢物分析手段U/HPLC

HRMS为例,在过去十余年里有了持续的进步。但数据的高复杂性、代谢物的化学多样性,通用型参考数据库的缺乏性及其代谢物数量的有限性等,使得代谢物深度注释仍成为一个艰巨的任务。本专利技术旨在发展非条件依赖型高分辨质谱大数据与人工智能新方法。基于通用型MS/MS数据的强大优势,加上深度学习挖掘输入特征和输出决策间复杂关系的强大能力,突破代谢组学在生物医学、环境健康和食品营养等领域的应用瓶颈,具有重要实际应用价值。
[0005]迄今为止,代谢物的结构注释,主要依赖于公共或内部的质谱数据库。一般地,首先构建已知化合物的参考数据库,再将待定性的代谢物信息与数据库中的信息进行打分搜索、匹配排序,得到其注释结果,如图1所示。代谢物定性的金标准是基于同一仪器在相同实验条件下采集标准品物质的定性信息,构建参考数据库,再进行结构表征,这也是代谢组学标准倡议(MSI)中所定义的最高层次,即确定无疑的鉴定。其他三个层次则分别为基于外部实验室或文献报道的假定性注释,基于特定类别已知化合物的类别注释,以及无法定性的未知物
[7,8]。
[0006]目前,使用较为广泛的U/HPLC

HRMS注释分析公共数据库,主要有HMDB、Metlin、GNPS、MMCD、LipidBlast和PubChem等,一般同时包含代谢物的一级质谱(MS)和二级质谱(MS/MS),以及少量化合物的色谱保留时间(tR)
[6]。这些信息也是目前代谢物注释分析的主要参照,其中又以MS/MS最为重要,是代谢物结构注释的关键。然而,超过90%的代谢物没有
对应的标准MS/MS质谱,显著降低了注释结果的准确可靠性,容易产生假阳性和高冗余的分析结果,更难对数据库中不存在的未知物进行注释。此外,化合物的同位素模式等衍生信息,以及离子淌度技术测量得到的离子平均碰撞横截面积(CCS)等,亦可提升代谢物注释表征的准确性
[9,10]。高分辨质谱技术的持续发展,在很大程度上改善了生物体液、组织以及细胞等样本类型的全面代谢物分析能力。
[0007]与此同时,化合物在U/HPLC

HRMS分析下得到的MS/MS数据,受到仪器类型、离子源、碎裂方式、实验条件和基质效应等多重因素影响,导致不同情形下所得到的MS/MS数据,其通用性并不高,即具有条件依赖性,进一步增加代谢物定性鉴定的难度。理想情况下,需要针对不同因素的变化,分别构建数据库,显然这几乎是一项不可能完成的任务。以人体血浆样本为例,在大约15分钟的非靶向代谢组学分析时间内,目前大多只能准确定性不到300个左右的代谢物,远远不能满足非靶向代谢组学研究的需要。
[0008]代谢物深度注释属于非靶向代谢组学研究的国际前沿课题,本专利技术为代谢物深度注释提供了独特的高覆盖度解决方案。
[0009]代谢物深度注释是非靶向代谢组学研究的最大瓶颈之一。目前的解决方案,一是依赖数据库匹配,但受制于代谢物数量、定性信息的条件依赖性,且未知物定性困难;二是计算质谱结构预测,但准确性与实用性仍远远不够。

技术实现思路

[0010]为了解决是提升大规模代谢物定性注释分析准确性与覆盖度。现行解决方案极大依赖代谢物数据库,但受限于代谢物数量,且定性信息与实验条件相关,以及难以定性未知物的难题;本专利技术提供本专利技术采用的技术方案是:一种非条件依赖型高分辨质谱的构建方法,包含下述步骤:
[0011]S1:采集同一化合物的多源实验与计算MS/MS数据;
[0012]S2:对采集到的多源MS/MS数据的化合物识别分析;
[0013]S3:融合质谱以精准表征化合物的质谱信息对及非条件依赖型MS/MS参考数据库进行构建。
[0014]进一步地:所述采集同一化合物的多源实验与计算MS/MS数据包括:
[0015]a.采集标准品化合物的实验直接量测数据,采用优化后的SOP分析方法,分别在正、负二个电离模式,每个模式的高、中、低三个能量下,量测每个标准品,获得化合物的数据,包括全面表征代谢物定性信息的保留时间tR、一级质谱MS和二级质谱MS/MS数据;
[0016]b.采集不同类型的在线和离线搜索数据库中的数据,直接下载到的实验与计算MS/MS数据;
[0017]c.采集代谢组学研究中,涉及代谢物鉴定分析方面的文献,针对其中已经实现定性注释的化合物,及其对应的MS/MS数据,采用网络爬虫与数据提取的方式,采集目前已经发表的代谢物定性数据资源,尤其是不同实验条件下所采集的质谱数据;
[0018]d.采集计算质谱预测所得到的化合物二级质谱数据,采用目前主流的计算质谱工具,从不同维度描述代谢物的结构,作为全面表达其特征的MS/MS信息来源;
[0019]e.采用上述不同来源数据,构建一个多对一的大规模代谢物的高分辨MS/MS质谱数据资源池,即,同一个代谢物,同时含有多个不同厂商仪器、不同类型,以及不同实验条件
的MS/MS数据,作为非条件依赖型MS/MS数据库构建的基础。
[0020]进一步地:针对采集后的不同来源的代谢物MS/MS数据,甄别同一化合物的不同命名或标识,采用化合物的结构表征符,化合物的数据库唯一ID号,化合物的统一名称,以及它们彼此间的转换程序,唯一性地识别同一化合物的不同MS/MS数据来本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种非条件依赖型高分辨质谱的构建方法,其特征在于,包含下述步骤:S1:采集同一化合物的多源实验与计算MS/MS数据;S2:对采集到的多源MS/MS数据的化合物识别分析;S3:融合质谱以精准表征化合物的质谱信息对及非条件依赖型MS/MS参考数据库进行构建。2.根据权利要求1所述的一种非条件依赖型MS/MS参考数据库的构建,其特征在于:所述采集同一化合物的多源实验与计算MS/MS数据包括:a.采集标准品化合物的实验直接量测数据,采用优化后的SOP分析方法,分别在正、负二个电离模式,每个模式的高、中、低三个能量下,量测每个标准品,获得化合物的数据,包括全面表征代谢物定性信息的保留时间tR、一级质谱MS和二级质谱MS/MS数据;b.采集不同类型的在线和离线搜索数据库中的数据,直接下载到的实验与计算MS/MS数据;c.采集代谢组学研究中,涉及代谢物鉴定分析方面的文献,针对其中已经实现定性注释的化合物,及其对应的MS/MS数据,采用网络爬虫与数据提取的方式,采集目前已经发表的代谢物定性数据资源,尤其是不同实验条件下所采集的质谱数据;d.采集计算质谱预测所得到的化合物二级质谱数据,采用目前主流的计算质谱工具,从不同维度描述代谢物的结构,作为全面表达其特征的MS/MS信息来源;e.采用上述不同来源数据,构建一个多对一的大规模代谢物的高分辨MS/MS质谱数据资源池,即,同一个代谢物,同时含有多个不同厂商仪器、不同类型,以及不同实验条件的MS/MS数据,作为非条件依赖型MS/...

【专利技术属性】
技术研发人员:曾仲大张宝华湛一飞
申请(专利权)人:大连大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1