一种基于分子结构关联网络的规模化代谢组定性方法技术

技术编号:33758957 阅读:27 留言:0更新日期:2022-06-12 14:08
本发明专利技术公开了一种基于分子结构关联网络的规模化代谢组定性方法。首先,收集开源代谢组数据库中的内源性代谢物,基于代谢物分子结构相似性构建代谢组水平分子结构关联网络;其次,对生物样本提取物进行非靶向代谢组学分析,并构建保留时间预测模型;进一步通过少量结构确证的代谢物作为种子代谢物,基于网络相邻代谢物与种子代谢物有相似MS2这一前提,对代谢物进行定性。本发明专利技术方法不依赖于大规模实验MS2数据库,即可真正实现代谢组规模的快速定性,且定性结果更可靠。且定性结果更可靠。

【技术实现步骤摘要】
一种基于分子结构关联网络的规模化代谢组定性方法


[0001]本专利技术涉及分析化学和代谢组学领域,是一种基于分子结构关联网络的规模化代谢组定性方法。
[0002]研究背景
[0003]代谢组学(Nicholson,JK et al.,Metabonomics:a platform for studying drug toxicity and gene function.Nature Reviews Drug Discovery 2002,1,153

161.)是以生物体中分子量小于1000的小分子代谢物为研究对象,运用多种分析手段如高分辨质谱(HRMS)、核磁共振(NMR)、色谱

质谱联用等从整体水平上研究体内代谢物组成及其与生理病理相关的变化规律。代谢组学已被广泛应用于生命科学、疾病诊断、药物安全性评价、药理研究、营养科学等多个领域。
[0004]代谢物结构鉴定是代谢组学发展的瓶颈问题之一。生物体内代谢物成分及其复杂、理化性质各异、含量差别巨大,生物样品中的代谢物浓度分布范围达7~9个数量级。随着分析技术的不断进步,特别是高分辨质谱技术迅猛发展,生物样本非靶向代谢组学分析获得了海量的代谢组数据,但其中可被鉴定的代谢物不超过25%(Baker,M.,Metabolomics:from small molecules to big ideas.Nature Methods 2011,8,117

121.)。质谱数据库检索是代谢物鉴定的最主要方式,其收录情况直接决定了代谢物鉴定的数量与质量。Metlin数据库目前已收录超过1000,000种化合物,其中50万多种有二级质谱(MS/MS)数据;人类代谢组数据库(HMDB)(http://www.hmdb.ca/)收录114,260种化合物,仅有7,418多个化合物有实测MS/MS谱图数据,279,972种为预测MS/MS数据。预测二级谱图是解决二级短缺问题的一种手段,但大多预测谱图与实验谱图相差很大,仍然会给代谢物的定性带来困难。基于实验二级质谱相似性的分子网络如GNPS(https://gnps.ucsd.edu/)已被证明是一种有效的代谢物辅助定性工具。其基于具有相似二级谱图的代谢物其结构具有相似性的假设,但采用该方法对代谢物结构鉴定仍需依赖大规模的实验二级谱图数据库,因此其定性能力仍受到目前代谢组数据库实验二级谱图短缺的制约。
[0005]目前代谢组学研究主要基于其中的已知代谢物,大量稳定、可重复检测的“未知代谢物”虽可能具有重要生物功能,却因无法鉴定分子结构,未能对其利用或开展深入研究,导致质谱信息利用率低。因此,亟待发展功能代谢组学新技术、新方法,包括更高效可靠的算法、知识库及相关工具来实现对非靶向超高效液相色谱

高分辨质谱(UHPLC

HRMS)代谢谱数据的深度解析。因此,发展能够辅助代谢物结构解析,尤其是能够鉴定未知代谢物的分析新方法显得尤为迫切。
[0006]为此,本专利技术充分利用代谢组数据库中丰富的一级及其结构信息,发展一种不依赖大规模二级数据库的基于分子结构关联网络的规模化代谢组定性方法,突破保留时间和二级信息缺乏造成的定性瓶颈。

技术实现思路

[0007]本专利技术提供了一种基于分子结构关联网络的代谢组规模化定性方法。为了实现本
专利技术目的,收集开源代谢组数据库中的内源性代谢物,基于所获取的代谢物分子指纹相似性构建代谢物分子结构关联网络;对生物样本提取物进行基于超高效液相色谱

高分辨质谱的非靶向代谢组学分析,获取生物样本提取物的代谢组相关色谱

质谱信息;基于标样的分子描述符和实验保留时间,构建保留时间预测模型;利用保留时间预测模型计算分子结构关联网络中每个节点的预测保留时间;利用非靶向超高效液相色谱

高分辨质谱代谢组实验数据,以分子结构关联网络作为背景网络,进行代谢组规模化定性。本专利技术采用的技术方案步骤如下:
[0008]第一步,构建代谢组的分子结构关联网络;根据开源代谢组数据库如人类代谢组HMDB数据库、京都基因与基因组百科全书KEGG数据库获取内源性代谢物,包括其名称,单同位素质量,分子结构数据文件;基于其分子结构数据文件获得每个代谢物的分子指纹,这里分子指纹可以是圆形指纹、MACCS指纹、原子对指纹和拓扑指纹中的任意一种;计算任意两个候选代谢物分子指纹间的相似度;设定相似性阈值,以代谢物为节点,分子指纹相似性为边,构建代谢组水平的分子结构关联网络;
[0009]第二步,采用超高效液相色谱

高分辨质谱对待测生物样本的提取物进行非靶向代谢组学分析;获取提取物代谢组的相关色谱

质谱信息,包括实验测得的代谢物峰的保留时间t
R实测
,一级质谱信息即一级离子质荷比m/z
实测
,和相应的二级质谱信息即二级离子的质荷比和强度;一级离子指化合物被离子化后直接采集到的离子;二级离子指一级离子在施加一定能量碰撞碎裂后采集到的离子;
[0010]第三步,构建保留时间预测模型;采用与生物提取物相同的超高效液相色谱

高分辨质谱数据采集条件,分析内源性代谢物的混合标样,获取其液相色谱实验保留时间;采用开源网站ChemDes(http://www.scbdd.com/chemdes)和Dragon7(https://chm.kode

solutions.net/index.php)获取标样的分子描述符;基于实验保留时间和分子描述符,通过定量结构

保留关系构建保留时间预测模型;保留时间预测模型采用多重线性回归模型、弹性网络回归模型、随机森林模型、支持向量机模型和深度学习模型中任意一种方法建立;
[0011]第四步,计算分子结构关联网络中代谢物的预测保留时间;基于其分子结构数据文件获得每个代谢物的分子描述符;利用保留时间预测模型计算分子结构关联网络中每个节点的预测保留时间;
[0012]第五步,基于分子结构关联网络对非靶向代谢组学数据进行规模化定性;以第一步构建的分子结构关联网络作为背景网络,利用标准样品从非靶向超高效液相色谱

高分辨质谱代谢组实验数据鉴定50~100个代谢物作为种子代谢物,将其映射到已建立的分子结构关联网络中,从网络中获取种子代谢物的相邻代谢物,这里相邻代谢物指分子结构关联网络中有直接边连接的代谢物;将种子代谢物的二级质谱作为相邻代谢代谢物二级质谱,设定搜索阈值,在实验数据中搜索与相邻代谢物m/z
理论
,t
R预测
,二级质谱匹配的代谢物峰,匹配成功则该代谢物峰鉴定完成;当有多个匹配结果时,对匹配结果进行打分;鉴定出的代谢物再作为新的种子,重复定性过程,直至没有新的代谢物被定性出来。
[0013]本专利技术依据结构相似的代谢物,其MS/MS具有相似性这一前提,建立了代谢组数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于分子结构关联网络的规模化的代谢组定性方法,其特征在于:第一步,构建代谢组分子结构关联网络;从开源代谢组数据库获取内源性代谢物,包括其名称,单同位素质量,分子结构数据文件;基于分子结构数据文件获得每个代谢物的分子指纹,并计算任意两个代谢物分子指纹间相似度;设定分子指纹间相似度阈值0.6

0.9,以代谢物为节点,分子指纹相似性为边,将大于等于分子指纹间相似度域值的代谢物间连线,构建分子结构关联网络;第二步,获取待测生物样本提取物中代谢组的色谱

质谱信息;采用超高效液相色谱

高分辨质谱对生物样本提取物进行非靶向代谢组学分析,获取包括实验测得的代谢物峰的保留时间t
R实测
,一级质谱信息即一级离子质荷比m/z
实测
,和相应的二级质谱信息即二级离子的质荷比和强度;第三步,构建保留时间预测模型;采用与生物提取物相同的超高效液相色谱

高分辨质谱数据采集条件,分析已知内源性代谢物的混合标样,获取其液相色谱实验保留时间;进而基于标样的分子描述符和实验保留时间,采用机器学习算法,构建保留时间预测模型;第四步,利用保留时间预测模型计算分子结构关联网络中每个节点的预测保留时间;第五步,基于分子结构关联网络对非靶向代谢组学数据进行规模化定性;以第一步构建的分子结构关联网络作为背景网络,对非靶向超高效液相色谱

高分辨质谱代谢组采集的色谱峰进行鉴定,确定待测生物样本中的代谢物。2.根据权利要求1所述方法,其特征在于:第一步所述开源代谢组数据库为人类代谢组HMDB数据库和/或京都基因与基因组百科全书KEGG数据库。3.根据权利要求1所述方法,其特征在于:第一步所述内源性代谢物为人源、鼠源中一种或二种以上内源性代谢物。4.根据权利要求1所述方法,其特征在于:第一步所述分子指纹可以是圆形指纹、MACCS指纹、原子对指纹和拓扑指纹中的任意一种。5.根据权利要求1所述方法...

【专利技术属性】
技术研发人员:许国旺王鑫欣亓彦鹏李在芳路鑫林晓惠赵春霞赵欣捷
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1