【技术实现步骤摘要】
生物代谢组学数据处理方法、分析方法及装置和应用
本专利技术涉及代谢组学
,具体而言,涉及一种生物代谢组学数据处理方法、分析方法及装置和应用。
技术介绍
代谢组学是继基因组学和蛋白质组学之后新起的一门学科,它是系统生物学的重要组成部分,主要考察生物体系受刺激或扰动前后所有小分子代谢物及其含量的动态变化。通过对生物体内所有的小分子代谢物进行整体的定性、定量分析,可以探索并发现代谢物与生理病理变化的关系。研究表明,代谢组在疾病早期诊断、生物标志物发现、药物筛选、毒性评价、运动医学、营养学等领域有着重要应用价值。随着科学技术的快速发展,针对代谢组的研究和检测方法层出不穷,目前应用最为广泛、功能最强大的主要是液相色谱-质谱联用技术(LC-MS)。近年来,LC-MS技术得到了进一步的提高,大规模样本的检测应用也越来越多。随着检测样本数的增加,随之也产生了一系列问题,例如,大规模样本的检测时间较长,机器在长时间的运行过程中,会出现灵敏度下降、保留时间漂移等情况。因此,研究者们常常会将大规模样本分批次进行上机,可以保持机器的良 ...
【技术保护点】
1.一种生物代谢组学数据处理方法,其特征在于,所述生物代谢组学数据包括液相色谱-质谱数据或气相色谱-质谱数据,所述液相色谱-质谱数据包括一级质谱数据,所述气相色谱-质谱数据包括一级质谱数据;所述生物代谢组学数据处理方法包括将多个生物样本的液相色谱-质谱数据或气相色谱-质谱数据进行整合以形成特征数据库的步骤,所述整合的步骤包括:/nS11,任意选取所述多个生物样本中的一个样本作为参照样本,根据所述参照样本的时间轴逐一对其他样本的时间轴进行校正;/nS12,对校正后的每一个样本,逐一进行一级质谱离子峰的峰识别处理,得到多个识别特征峰;以及/nS13,根据样本信息互补原则,对所述 ...
【技术特征摘要】
20190322 CN 20191022349041.一种生物代谢组学数据处理方法,其特征在于,所述生物代谢组学数据包括液相色谱-质谱数据或气相色谱-质谱数据,所述液相色谱-质谱数据包括一级质谱数据,所述气相色谱-质谱数据包括一级质谱数据;所述生物代谢组学数据处理方法包括将多个生物样本的液相色谱-质谱数据或气相色谱-质谱数据进行整合以形成特征数据库的步骤,所述整合的步骤包括:
S11,任意选取所述多个生物样本中的一个样本作为参照样本,根据所述参照样本的时间轴逐一对其他样本的时间轴进行校正;
S12,对校正后的每一个样本,逐一进行一级质谱离子峰的峰识别处理,得到多个识别特征峰;以及
S13,根据样本信息互补原则,对所述多个识别特征峰进行合并处理,得到所述多个生物样本的特征数据库。
2.根据权利要求1所述的生物代谢组学数据处理方法,其特征在于,所述S13中:如果所述多个识别特征峰的[mzmin,mzmax]区域重叠或相邻,且[rtmin,rtmax]区域重叠或相邻,则将所述多个识别特征峰合并为一个特征峰。
3.根据权利要求2所述的生物代谢组学数据处理方法,其特征在于,所述S13包括:
S131,判断所述多个识别特征峰的[mzmin,mzmax]区域是否重叠或相邻,若重叠,进入S133;若不重叠,进一步判断是否相邻,如果所述多个识别特征峰的[mzmin,mzmax]区域的间隔小于第一预设阈值,则判定为相邻,进入S133;若既不重叠也不相邻,则判定所述多个识别特征峰分别为独立的特征峰;
S132,判断所述多个识别特征峰的[rtmin,rtmax]区域是否重叠或者相邻,若重叠,进入S133;若不重叠,进一步判断是否相邻,如果所述多个识别特征峰的[rtmin,rtmax]区域的间隔小于第二预设阈值,则判断为相邻,进入S133;若既不重叠也不相邻,则判定所述多个识别特征峰分别为独立的特征峰;
S133,如果所述多个识别特征峰的同时满足S131中的重叠或相邻,和S132中的重叠或相邻两个条件,则将所述多个识别特征峰合并为一个特征峰;
S134,利用所有特征峰的数据生成特征列表即得到所述特征数据库。
4.根据权利要求3所述的生物代谢组学数据处理方法,其特征在于,所述第一预设阈值依据仪器参数进行设定,所述第二预设阈值依据保留时间校正中时间偏差的最大值来进行设定;
优选的,所述第一预设阈值设定为0.01~0.015Da,所述第二预设阈值设定为10~15。
5.根据权利要求3所述的生物代谢组学数据处理方法,其特征在于,所述质谱数据还包括二级质谱数据,所述S13还包括:
S135,将所述多个生物样本的二级质谱数据比对到所述S134生成的特征数据库中,辅助判断峰合并的有效性。
6.根据权利要求1所述的生物代谢组学数据处理方法,其特征在于,所述质谱数据还包括二级质谱数据,所述S11还包括对所述一级质谱数据和所述二级质谱数据进行保留时间校正;
优选的,使用Obiwarp算法进行保留时间校正。
7.根据权利要求1所述的生物代谢组学数据处理方法,其特征在于,所述峰识别的算法为CentWave算法、matchedFilter算法或mzMine算法。
8.根据权利要求7所述的生物代谢组学数据处理方法,其特征在于,所述峰识别的算法的参数设置包括:ppm:采用仪器的分辨率;峰宽:设置为2~30;噪音:设置为0;信噪比:设置为10。
9.根据权利要求1所述的生物代谢组学数据处理方法,其特征在于,所述生物样本包括人或动物的体液、组织或细胞,植物的根、茎、叶、果实或种子,或微生物的细胞培养液;其中,所述体液包括尿液、血液、唾液、脑脊液或羊水,所述组织包括器官组织、肌肉组织或肿瘤组织,所述细胞包括干细胞、体细胞、肿瘤细胞或微生物细胞。
10.一种生物代谢组学数据的分析方法,其特征在于,依次包括生物代谢组学数据处理和通过二级质谱数据信息对代谢物进行定性鉴定的步骤,其中,所述生物代谢组学数据处理采用如权利要求1至9中任一项所述的生物代谢组学数据处理方法进行。
11.根据权利要求10所述的分析方法,其特征在于,通过二级质谱数据信息对代谢物进行定性鉴定的步骤包括:
S21,获取各标准化合物的质荷比数据;
S22,在生物代谢组学数据处理后得到的特征数据库中任意选择一个特征值,并找到与该特征值对应的所有的二级质谱质荷比数据,根据所述所有的二级质谱质荷比数据,找到与其相匹配的标准化合物;
S23,以所述S22中选择的所述一个特征值所对应的所述所有的二级质谱质荷比数据为一方,以所述S22中找到的所述匹配的标准化合物的二级质谱质荷比数据为另一方,对二者进行相似性打分,计算点积分,根据积分值对代谢物进行定性。
12.根据权利要求11所述的分析方法,其特征在于,所述S23包括:计算所述匹配上的多个标准化合物中每个标准化合物与多个二级质谱数据相似性的中位数,选择中位数最大的化合物;
优选的,根据化合物的中位数是否大于截止值,判别是否匹配。
13.根据权利要求11所述的分析方法,其特征在于,所述标准化合物的质荷比数据从已有的数据库中获得,所述数据库包括NISTlib、HMDB或METLIN。
14.根据权利要求10所述的分析方法,其特征在于,所述分析方法还包括生物代谢物定量的步骤。
15.根据权利要求14所述的方法,其特征在于,所述生物代谢物定量的步骤包括:
S31,根据参照样本的时间轴对待定量样本的时间轴进行校正;
S32,对所建立的特征数据库中所述待定量样本的对应的特征区域进行积分,得到生物代谢物相对定量的结果。
16.权利要求1至9中任一项所述的生物代谢组学数据处理方法、权利要求10至15中任一项所述的生物代谢组学数据的分析方法在维生素、氨基酸、脂质、类固醇、芳香酸、神经递质、色素、碳水化合物或短肽鉴定中的应用。
17.一种维生素、氨基酸、脂质、类固醇、芳香酸、神经递质、色素、碳水化合物或短肽的检测方法,其特征在于,包括:对生物样本进行液相色谱-质谱和/或气相色谱-...
【专利技术属性】
技术研发人员:栾恩慧,李尉,龙巧云,李德华,王雅兰,宋佳平,李振宇,刘兵行,
申请(专利权)人:深圳碳云智能数字生命健康管理有限公司,深圳微伴生物有限公司,深圳数字生命研究院,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。