一种CCS数据的标准化方法、数据库构建方法以及数据库系统技术方案

技术编号:26170821 阅读:60 留言:0更新日期:2020-10-31 13:40
本发明专利技术公开了一种CCS数据的标准化方法、数据库的构建方法和数据库系统。该CCS数据的标准化方法包括:对搜集的CCS数据进行质量检查、去除异常值、计算统一的CCS值,并分配置信度。该数据库系统包括标准化模块、预测模块和数据库;标准化模块对搜集的实验测量的CCS数据进行标准化处理;预测模块的预测模型由标准化模块处理的数据训练得到,能够根据输入的待预测化合物的结构信息,预测该化合物的CCS;数据库包含由标准化模块处理得到的CCS数据和由预测模块预测的CCS数据。本发明专利技术为用户提供了高覆盖度和高可信度的CCS数据来源。

【技术实现步骤摘要】
一种CCS数据的标准化方法、数据库构建方法以及数据库系统
本专利技术属于数据库
,涉及一种数据处理方法,尤其是一种数据标准化、数据库的构建方法和数据库系统。
技术介绍
非靶向代谢组学的目标是全面地测量复杂系统中尽可能多的代谢物,并确定与表型扰动相关的必需代谢物。而生命体的高度复杂性使得生命过程产生的代谢产物,具有数目众多、结构复杂、同分异构体多、浓度分布范围广等特点。液相色谱-质谱联用方法(LC-MS技术)是目前非靶向代谢组学主要研究方法。代谢物的鉴定仍然是液相色谱–基于质谱(LC-MS)的非靶向代谢组学的主要瓶颈。代谢物鉴定的标准策略是将生物样本中实验测得的一级质谱和串联质谱图(MS/MS或MS2)与标准谱库(例如METLIN,MASSBANK和NIST)或计算机内预测的MS/MS谱图进行匹配。但是,标准谱图库的覆盖范围有限,而计算机内预测则缺乏高精度。其他生物信息学方法(例如GNPS,MetDNA)也使用MS2谱图和分子网络算法进行代谢物注释。所有这些策略都需要高质量的实验MS2谱图。但是,低分子量代谢物的MS2谱图非常稀疏,通常缺乏本文档来自技高网...

【技术保护点】
1.一种CCS数据的标准化方法,其特征在于:/n对从离子淌度质谱仪器平台搜集到的每个实验测量的CCS数据,补齐与所述CCS数据对应的化合物结构相关的基本信息;/n对补齐所述基本信息后的CCS数据进行质量检查与处理;/n对经过质量检查与处理后的CCS数据去除异常值;/n对于具有来自多个离子淌度质谱仪器平台的同一化合物CCS数据,计算所述化合物的统一的CCS。/n

【技术特征摘要】
1.一种CCS数据的标准化方法,其特征在于:
对从离子淌度质谱仪器平台搜集到的每个实验测量的CCS数据,补齐与所述CCS数据对应的化合物结构相关的基本信息;
对补齐所述基本信息后的CCS数据进行质量检查与处理;
对经过质量检查与处理后的CCS数据去除异常值;
对于具有来自多个离子淌度质谱仪器平台的同一化合物CCS数据,计算所述化合物的统一的CCS。


2.根据权利要求1所述的CCS数据的标准化方法,其特征在于:
所述对所搜集到的CCS数据进行质量检查与处理包括以下一种或多种操作:
删除对应化合物的化学结构式和/或加合物形式和/或质荷比超出规定范围的CCS数据;
删除来自同一离子淌度质谱仪器平台但CCS不同的CCS数据;
对于具有多个CCS的加合物离子,计算所述多个CCS之间的最大差异;若所述最大差异大于设定的阈值,则删除所述加合物离子的CCS数据;否则,计算所述多个CCS的平均值,作为所述加合物离子的CCS;
其中,所述最大差异为最大的CCS与最小的CCS之差与所述多个CCS的平均值之间的比值。


3.根据权利要求1所述的CCS数据的标准化方法,其特征在于:
所述对经过质量检查与处理后的CCS数据去除异常值包括:
对经过质量检查与处理后的CCS数据采用幂函数拟合每个化合物类别的趋势线,并计算置信区间;删除置信区间超过设定阈值的CCS数据。


4.根据权利要求1所述的CCS数据的标准化方法,其特征在于:对于具有来自多个离子淌度质谱仪器平台的同一化合物CCS数据,计算所述化合物的统一的CCS包括:
将所述化合物的来自所有离子淌度质谱仪器平台的CCS求平均值,得到所述化合物的统一的CCS。


5.根据权利要求1所述的CCS数据的标准化方法,其特征在于:所述标准化方法还包括对每个CCS数据,按照如下方法分配置信度:
对于从不同离子淌度质谱仪器平台采集的实验测量的CCS数据计算出的统一的CCS,且最大CCS差异小于第一设定差异阈值的,所述统一的CCS的置信度为第一级别,其中所述不同离子淌度质谱仪平台的仪器类型均为DTIM-MS;
对于从不同离子淌度质谱仪器平台采集的实验测量的CCS数据计算出的统一的CCS,且最大CCS差异小于第二设定差异阈值的,所述统一的CCS的置信度为第二级别,其中所述不同离子淌度质谱仪器平台的仪器类型不限;
对于仅从一个离子淌度质谱仪器平台采集的CCS数据,分配置信度为第三级别,其中所述离子淌度质谱仪器平台的仪器类型不限;
对于从不同离子淌度质谱仪器平台采集的实验测量的CCS数据计算统一的CCS,且最大CCS差异大于第...

【专利技术属性】
技术研发人员:朱正江周智伟
申请(专利权)人:中国科学院上海有机化学研究所
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1