【技术实现步骤摘要】
一种面向LC/GC-MS的代谢组学数据质量控制方法及系统
本专利技术涉及生物信息和代谢组学领域,特别涉及面向LC/GC-MS平台的代谢组学数据质量控制方法及系统。
技术介绍
代谢组学是新时代生命科学与临床应用的有力武器,可以全局性的测定许多代谢物。代谢物理化极性差异较大,代谢组学样本处理、分析技术多样,而且随着时间的推移,噪声污染致使质谱峰偏移、色谱的性能会下降,以及长期存在的色谱柱污染等问题,在这些因素的共同影响下,同一样本在同一平台上的检测结果会出现巨大差异,这些差异性使得代谢组学的数据质量难以评估,制约了医学临床应用的发展,因此迫切需要高准确度、高稳健型、成本可控、易于使用的分析流程与质控方案。液相色谱-质谱联用仪(LiquidChromatographMassSpectrometer,LC-MS)和气象色谱-质谱联用仪(GasChromatographMassSpectrometer,GC-MS)是代谢组学数据分析的两类重要实验平台,基于LC/GC-MS的代谢组分析被广泛应用于生物、医药、化学、环境等领域中。 ...
【技术保护点】
1.一种面向代谢组学数据质量控制方法,其特征在于,包括以下步骤:/n步骤S1.信息提取,从原始数据中提取代谢物分子质量、保留时间、相对含量信息;/n步骤S2.数据预处理,对提取后的数据建立索引并执行标准化操作;/n步骤S3.变量权重计算,利用PCA的最大可分性给变量赋予权重;/n步骤S4.QC核心样本确定,所述核心样本指代在QC中高度相似的样本;/n步骤S5.QC核心样本的质量评估与质量评测指标的筛选;/n步骤S6.普通样本质量评估,利用质量评测指标对普通样本的数据质量进行评价;/n步骤S7.数据可视化。/n
【技术特征摘要】
1.一种面向代谢组学数据质量控制方法,其特征在于,包括以下步骤:
步骤S1.信息提取,从原始数据中提取代谢物分子质量、保留时间、相对含量信息;
步骤S2.数据预处理,对提取后的数据建立索引并执行标准化操作;
步骤S3.变量权重计算,利用PCA的最大可分性给变量赋予权重;
步骤S4.QC核心样本确定,所述核心样本指代在QC中高度相似的样本;
步骤S5.QC核心样本的质量评估与质量评测指标的筛选;
步骤S6.普通样本质量评估,利用质量评测指标对普通样本的数据质量进行评价;
步骤S7.数据可视化。
2.根据权利要求1所述的面向代谢组学数据质量控制方法,其特征在于,所述的步骤S1提取原始数据中的分子质量m/z、保留时间rt、相对含量信息,具体步骤如下:
步骤S101.数据格式转换,将数据原始RAW格式数据转化为mzML格式;
步骤S102.构建所有scan数据的数据集,数据集包含rt、m/z、intensity三个属性;
步骤S103.EIC数据池的构建,分别顺序扫描集合中每一个scan对应的m/z值,用临时数组存储,统计临时数组的最小m/z值记为minval;将数组中所有的m/z值与minval进行比较,如果差值在5ppm范围内,该scan扫描位置下移一位,保留所有误差范围内m/z对应的rt及intensity,并将minval、rt、intensity存入EIC数据池;差值在5ppm以外,该scan的扫描位置不变;其中终止条件为所有scan的m/z都被处理过;
步骤S104.照m/z值处理数据集合构造该m/z值对应的EIC二维数组;记录每一个rt对应的intensity值,如果该intensity大于其左右值,则将其定义为峰;根据峰与左右值的高度差来过滤掉部分噪声;然后使用均值滤波降噪法对非峰值点进行校正;接着对所有非峰点的intensity进行排序并取其中间值作为基线;利用基线与intensity的差值进一步过滤掉部分噪声;返回过滤后的数据;
步骤S105.EIC池中每一个m/z峰面积的计算,对峰值及其左右的数据点进行分布转换使其符合正态分布;根据微积分原理计算峰面积;
步骤S106.EIC池中每一个m/z保留时间的确定,提取二维数组中最大intensity对应的rt作为该m/z的保留时间。
3.根据权利要求1所述的面向代谢组学数据质量控制方法,其特征在于,所述的步骤S2具体步骤,将原始数据中代谢物的分子质量、保留时间作为代谢物的索引,并以相对含量作为变量值;
原始数据范围过大,大部分变量的值并不在一个量级上面,通过标准化和幂变换,可以使得不同的特征变量具有相同的尺度并有利于接下来的统计分析,标准化方法如下所示:其中X:表示原始数据,为平均数,σ为X的标准差
幂变换方法如下所示:其中λ为变换系数
4.根据权利要求2所述的面向代谢组学数据质量控制方法,其特征在于,所述的步骤S3变量权重计算利用PCA的最大可分性赋予变量不同的权重,具体步骤如下:
步骤S301.QC核心样本特征值和特征向量计算;
步骤S302.方差贡献率和累计方差贡献率计算,其中λ为特征值,n为特征值的总数,n_components为累计方差贡献率阈值,方差贡献率的计算方法为:
累计方差贡献率的计算方法为:其中k为所选择特征值的数量
步骤S303.变量在各个主成分中线性组合的系数,其中P为特征向量,λ为特征值,计算方法为:
步骤S304.利用各个主成分的方差贡献率计算综合得分模型中的系数,计算公式为:
步骤S305.对指标权重进行归一化处理。
5.根据权利要求2所述的面向代谢组学数据质量控制方法,其特征在于,所述的步骤S4包括以下步骤:
S401.计算QC核心样本之间的两式距离,计算公式如下:
计算所有n个样本的第k近邻的平均值,K...
【专利技术属性】
技术研发人员:汤德佑,曾康,胡寓旻,张晖,余文涛,谭达强,
申请(专利权)人:中山大学肿瘤防治中心中山大学附属肿瘤医院,中山大学肿瘤研究所,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。