基于HPLC-MS的去除代谢物离子峰表中假阳性质谱特征的方法技术

技术编号:21296924 阅读:60 留言:0更新日期:2019-06-12 06:38
本发明专利技术以基于HRLC‑MS的代谢组学为背景,提供一种基于HPLC‑MS的去除代谢物离子峰表中假阳性质谱特征的方法,属于分析化学和代谢组学领域。该方法依据离子色谱图的信息熵指标和相关性系数来判别质谱中真实的化学信号,分别利用空白和实际样本的质谱原始数据去除对应非样本源化合物和噪声的假阳性特征。本发明专利技术可以减少噪声和非样本源化合物对代谢组学中分类模型的构建、生物标志物筛选以及代谢物定性的干扰,应用于化学计量学和代谢组学中质谱特征的处理。另外,本发明专利技术可以通过计算机程序自动化实现,不需要重复的化学实验以及肉眼判断等人工干预。

【技术实现步骤摘要】
基于HPLC-MS的去除代谢物离子峰表中假阳性质谱特征的方法
本专利技术属于分析化学和代谢组学领域,涉及一种基于HPLC-MS的去除代谢物离子峰表中假阳性质谱特征并提高峰表质量的方法。
技术介绍
代谢组学是继基因组学和蛋白组学之后迅速发展起来的一门学科,是系统生物学的一个重要分支学科。通过对生物体内的小分子代谢物进行定性定量分析,寻找代谢物与生理病理变化的相对关系,反映机体的当前生理状态。随着分析技术的发展,代谢组学已经渗透到疾病的早期诊断和治疗、临床标志物的发现、医药研制开发、营养食品科学、毒理学、环境学、植物学等等多个领域。代谢组学的单个样本中包含几万,甚至几十万种代谢成分。使用高分辨液相色谱质谱联用技术检测出色谱质谱峰,通过峰匹配分析,得到表示质谱特征在不同样本内含量的峰表。由于非样本源化合物和噪声的存在,峰表中存在大量假阳性特征,会影响后续的统计学分析、标志物的筛选和生物学解释。因此去除峰表中的假阳性特征并保留真实存在的质谱特征,提高峰表的质量,对代谢组学的数据分析具有重要意义。在代谢组学中,非样本源化合物来自流动相、色谱柱和实验残留等等。对于峰表中非样本源化合物对应的假阳性特征,可以比对特征在空白与实际样本原始数据中的强度予以去除。但是峰匹配分析也可能将空白样本中的噪声错误地识别成特征,而这些噪声可能在实际样本中对应真实的代谢物,导致一些真实特征被当作非样本源化合物去除。对于噪声对应的假阳性特征,可以通过多次检测并保留可重复的特征、逐一查看离子色谱图、删去RSD(相对标准偏差)大于30%的特征等方法来去除。对于假阳性特征的处理,已有的方法需要较多的人工干预,不能由仪器或软件自动化实现。本专利技术对真实化学信号与噪声在离子色谱图中的差异性进行研究,提出了去除代谢物离子峰表中假阳性特征的方法rFPF。该方法利用离子色谱图的信息熵指标和相关性系数找出真实的化学信号。首先去除仅在空白样本中表现为真实化学信号的非样本源质谱特征,然后在实际样本中去除表现为噪声的质谱特征。本专利技术从程序自动化实现的角度,去除代谢物峰表中的假阳性特征,减少人工干预,有利于后续统计分析和生物学解释,在基于HRLC-MS的代谢组学数据处理中有着广泛的实际应用价值。
技术实现思路
峰表中的假阳性特征会干扰机器学习分类模型的构建,影响特征选择方法对生物标志物的筛选,甚至给代谢物的定性分析带来错误的结果。因此,去除假阳性特征,保留真实存在的质谱特征,更有利于标志物的筛选、疾病的分型以及代谢物的定性分析等等。本专利技术通过研究真实化学信号与噪声在离子色谱图中的差异性,提出一种去除代谢物离子峰表中假阳性特征的方法,该方法通过离子色谱图的信息熵指标和相关性系数找出真实的化学信号,根据样本的原始数据去除峰表中非样本源化合物和噪声对应的假阳性质谱特征。为了达到上述目的,本专利技术采用的技术方案如下:一种基于HPLC-MS的去除代谢物离子峰表中假阳性质谱特征的方法,包括:首先,利用新定义的信息熵指标(Entropyindex)和色谱图相关性系数,给出能够识别真实化学信号的方法;其次,采用空白样本中的原始数据去掉非样本源化合物对应的质谱特征;最后,根据实际样本的原始数据去掉对应为噪声的质谱特征,完成对假阳性特征的处理。该方法具体如下:1)样本的制作及HRLC-MS分析:采集样本,通过高分辨液相色谱质谱仪对样本进行分析,至少要有2个空白样本。2)代谢组学数据获取:采用峰匹配软件对样本(包括空白样本)进行峰匹配处理,得到代谢物离子峰表。3)计算质谱特征的离子色谱图:设Si(1≤i≤N)为某一质谱特征在样本i中的离子色谱图,N为样本总数,其中Si=(Ii,1,Ii,2,…,Ii,n(i)),n(i)是离子色谱图Si中点的数量,Ii,l(1≤l≤n(i))是样本i的离子色谱图中第l个点的强度。理想色谱峰中,强度最高点左侧,每个点的强度值依次增加,其右侧点的强度依次下降。若受到噪声干扰或者重叠峰,会出现变化点,即最高点左侧某个点的强度低于其前一个点,最高点右侧某个点强度高于前一个点,这样的点为变化点,如图1所示。4)计算质谱特征的信息熵指标(Entropyindex):令Imax_i为离子色谱图Si中所有点的最大强度,即(Imax_i=max{Ii,1,Ii,2,…,Ii,n(i)},1≤max_i≤n(i))。公式(1)和(2)给出hi,j(1≤j≤d(i))的计算方法。hi,j(1<j≤d(i))表示离子色谱图Si中变化点与其前一个点的强度之差(如图1所示),d(i)-1为色谱图中变化点的数量。如果色谱图Si中存在变化点,则根据变化点与其前一个点的强度值之差计算hi,j(1<j≤d(i))。如果色谱图中不存在变化点,则d(i)=1。hi,1=Imax_i(1)其中,k用于表示离子色谱图Si中某个强度I对应的位置。根据公式(3)计算离子色谱图Si中hi,j(1≤j≤d(i))的信息熵:则信息熵指标(Entropyindex)定义为所有样本的entropy_Si(1≤i≤N)的中位数,即:Entropyindex=median{entropy_Si,1≤i≤N}(5)信息熵指标(Entropyindex)计算方法的流程图如图3所示。5)计算离子色谱图的相关性系数:在计算色谱图在样本间的相关性系数之前,需修正色谱保留时间的漂移。6)去除非样本源化合物对应的假阳性质谱特征:使用步骤3-5中介绍的方法(判别质谱特征对应的化学信号是否为噪声,该方法流程如图3所示),根据空白样本的原始数据去除峰表中非样本源化合物对应的质谱特征。信息熵指标阈值的参考范围:0.01-0.1,相关性系数的参考范围:0.8-1。7)去除噪声:使用步骤3-5中介绍的方法(判别质谱特征对应的化学信号是否为噪声,该方法流程如图3所示),根据实际样本的原始数据去除峰表中的噪声。信息熵指标阈值的参考范围:0.01-0.1,相关性系数的参考范围:0.8-1。与现有技术相比,本专利技术采用的有益效果为:本专利技术去除峰表中的假阳性特征并保留真实存在的质谱特征,减少噪声和非样本源化合物对代谢组学中分类模型的构建、生物标志物筛选以及代谢物定性的干扰,可应用于化学计量学和代谢组学中质谱特征的处理。本专利技术可以通过计算机程序自动化实现,不需要重复的化学实验以及肉眼判断等人工干预。附图说明图1为三种色谱图及“信息熵指标”的计算方式;(A)为理想情况下的色谱峰及其变化点,(B)为受到噪声干扰的色谱峰及其变化点;(C)为噪声及其变化点。图2为判断质谱特征是否为真实化学信号的流程。图3为信息熵指标(Entropyindex)计算方法的流程图。图4为去除假阳性质谱特征的过程;(A)为原始数据,包括实际样本和空白样本的色谱峰分布,(B)为去除非样本源化合物后的实际样本中色谱峰分布,(C)为去除噪声后的实际样本中的色谱峰分布。图5为本专利技术处理标样数据的结果图;(A)为原始峰表的散点图,(B)为去除假阳性质谱特征后峰表的散点图;(C)为离子融合后的峰表散点图;(D)为去除非样本源化合物、去除噪声和离子融合三步各自去掉的特征数量。图6为本专利技术处理尿样数据的结果;(A)为原始峰表的散点图,(B)为去除假阳性质谱特征后峰表的散点图;(C)本文档来自技高网
...

【技术保护点】
1.一种基于HPLC‑MS的去除代谢物离子峰表中假阳性质谱特征的方法,其特征在于,该方法:首先,利用定义的信息熵指标Entropy index和色谱图相关性系数,给出能够识别真实化学信号的方法;其次,采用空白样本中的原始数据去掉非样本源化合物对应的质谱特征;最后,根据实际样本的原始数据去掉对应为噪声的质谱特征,完成对假阳性特征的处理;该方法具体如下:1)样本的制作及HRLC‑MS分析:采集样本,通过高分辨液相色谱质谱仪对样本进行分析,至少要有2个空白样本;2)代谢组学数据获取:采用峰匹配软件对样本(包括空白样本)进行峰匹配处理,得到代谢物离子峰表;3)计算质谱特征的离子色谱图:设Si(1≤i≤N)为某一质谱特征在样本i中的离子色谱图,N为样本总数,其中Si=(Ii,1,Ii,2,…,Ii,n(i)),n(i)是离子色谱图Si中点的数量,Ii,l(1≤l≤n(i))是样本i的离子色谱图中第l个点的强度;受到噪声干扰或者重叠峰,会出现变化点;4)计算质谱特征的信息熵指标Entropy index:令Imax_i为离子色谱图Si中所有点的最大强度,即(Imax_i=max{Ii,1,Ii,2,…,Ii,n(i)},1≤max_i≤n(i));公式(1)和(2)给出hi,j(1≤j≤d(i))的计算方法;hi,j(1<j≤d(i))表示离子色谱图Si中变化点与其前一个点的强度之差,d(i)‑1为色谱图中变化点的数量;如果色谱图Si中存在变化点,则根据变化点与其前一个点的强度值之差计算hi,j(1<j≤d(i));如果色谱图中不存在变化点,则d(i)=1;hi,1=Imax_i                  (1)...

【技术特征摘要】
1.一种基于HPLC-MS的去除代谢物离子峰表中假阳性质谱特征的方法,其特征在于,该方法:首先,利用定义的信息熵指标Entropyindex和色谱图相关性系数,给出能够识别真实化学信号的方法;其次,采用空白样本中的原始数据去掉非样本源化合物对应的质谱特征;最后,根据实际样本的原始数据去掉对应为噪声的质谱特征,完成对假阳性特征的处理;该方法具体如下:1)样本的制作及HRLC-MS分析:采集样本,通过高分辨液相色谱质谱仪对样本进行分析,至少要有2个空白样本;2)代谢组学数据获取:采用峰匹配软件对样本(包括空白样本)进行峰匹配处理,得到代谢物离子峰表;3)计算质谱特征的离子色谱图:设Si(1≤i≤N)为某一质谱特征在样本i中的离子色谱图,N为样本总数,其中Si=(Ii,1,Ii,2,…,Ii,n(i)),n(i)是离子色谱图Si中点的数量,Ii,l(1≤l≤n(i))是样本i的离子色谱图中第l个点的强度;受到噪声干扰或者重叠峰,会出现变化点;4)计算质谱特征的信息熵指标Entropyindex:令Imax_i为离子色谱图Si中所有点的最大强度,即(Imax_i=max{Ii,1,Ii,2,…,Ii,n(i)},1≤max_i≤n(i));公式(1)和(2)给出hi,j(1≤j≤d(i))的计算方法;hi,j(1<j≤d(i))表示离子色谱图Si中变化点与其前一个点的强度之差,d(i)-1为色谱图中变...

【专利技术属性】
技术研发人员:林晓惠巨然曾仲大许国旺刘心昱赵欣捷路鑫
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1