一种代谢组分子变量综合筛选技术制造技术

技术编号:21296921 阅读:32 留言:0更新日期:2019-06-12 06:37
本发明专利技术提供一种代谢组分子变量综合筛选技术,属于代谢组学数据分析技术领域。本发明专利技术中考量了分子对变量上多种可能的样本分布模式,对分子对变量的区分能力进行了综合的评价,并使用与分子对变量相同的指标,有机融合了单变量评价过程,将所有单变量和对变量的评分进行排序,选择得分最高的对变量及其分布模式或单变量进行后续靶向代谢分析。该方法的核心技术基于代谢组学的实际特点,对对变量上多种可能样本分布模式进行了多角度分析与综合评价,挖掘了信息丰富的变量,对所选分子变量和分子对变量进行分类测试,分类性能优越,故本发明专利技术为代谢组学数据的前期分析处理提供了切实有效的方法,具有较强的应用价值。

【技术实现步骤摘要】
一种代谢组分子变量综合筛选技术
本专利技术属于代谢组学数据分析
,专利技术结合当前高通量技术下非靶向代谢组变量多,噪音多,生物体代谢组中分子以各种通路相互关联,分子变量之间关系复杂多样等实际特点,分析样本在成对分子变量上多种可能的分布情况,对成对分子的类间区分能力进行综合评价,并使用统一指标,有机融合单分子的评价过程,有助于迅速从非靶向代谢组中筛选差异性代谢成分或组合代谢成分,来进行后续针对性定性定量研究,是一种代谢组分子变量综合评价筛选技术。
技术介绍
代谢产物是基因表达的最终产物,在代谢酶的作用下生成。代谢物更多地反映了细胞所处的环境,这又与细胞的营养状态,药物和环境污染物的作用,以及其它外界因素的影响密切相关。研究人员通过对机体代谢产物进行深入研究,可以判断机体处于何种状态,而对基因和蛋白质的研究都无法得出这样的结论。代谢物的研究渗透多个领域,包括营养食品科学、毒理学、环境学、植物学等,代谢组学研究具有广泛的前景。非靶向代谢组学(Untargetedmetabolomics)是指采用LC-MS、GC-MS、NMR技术,无偏向性的检测机体受到刺激或扰动前后所有小分子代谢物,是代谢组学研究的重要步骤。但是,随着高通量检测技术的发展,代谢组学数据维度越来越高、由于实验,设备等原因,数据中噪音多、由于实验成本等原因,实验中涉及的样本量通常较小,由于这些特点的存在,非靶向代谢物分析受干扰较多,确定与问题相关代谢物的难度越来越大,从非靶向代谢实验中充分利用代谢组所携带的信息,快速且准确地确定与关键差异性代谢分子,为当前问题的进一步研究提供线索和方向的新技术,对于代谢组学研究具有重要的意义。代谢反应机制十分复杂,代谢物以各类通路反应的形式相互关联,代谢分子变量间存在密切联系,其中蕴含丰富的信息,单分子反映差异的能力有限,差异有很大一部分反应在变量的组合形式上,仅研究单分子将忽略重要信息。分子变量间关系复杂而多样,不同变量对构成的二维平面空间上,样本的分布模式多种多样,对组合变量区分能力的判定需要根据情况作出变化,仅研究的单一的样本分布模式将对组合变量的区分能力产生误判,从而丢失大量有用信息,故需要进行组合变量的综合评价。本专利技术在综合分析多种实际代谢组学数据的基础上,提出了一种代谢组变量综合筛选技术,该技术构建所有的对变量,对对变量分别进行多种假设样本分布模式下的类间区分能力评分,选取最高评分作为对变量的最终得分,并将最终得分相对应的样本分布模式确定为对变量的最佳样本分布模式。技术中融合了单变量评价过程,使用信息增益对每个单变量计算最佳划分点,使用与对变量评价过程相统一的指标,计算最佳划分点下的单变量类间区分能力评分。将所有单变量和对变量的评分进行排序,筛选得分最高的对变量及其分布模式(或单变量)进行后续靶向生物学分析。
技术实现思路
本专利技术的目的是基于代谢组分子变量多、数据噪音大、分子变量间关系复杂多样,难以用单一模式进行刻画的特点,建立一种能迅速确定差异性分子变量或分子组合变量的综合评价筛选方法。该方法的核心技术为:代谢分子对变量上多种可能样本分布模式的分析与综合评价。方法中,构建所有的对变量,对每对对变量所构成的二维平面,技术将分别分析可能呈现的几种样本分布模式:(1)两类样本在两个变量上的相对含量存在较大差异,或描述为:在两个变量构建的二维平面上,两类样本分别位于第一,三象限对角线的上下方,此情况下,样本呈现为水平分布模式;(2)两类样本在两个变量构建的二维平面上,分别分布于两变量的样本均值线相交叉构成的四个区域中,此情况下,样本呈现垂直分布模式;(3)两类样本在两个变量构建的二维平面上,分别近似形成两个分离的簇,但又不符合(1)(2)中描述的分布模式,此情况下,样本呈现簇分布模式;对每对变量的区分能力分别在三种假设样本分布模式下进行评分,选取最高评分作为对变量的最终得分,将最终得分相对应的样本分布模式确定为对变量的最佳分布模式。对单变量,根据信息增益找最佳分割点,使用最佳分割点分配样本,并使用在对变量分析中相同的指标计算此分配下单变量的得分。将所有单变量和对变量的评分进行排序,选择得分最高的对变量(或单变量),进行代谢物靶向研究。为了实现上述目标,本专利技术采用的技术方案如下:一种代谢组分子变量综合筛选技术,步骤如下:使用LC-MS,GC-MS技术检测所研究问题的样本中的小分子代谢成分(相对分子量1000以下),并确定这些成分在不同样本中的含量。将各种成分看作变量,将成分的含量看作变量的值。将样本集合划分为训练集和测试集两部分,训练集用于构建筛选模型,测试集用于验证。令F={f1,f2,...,fi,...,fm}代表变量集合,m是变量数;X={x1,x2,...,xn}代表训练集样本集合,n是训练集样本数;C={1,2}代表类标集合;Y=(y1,y2,...,yi,...,yn)是n个样本的类标向量,其中yi∈C是第i个样本的类标。步骤一、计算单变量得分;(1.1)获取单变量最佳分裂点:首先将变量fi在所有训练样本上的取值进行递增顺序排列,每对不相等相邻值的中点作为此变量可能的分裂点,n个样本最多需计算n-1个可能的分裂点。对于每一个可能的分裂点,计算使用此分裂点进行训练样本集合划分时获得的信息增益,将信息增益最大的分裂点作为变量fi最佳分裂点。公式如下:sp*=argmaxIG(X,spk),k=1,2,...,n1-1(3)公式(1)中,IG(X,spk)代表变量fi使用分裂点spk划分训练样本集合X后,得到的信息增益,n1为训练样本在变量fi上的取值个数,n1≤n,n为样本数量,X-代表在变量fi上取值小于分裂点spk的训练样本构成的集合,X+代表在变量fi上取值不小于分裂点spk的训练样本构成的集合,|X-|、|X+|和|X|分别是X-、X+与X集合的大小;公式(2)中H(X)代表信息熵,是度量样本集合纯度的一个指标,pl为集合X中类标为l的样本的比例,H(X)的值越小,则样本集合X的纯度越高;公式(3)中,sp*代表变量fi最佳分裂点。(1.2)计算单变量得分:对每个单变量fi,1≤i≤m,构建对应的f′i,f′i在所有样本上的值,为此单变量fi的最佳划分点的值,使用变量fi与其对应的f′i组成(fi,f′i),以在单变量fi上及对应f′i上的值的相对大小关系,将训练样本集合划分,得到两个区域,区域内样本分别满足:fi<f′i,fi≥f′i。使用公式(4)-(6)进行单变量fi区分能力得分S(i,i′)的计算:S(x,y)=(Compxy,max-Compxy)/Compxy,max(6)公式(4)中,为fx和fy所构成的二维平面上,某区域d内类标为l的样本个数,l=1,2。为区域d内样本总数,r为区域的个数;公式(5)中,frexy(l)为类标为l的样本总个数,num为样本总数;公式(6)中,S(x,y)刻画了当前划分下各个区域的样本纯度,S(x,y)越高代表当前划分越能将异类样本区分开,也就越有效;对于此处单变量得分的计算,x=i,y=i′,r=2。步骤二、计算对变量得分;对每个对变量(fi,fj),1≤i<j≤m,分别分析其形成的二维平面上,三种样本分布模式:(i)对于水平分布模本文档来自技高网
...

【技术保护点】
1.一种代谢组分子变量综合筛选技术,其特征在于,步骤如下:使用LC‑MS,GC‑MS技术检测所研究问题的样本中的小分子代谢成分,相对分子量1000以下,并确定这些成分在不同样本中的含量;将各种成分看作变量,将成分的含量看作变量的值;将样本集合划分为训练集和测试集两部分,训练集用于构建筛选模型,测试集用于验证;令F={f1,f2,...,fi,...,fm}代表变量集合,m是变量数;X={x1,x2,...,xn}代表训练集样本集合,n是训练集样本数;C={1,2}代表类标集合;Y=(y1,y2,...,yi,...,yn)是n个样本的类标向量,其中yi∈C是第i个样本的类标;步骤一、计算单变量得分;(1.1)获取单变量最佳分裂点:首先将变量fi在所有训练样本上的取值进行递增顺序排列,每对不相等相邻值的中点作为此变量可能的分裂点,n个样本最多需计算n‑1个可能的分裂点;对于每一个可能的分裂点,计算使用此分裂点进行训练样本集合划分时获得的信息增益,将信息增益最大的分裂点作为变量fi最佳分裂点;公式如下:

【技术特征摘要】
1.一种代谢组分子变量综合筛选技术,其特征在于,步骤如下:使用LC-MS,GC-MS技术检测所研究问题的样本中的小分子代谢成分,相对分子量1000以下,并确定这些成分在不同样本中的含量;将各种成分看作变量,将成分的含量看作变量的值;将样本集合划分为训练集和测试集两部分,训练集用于构建筛选模型,测试集用于验证;令F={f1,f2,...,fi,...,fm}代表变量集合,m是变量数;X={x1,x2,...,xn}代表训练集样本集合,n是训练集样本数;C={1,2}代表类标集合;Y=(y1,y2,...,yi,...,yn)是n个样本的类标向量,其中yi∈C是第i个样本的类标;步骤一、计算单变量得分;(1.1)获取单变量最佳分裂点:首先将变量fi在所有训练样本上的取值进行递增顺序排列,每对不相等相邻值的中点作为此变量可能的分裂点,n个样本最多需计算n-1个可能的分裂点;对于每一个可能的分裂点,计算使用此分裂点进行训练样本集合划分时获得的信息增益,将信息增益最大的分裂点作为变量fi最佳分裂点;公式如下:sp*=argmaxIG(X,spk),k=1,2,...,n1-1(3)公式(1)中,IG(X,spk)代表变量fi使用分裂点spk划分训练样本集合X后,得到的信息增益,n1为训练样本在变量fi上的取值个数,n1≤n,n为样本数量,X-代表在变量fi上取值小于分裂点spk的训练样本构成的集合,X+代表在变量fi上取值不小于分裂点spk的训练样本构成的集合,|X-|、|X+|和|X|分别是X-、X+与X集合的大小;公式(2)中H(X)代表信息熵,是度量样本集合纯度的一个指标,pl为集合X中类标为l的样本的比例,H(X)的值越小,则样本集合X的纯度越高;公式(3)中,sp*代表变量fi最佳分裂点;(1.2)计算单变量得分:对每个单变量fi,1≤i≤m,构建对应的f’i,f’i在所有样本上的值,为此单变量fi的最佳划分点的值,使用变量fi与其对应的f’i组成(fi,f’i),以在单变量fi上及对应f’i上的值的相对大小关系,将训练样本集合划分,得到两个区域,区域内样本分别满足:fi<f’i,fi≥f’i;使用公式(4)-(6)进行单变量fi区分能力得分S(i,i’)的计算:S(x,y)=(Compxy,max-Compxy)/Compxy,max(6)公式(4)中,为fx和fy所构成的二维平面上,某区域d内类标为l的样本个数,l=1,2;为区域d内样本总数,r为区域的个数;公式(5)中,frexy(l)为类标为l的样本总个数,num为样本总数;公式(6)中,S(x,y)刻画了当前划分下各个区域的样本纯度,S(x,y)越高代表当前划分越能将异类样本区分开,也就越有效;对于此处单变量得分的计算,x=i,y=i’,r=2;步骤二、计算对变量得分;对每个对变量(fi,fj),1≤i<j≤m,分别分析其形成的二维平面上,三种样本分布模式:(i)对于水平分布模式,根据变量fi和变量fj的大小关系,将训练样本集合划分,得到两个区域,区域内样本分别满足下列条件:fi<fj和fi≥fj;使用公式(4)-(6),x=i,y=j,r=2,进行得分的计算,记为Sh(i,j);(ii)对于垂直分布模式,计算变量fi下所有训练样本的均值,记为μi,计算变量fj下所有训练样本的均值,记为μj,根据变量fi和变量fj的值将训练样本集合划分,得到四个区域,区域内样本分别满足:fi≥μi∩fj≥μj,fi≥μi∩fj<μj,fi<μi∩fj≥μj以及fi<μi∩fj<μj;使用公式(4)-(6),x=i,y=j,r=4,进行得分的计算,记为Sv(i,j);(iii)对于簇分布模式,先移除训练集内每类样本中的离群样本,保留有效范围内的样本,构成新的样本集X’;类l样本的有效范围如下:其中,和分别为:变量fi在训练集类标为l的样本上的均值和标准差;则训练集类标为l的样本的中心的计算公式为:其中,与分别为类l样本集合的中心Vlij在变量fi和变量fj上的值;xq为训练集某样本,和为样本xq在变量fi和变量fj上的值;yq为样本xq的类别;随后...

【专利技术属性】
技术研发人员:林晓惠李佳林张艳慧
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1