【技术实现步骤摘要】
一种基于协同作用网络的生物组学数据分析方法
本专利技术属于生物组学数据分析
,通过分析评价基因组学、转录组学或代谢组学数据特征间的协同作用,利用信息论的技术,从网络层面来挖掘组学数据重要特征,从而确定与疾病相关的模块标志物,对后续医学研究具有重要意义。
技术介绍
随着人类基因组计划的完成,高通量测序技术的日臻完善,这极大的促进了基因组学、转录组学数据的发展,近些年来,代谢组学成为继基因组学、转录组学后新近发展起来的热门学科,成为生物组学数据重要组成部分之一。生物组学数据通常具有维数较高、样本量较小的特点。受实验条件、实验设备等限制,往往会导致数据所含噪音杂质较多,因此如何从生物组学大数据中挖掘出重要的信息,对疾病诊断、药物研发、个性化治疗等具有重要的意义。目前大多数方法只停留在分子层面来筛选生物标志物,而生物系统是一个复杂的网络,代谢反应机制十分复杂,分子以各类通路反应的形式相互关联,相互作用,共同反映生命活动变化,因此基于网络方式来筛选模块标志物是尤为必要的。生物分子间往往会存在协同交互作用,两个区分能力较弱 ...
【技术保护点】
1.一种基于协同作用网络的生物组学数据分析方法,其特征在于,步骤如下:/n将高通量测序技术所得的基因组学或转录组学数据中的基因序列视为特征,基因序列在不同样本上的表达值视为特征值;利用LC-MS或GC-MS技术得到代谢组学数据中的小分子代谢成分,将实验所得的小分子代谢成分视为特征,小分子代谢成分在不同样本上的含量视为特征值;/n令F={f
【技术特征摘要】
1.一种基于协同作用网络的生物组学数据分析方法,其特征在于,步骤如下:
将高通量测序技术所得的基因组学或转录组学数据中的基因序列视为特征,基因序列在不同样本上的表达值视为特征值;利用LC-MS或GC-MS技术得到代谢组学数据中的小分子代谢成分,将实验所得的小分子代谢成分视为特征,小分子代谢成分在不同样本上的含量视为特征值;
令F={f1,f2,…,fm}为原始特征集合,包含m个特征;X={x1,x2,…,xn}代表样本集合,n为样本总数;Y=(y1,y2,…,yn)为n个样本的类标向量,其中yd∈C={c1,c2},d∈{1,2,…,n},C为类标集合;
(1)计算特征fi与fj的信息增益得分IG(fi;fj;Y),1≤i≠j≤m,公式如下:
IG(fi;fj;Y)=I(fi,fj;Y)-I(fi;Y)-I(fj;Y)(1)
其中I(fi,fj;Y)表示特征fi、fj与类标向量Y的联合互信息大小,I(fi;Y)、I(fj;Y)为特征fi、fj与类标向量Y的互信息;IG(fi;fj;Y)反映fi(fj)与类别Y的依赖关系由于fj(fi)的加入所发生的变化;若IG(fi;fj;Y)>0,则表示特征fi与fj联合所提供关于Y的信息量比它们各自与Y的信息量之和大,进而认为fi与fj具有协同作用;
(2)获得具有显著性的信息增益得分;
当信息增益得分接近于零时,需确定具有显著性交互增益的特征对;对此保留步骤(1)大于零的信息增益值,并对其升序排列,得到IG+={p1,p2,…,pt},p1≤p2,…,≤pt,利用公式(2)计算组距:
再计算序列IG+中相邻两个变量的差值{p2-p1,p3-p2,…,pt-pt-1},只保留结果大于θ1的差值变量,并对其求平均值记为θ2,将满足条件的最小下标为i0所对应的值设定为边的阈值,如果表明fi与fj具有较强的协同作用,IG值越大表明协同作用越强,因此在具有较强协同作用的特征对之间构建连边,此时网络中的节点代表特征,边的权值即为IG值;
(3)在所构建的协同作用网络上进行模块搜索;
由上述步骤(2)所得的协同作用网络,执行模块搜索的过程,过程如下:<...
【专利技术属性】
技术研发人员:林晓惠,白嵩楠,张艳慧,
申请(专利权)人:大连理工大学,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。