一种多组学数据联合分析的方法技术

技术编号:22058775 阅读:72 留言:0更新日期:2019-09-07 16:37
本发明专利技术公开了一种多组学数据联合分析的方法。本发明专利技术所提供的多组学数据联合分析的方法包括如下步骤:(A)对待分析的多组学数据中的每个单一组学的指标数据进行共表达网络分析,找到各自的表达模块;(B)根据不同组学数据各自的表达模块之间的重叠关系,筛选出所述待分析的多组学数据之间显著相关的互作模块。本发明专利技术所提供的多组学数据联合分析方法不受组学数据的数量限制,理论上可以是任意多个组;同时也不依赖输入数据的来源,只要是能衡量相应组学的指标数据(如基因表达量值、表观的甲基化程度,SNP突变率等),都可以作为输入数据。

A Method for Joint Analysis of Multigroup Data

【技术实现步骤摘要】
一种多组学数据联合分析的方法
本专利技术涉及生物信息学领域,具体涉及一种多组学数据联合分析的方法。
技术介绍
随着科学技术的不断进步,高通量的组学数据开始变得容易获取,他们提供了细胞中几乎所有的成员和相互作用的综合描述。Joyce等将这些数据分成3类:成员、相互作用和功能状态数据。成员数据描述细胞分子的属性;相互作用数据记录分子成员之间的作用关系;功能状态数据指的是整体的细胞表型,揭示所有组学数据作用的整体表现。已有的组数数据描述了从基因组到代谢组的生物信号流。首先,DNA(基因组)被转录为mRNA(转录组),然后mRNA翻译为蛋白质(蛋白质组),蛋白质催化反应生成代谢物、糖蛋白和寡糖,以及不同的脂类(脂类组)。其中大部分成员可以在细胞中标记和定位(定位组)。产生和改变这些细胞成分的过程通常取决于分子相互作用(相互作用组),如转录过程中的蛋白质-DNA相互作用、翻译后的蛋白质相互作用以及酶相互作用等。最后,由代谢通路组成整合的网络或流量图(代谢组),决定细胞动物或表型(表型组)。对于复杂的生物过程,单一的组学研究已经很难对其进行深入的解读。多组学数据的分析,为挖掘科学研究热点,提供了新的思路。然而目前,还没有一套成熟的分析方法对多组学进行联合分析,尤其是超过2个组学的数据的分析。目前,常用的多组学数据的联合分析方法,一般是基于位置关系,像lncRNA与mRNA之间位置关系、miRNA与基因之间的靶向关系、基因与组蛋白结合位置等,或者基于基因表达量的相关性,计算两个组学数据之间的相互关系。现有的分析方法,通用性较差,不同的项目,可能都需要调整方法、参数来分析;方法局限性比较高,对于超过两个组学的数据,很难满足其科研需求。
技术实现思路
为了有效的解决以上问题,本专利技术开发了一套适用于任意多组的组学数据的联合分析方法。本专利技术所提供的一种多组学数据联合分析的方法,具体可包括如下步骤:(A)对待分析的多组学数据中的每个单一组学的指标数据进行共表达网络分析,找到各自的表达模块;(B)根据步骤(A)得到的不同组学数据各自的表达模块之间的重叠关系,筛选出所述待分析的多组学数据中的互作模块。其中,这里的所述“共表达网络”是基于某单一组学数据中不同指标的相似性而构建的网络图,图中的节点代表指标,具有共性的指标被连接起来形成网络。所述“共表达网络”中被连接起来的一组具有共性的指标即为一个所述“表达模块”。如“基因共表达网络”,是基于基因间表达数据的相似性而构建的网络图,图中的节点代表基因(此处的基因即对应所述指标),具有相似表达谱的基因被连接起来形成网络。对于所述“基因共表达网络”而言,所述“表达模块”则为所述“基因共表达网络”中被连接起来的一组具有类似表达趋势的基因,如果某些基因在一个生理过程或不同组织中总是具有相类似的表达变化,那么则有理由认为这些基因在功能上是相关的,把它们定义为一个表达模块(module)。这里所述的“重叠关系”有两层含义,其一是说不同组学数据的表达模块之间共有的指标数,其二是说这个共有的情况是否显著(基于显著模型判断)。在所述方法中,步骤(A)之前还包括获得所述待分析多组学数据的步骤。进一步地,步骤(A)中,是基于聚类方法对所述单一组学的指标数据进行共表达网络分析,从而找到所述单一组学的指标数据的所述表达模块的。如可采用加权基因共表达网络构建(WeightedGeneCo-ExpressionNetworkAnalysis,WGCNA)的方法对所述单一组学的指标数据进行共表达网络分析,从而找到所述单一组学的指标数据的所述表达模块的。进一步地,步骤(B)中,是利用超几何分布检验的方法根据不同组学数据各自的所述表达模块之间的重叠关系,筛选出所述待分析的多组学数据之间显著相关的互作模块。更进一步地,在本专利技术中,步骤(A)具体是按照包括如下步骤的方法对所述单一组学的指标数据进行共表达网络分析,从而找到所述单一组学的指标数据的所述表达模块的:(a1)计算所述单一组学的指标数据中任意两个指标之间的Pearson相关性系数(皮尔逊相关系数),得到相关性系数矩阵;(a2)按照无尺度网络的标准选择邻接矩阵的权重参数β值;(a3)根据步骤(a2)中得到的β值,计算步骤(a1)中相关性系数矩阵的邻接矩阵;(a4)用1减去步骤(a3)中的邻接矩阵所得数值作为距离,构建系统聚类树;然后根据混合动态剪切树(dynamicTreeCut)确定分类模块,即得到所述单一组学的指标数据的所述表达模块。更加具体的,步骤(a1)中,用于计算任意两个指标之间的Pearson相关性系数的所述单一组学的指标数据为经过预处理后得到预处理后数据。所述预处理包括删除缺失率高于设定阈值的数据(删除缺失率高于设定阈值的整行数据)。在本专利技术的一个实施例中,所述设定阈值具体为0.2(表示所述设定阈值为“缺失率为20%”),即删除缺失率高于20%的整行数据。其中,所述“缺失率”指某个指标数据在所统计的样本中,被漏记的比例;譬如10个样本,只有8个样品有该指标数据的数值,则缺失率为20%。更加具体的,步骤(a1)中,是按照包括如下步骤的方法得到所述相关性系数矩阵的:当所述“共表达网络”的网路类型为unsigned时,指标i和指标j之间的Pearson相关性系数Sij=|cor(i,j)|;当所述“共表达网络”的网路类型为signed时,指标i和指标j之间的Pearson相关性系数Sij=|(1+cor(i,j))/2|;由此,得到所述相关性系数矩阵S=[Sij]。更加具体的,步骤(a2)中,是按照包括如下步骤的方法确定所述β值的:(i)β值分别取1到30的正整数,分别计算各β值对应的R2值;所述R2值是共表达网络中某节点连接度(k)的对数(log(k))和该节点出现的概率的对数(log(p(k)))之间的相关性系数的平方值。所述R2值越大,网络越逼近无网络尺度的分布。(ii)按照如下确定所述β值:第一种情况:如果存在所述R2值大于等于0.9,则取第一个出现的所述R2值大于等于0.9时对应的β值(即所述R2值大于等于0.9时对应的最小的β值);第二种情况:如果所有的所述R2值都小于0.9,则将所述R2值和所述β值进行局部多项式回归分析,取第一个饱和点的所述R2值对应的β值;第三种情况:如果不存在满足所述第一种情况和所述第二种情况的β值,则取β值为30。更加具体的,步骤(a3)中,是按照包括如下步骤的方法计算得到所述邻接矩阵的:根据步骤(a1)中计算得到的指标i和指标j之间的Pearson相关性系数Sij以及步骤(a2)中得到的β值,计算得到指标i和指标j之间的邻接系数aij=|Sij|β;由此,得到所述邻接矩阵A=[aij]。在本专利技术的一个具体实施例中,步骤(a4)中,根据混合动态剪切树确定所述分类模块时定义每个模块中指标的最少数目为50;deepSplit为0。更进一步地,在本专利技术中,步骤(B)中,具体是按照如下方法筛选出所述待分析的多组学数据之间显著相关的互作模块的:(b1)假定所述待分析的多组学数据为X个组学数据,来自于所述X个组学数据的X个表达模块组合成模块组(不失一般性,X为大于等于2的正整数;所述模块组中包含的表达模块分别记为M1,M2,…,M本文档来自技高网
...

【技术保护点】
1.一种多组学数据联合分析的方法,包括如下步骤:(A)对待分析的多组学数据中的每个单一组学的指标数据进行共表达网络分析,找到各自的表达模块;(B)根据步骤(A)得到的不同组学数据各自的表达模块之间的重叠关系,筛选出所述待分析的多组学数据之间显著相关的互作模块。

【技术特征摘要】
1.一种多组学数据联合分析的方法,包括如下步骤:(A)对待分析的多组学数据中的每个单一组学的指标数据进行共表达网络分析,找到各自的表达模块;(B)根据步骤(A)得到的不同组学数据各自的表达模块之间的重叠关系,筛选出所述待分析的多组学数据之间显著相关的互作模块。2.根据权利要求1所述的方法,其特征在于:步骤(A)中,是基于聚类方法对所述单一组学的指标数据进行共表达网络分析,从而找到所述单一组学的指标数据的所述表达模块的。3.根据权利要求1或2所述的方法,其特征在于:步骤(B)中,是利用超几何分布检验的方法根据不同组学数据各自的所述表达模块之间的重叠关系,筛选出所述待分析的多组学数据中的互作模块的。4.根据权利要求1-3中任一所述的方法,其特征在于:步骤(A)中,是按照包括如下步骤的方法对所述单一组学的指标数据进行共表达网络分析,从而找到所述单一组学的指标数据的所述表达模块的:(a1)计算所述单一组学的指标数据中任意两个指标之间的Pearson相关性系数,得到相关性系数矩阵;(a2)按照无尺度网络的标准选择邻接矩阵的权重参数β值;(a3)根据步骤(a2)中得到的β值,计算步骤(a1)中相关性系数矩阵的邻接矩阵;(a4)用1减去步骤(a3)中的邻接矩阵所得数值作为距离,构建系统聚类树;然后根据混合动态剪切树确定分类模块,即得到所述单一组学的指标数据的所述表达模块。5.根据权利要求4所述的方法,其特征在于:步骤(a1)中,用于计算任意两个指标之间的Pearson相关性系数的所述单一组学的指标数据为经过预处理后得到预处理后数据;进一步地,所述预处理包括删除缺失率高于设定阈值的数据;更进一步地,所述设定阈值为0.2。6.根据权利要求4或5所述的方法,其特征在于:步骤(a2)中,是按照包括如下步骤的方法确定所述β值的:(i)β值分别取1到30的正整数,分别计算各β值对应的R2值;所述R2值是共表达网络中某节点连接度的对数和该节点出现的概率的对数之间的相关性系数的平方值;(ii)按照如下确定所述β值:第一种情况:如果存在所述R2值大于等于0.9,则取第一个出现的所述R2值大于等于0.9时对应的β值;第二种情况:如果所有的所述R2值都小于0.9,则将...

【专利技术属性】
技术研发人员:朱欠华高强杨林峰唐冲刘赤川何长寿
申请(专利权)人:深圳华大基因科技服务有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1