一种多组学数据联合分析的方法技术

技术编号：22058775 阅读：72 留言：0更新日期：2019-09-07 16:37

本发明专利技术公开了一种多组学数据联合分析的方法。本发明专利技术所提供的多组学数据联合分析的方法包括如下步骤：(A)对待分析的多组学数据中的每个单一组学的指标数据进行共表达网络分析，找到各自的表达模块；(B)根据不同组学数据各自的表达模块之间的重叠关系，筛选出所述待分析的多组学数据之间显著相关的互作模块。本发明专利技术所提供的多组学数据联合分析方法不受组学数据的数量限制，理论上可以是任意多个组；同时也不依赖输入数据的来源，只要是能衡量相应组学的指标数据(如基因表达量值、表观的甲基化程度，SNP突变率等)，都可以作为输入数据。

A Method for Joint Analysis of Multigroup Data

全部详细技术资料下载

【技术实现步骤摘要】
一种多组学数据联合分析的方法
本专利技术涉及生物信息学领域，具体涉及一种多组学数据联合分析的方法。
技术介绍
随着科学技术的不断进步，高通量的组学数据开始变得容易获取，他们提供了细胞中几乎所有的成员和相互作用的综合描述。Joyce等将这些数据分成3类：成员、相互作用和功能状态数据。成员数据描述细胞分子的属性；相互作用数据记录分子成员之间的作用关系；功能状态数据指的是整体的细胞表型，揭示所有组学数据作用的整体表现。已有的组数数据描述了从基因组到代谢组的生物信号流。首先，DNA(基因组)被转录为mRNA(转录组)，然后mRNA翻译为蛋白质(蛋白质组)，蛋白质催化反应生成代谢物、糖蛋白和寡糖，以及不同的脂类(脂类组)。其中大部分成员可以在细胞中标记和定位(定位组)。产生和改变这些细胞成分的过程通常取决于分子相互作用(相互作用组)，如转录过程中的蛋白质-DNA相互作用、翻译后的蛋白质相互作用以及酶相互作用等。最后，由代谢通路组成整合的网络或流量图(代谢组)，决定细胞动物或表型(表型组)。对于复杂的生物过程，单一的组学研究已经很难对其进行深入的解读。多组学数据的分析，为挖掘科学研究热点，提供了新的思路。然而目前，还没有一套成熟的分析方法对多组学进行联合分析，尤其是超过2个组学的数据的分析。目前，常用的多组学数据的联合分析方法，一般是基于位置关系，像lncRNA与mRNA之间位置关系、miRNA与基因之间的靶向关系、基因与组蛋白结合位置等，或者基于基因表达量的相关性，计算两个组学数据之间的相互关系。现有的分析方法，通用性较差，不同的项目，可能都需要调整方法、参数来分析...

【技术保护点】
1.一种多组学数据联合分析的方法，包括如下步骤：(A)对待分析的多组学数据中的每个单一组学的指标数据进行共表达网络分析，找到各自的表达模块；(B)根据步骤(A)得到的不同组学数据各自的表达模块之间的重叠关系，筛选出所述待分析的多组学数据之间显著相关的互作模块。

【技术特征摘要】
1.一种多组学数据联合分析的方法，包括如下步骤：(A)对待分析的多组学数据中的每个单一组学的指标数据进行共表达网络分析，找到各自的表达模块；(B)根据步骤(A)得到的不同组学数据各自的表达模块之间的重叠关系，筛选出所述待分析的多组学数据之间显著相关的互作模块。2.根据权利要求1所述的方法，其特征在于：步骤(A)中，是基于聚类方法对所述单一组学的指标数据进行共表达网络分析，从而找到所述单一组学的指标数据的所述表达模块的。3.根据权利要求1或2所述的方法，其特征在于：步骤(B)中，是利用超几何分布检验的方法根据不同组学数据各自的所述表达模块之间的重叠关系，筛选出所述待分析的多组学数据中的互作模块的。4.根据权利要求1-3中任一所述的方法，其特征在于：步骤(A)中，是按照包括如下步骤的方法对所述单一组学的指标数据进行共表达网络分析，从而找到所述单一组学的指标数据的所述表达模块的：(a1)计算所述单一组学的指标数据中任意两个指标之间的Pearson相关性系数，得到相关性系数矩阵；(a2)按照无尺度网络的标准选择邻接矩阵的权重参数β值；(a3)根据步骤(a2)中得到的β值，计算步骤(a1)中相关性系数矩阵的邻接矩阵；(a4)用1减去步骤(a3)中的邻接矩阵所得数值作为距离，构建系统聚类树；然后根据混合动态剪切树确定分类模块，即得到所述单一组学的指标数据的所述表达模块。5.根据权利要求4所述的方法，其特征在于：步骤(a1)中，用于计算任意两个指标之间的Pearson相关性系数的所述单一组学的指标数据为经过预处理后得到预处理后数据；进一步地，所述预处理包括删除缺失率高于设定阈值的数据；更进一步地，所述设定阈值为0.2。6.根据权利要求4或5所述的方法，其特征在于：步骤(a2)中，是按照包括如下步骤的方法确定所述β值的：(i)β值分别取1到30的正整数，分别计算各β值对应的R2值；所述R2值是共表达网络中某节点连接度的对数和该节点出现的概率的对数之间的相关性系数的平方值；(ii)按照如下确定所述β值：第一种情况：如果存在所述R2值大于等于0.9，则取第一个出现的所述R2值大于等于0.9时对应的β值；第二种情况：如果所有的所述R2值都小于0.9，则将...

【专利技术属性】
技术研发人员：朱欠华，高强，杨林峰，唐冲，刘赤川，何长寿，
申请(专利权)人：深圳华大基因科技服务有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人