【技术实现步骤摘要】
本专利技术涉及生物信息,尤其涉及一种结合多组学数据的基因调控网络新方法。
技术介绍
1、基因调控网络是生物体内基因表达的调控系统,它控制着基因的活性和表达水平,从而决定了细胞的功能和特性。基因调控网络是一种复杂的网络结构,由多个调控因子及其靶基因之间的相互作用组成。研究基因调控网络对于理解生物体的发育、生理和疾病等过程非常重要,可以揭示基因之间的相互作用和调控机制,帮助我们理解细胞的功能和组织的特性。基因调控网络可以通过多种实验技术和计算方法进行研究。实验技术包括表观遗传组学、转录组学和蛋白质组学等高通量组学方法,可以用来鉴定基因和调控因子之间的相互作用。计算方法则利用数学模型和计算机算法来模拟和预测基因调控网络的结构及其调控作用。这些方法可以从大规模数据中挖掘出调控因子的作用、基因调控网络的拓扑结构以及调控网络的动态变化。
2、在网络推断(network inference)风潮下,利用大数据重构生物网络,已经成为生命科学领域的研究热点。例如从生物组学大数据中提取出生物分子之间的相互作用,进而预测未知的生物反应机制。典型的网络推断工作流程,首先是根据预处理的数据,估计变量之间的关系,形成相关矩阵。然后根据假设检验来判断哪些相关关系是显著的。最后把显著的相关关系构建成网络(network representation),其中节点是数据集中的变量,连边代表相关关系。
3、传统方法,如贝叶斯、布尔网络方法和其他经典机器学习方法,仅使用了转录组数据,需要利用假设检验来确定哪些相关系数在统计上是显著的,该检验会产
4、近年来,染色质免疫沉淀(chip)与高通量技术相结合,如测序或微阵列(chip-seq/chip-array,以下简称chip-x)数据,也被广泛用于构建基因调控网络。然而,chip-x检测到的tf结合位点仅显示tf结合的基因组位置,但不能判断哪个基因是其靶标,以及tf结合是否以及如何影响其靶标的转录。
技术实现思路
1、本专利技术的目的在于克服相关技术中存在的问题,本专利技术的目的之一是提供一种结合多组学数据的基因调控网络新方法,能够通过结合表观遗传组学和转录组学的数据,提高传统基因调控网络推断方法的准确性和稳定性。
2、本专利技术所采取的技术方案是:
3、一方面,本专利技术实施例提供了一种结合多组学数据的基因调控网络新方法,包括以下步骤:
4、从转录组数据中获取第一矩阵和第二矩阵;所述第一矩阵包含转录因子;所述第二矩阵包含靶标表达谱;
5、获取表观遗传组学数据的先验知识;
6、使用所述第一矩阵、所述第二矩阵和所述先验知识,通过正则化模型算出基因调控的关系矩阵;
7、使用所述关系矩阵生成基因调控网络。
8、进一步地,所述获取表观遗传组学数据的先验知识,包括:
9、获取所述表观遗传组学数据;所述表观遗传组学数据包括染色质免疫沉淀联合实验数据;
10、将所述表观遗传组学数据作为基因调控网络推断模型的先验知识;
11、使用所述先验知识获得初始化矩阵;
12、使用所述先验知识获得惩罚项。
13、进一步地,所述使用所述先验知识获得初始化矩阵,包括:
14、在没有所述染色质免疫沉淀联合实验数据的情况下,设置所述初始化矩阵为0;
15、当所述先验知识有整合所述染色质免疫沉淀联合实验数据时,如果转录因子在10千碱基对内的基因的启动子周围具有结合位点,则计算所述转录因子和所述基因的表达谱之间的皮尔逊相关系数,将所述皮尔逊相关系数分配到所述初始化矩阵中。
16、进一步地,所述使用所述先验知识获得惩罚项,包括:
17、将所述先验知识作为损失函数的附加项,对所述损失函数进行数学调整,得到稀疏优化模型;
18、使用惩罚函数来控制转录因子和基因之间的调节关系。
19、进一步地,所述使用所述第一矩阵、所述第二矩阵和所述先验知识,通过正则化模型算出基因调控的关系矩阵,包括:
20、根据所述第一矩阵、所述第二矩阵和所述先验知识,获取优化算式;
21、根据所述优化算式,通过正则化模型算出基因调控的关系矩阵。
22、进一步地,所述根据所述第一矩阵、所述第二矩阵和所述先验知识,获取优化算式,所使用的公式包括:
23、
24、b=ax+ε (1)
25、
26、其中,a是所述第一矩阵,表示m个样本中,n个所述转录因子的表达谱矩阵,其中ai表示第i个所述转录因子的表达量,其中i∈[1,n];
27、b是所述第二矩阵,表示m个样本中,靶标基因的表达谱矩阵;
28、中的xi表示第i个所述第一矩阵的元素与所述第二矩阵之间的调节关系,ε是数据中的噪声;
29、公式(2)是所述优化算式,其中,λ>0,λ是正则化参数,是惩罚函数,s是控制x中非零项数量的参数。
30、进一步地,所述根据所述优化算式,通过正则化模型算出基因调控的关系矩阵,所使用的公式包括:
31、
32、
33、
34、其中,所述正则化模型包括第一正则化模型、第二正则化模型和第三正则化模型;
35、公式(3)是使用所述第一正则化模型后的所述优化算式;所述公式(3)用于最小化ax-b之间的差值,最大化矩阵x的稀疏性;
36、公式(4)是使用所述第二正则化模型后的所述优化算式;其中
37、公式(5)是使用所述第三正则化模型后的所述优化算式;其中
38、进一步地,所述根据所述优化算式,通过正则化模型算出基因调控的关系矩阵,所使用的公式包括:
39、
40、其中,参数η>0;xp是所述先验知识。
41、进一步地,所述使用所述第一矩阵、所述第二矩阵和所述先验知识,通过正则化模型算出基因调控的关系矩阵,所述关系矩阵包括:
42、
43、进一步地,所述结合多组学数据的基因调控网络新方法,还包括:
44、利用高通量染色质免疫沉淀联合实验和转录组数据构建一个金标准网络。
45、另一方面,本专利技术实施例还提供了一种结合多组学数据的基因调控网络新方法的实现装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如前面所述的结合多组学数据的基因本文档来自技高网...
【技术保护点】
1.一种结合多组学数据的基因调控网络新方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的结合多组学数据的基因调控网络新方法,其特征在于,所述获取表观遗传组学数据的先验知识,包括:
3.根据权利要求2所述的结合多组学数据的基因调控网络新方法,其特征在于,所述使用所述先验知识获得初始化矩阵,包括:
4.根据权利要求2所述的结合多组学数据的基因调控网络新方法,其特征在于,所述使用所述先验知识获得惩罚项,包括:
5.根据权利要求1所述的结合多组学数据的基因调控网络新方法,其特征在于,所述使用所述第一矩阵、所述第二矩阵和所述先验知识,通过正则化模型算出基因调控的关系矩阵,包括:
6.根据权利要求5所述的结合多组学数据的基因调控网络新方法,其特征在于,所述根据所述第一矩阵、所述第二矩阵和所述先验知识,获取优化算式,所使用的公式包括:
7.根据权利要求5所述的结合多组学数据的基因调控网络新方法,其特征在于,所述根据所述优化算式,通过正则化模型算出基因调控的关系矩阵,所使用的公式包括:
8.根据权利要求6
9.根据权利要求8所述的结合多组学数据的基因调控网络新方法,其特征在于,所述使用所述第一矩阵、所述第二矩阵和所述先验知识,通过正则化模型算出基因调控的关系矩阵,所述关系矩阵包括:
10.根据权利要求1所述的结合多组学数据的基因调控网络新方法,其特征在于,所述结合多组学数据的基因调控网络新方法,还包括:
...【技术特征摘要】
1.一种结合多组学数据的基因调控网络新方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的结合多组学数据的基因调控网络新方法,其特征在于,所述获取表观遗传组学数据的先验知识,包括:
3.根据权利要求2所述的结合多组学数据的基因调控网络新方法,其特征在于,所述使用所述先验知识获得初始化矩阵,包括:
4.根据权利要求2所述的结合多组学数据的基因调控网络新方法,其特征在于,所述使用所述先验知识获得惩罚项,包括:
5.根据权利要求1所述的结合多组学数据的基因调控网络新方法,其特征在于,所述使用所述第一矩阵、所述第二矩阵和所述先验知识,通过正则化模型算出基因调控的关系矩阵,包括:
6.根据权利要求5所述的结合多组学数据的基因调控网络新方法,其特征在于,所述根据所述...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。