当前位置: 首页 > 专利查询>中南大学专利>正文

基于多时滞因果熵的基因调控网络构建方法及系统技术方案

技术编号:24358112 阅读:29 留言:0更新日期:2020-06-03 03:00
本发明专利技术公开了一种基于多时滞因果熵的基因调控网络构建方法及系统,对输入的时间序列基因表达数据划分成不同时滞下的时间窗口;对t个时间片的基因表达数据,分别构建t‑τ个时间窗口下的基因表达矩阵,对每一对基因,计算t时间窗口下的目标基因与之前t‑τ个时间窗口下基因的多时滞转移熵,得到一个多时滞下的基因相关性矩阵,矩阵的元素代表基因之间存在边的概率,并对矩阵通过k‑means将边聚类分成两类,过滤掉低概率的边簇,对剩下的每条边计算在条件基因下的多时滞条件转移熵,对最大因果熵小于阈值的间接调控的边过滤掉,获得最终的网络结构。本发明专利技术有效提高了推断的准确性。

Construction method and system of gene regulatory network based on multi delay causal entropy

【技术实现步骤摘要】
基于多时滞因果熵的基因调控网络构建方法及系统
本专利技术涉及生物信息学领域,涉及复杂生物网络的构建方法。
技术介绍
在生物体中,细胞是所有组织结构和功能组成的基本单元。一个生命体中所有细胞的DNA信息是相同的,但是不同组织器官的细胞却存在不同的差异,这是由于细胞内存在一个复杂的调控基因调控机制,使不同的细胞的表达呈现出很多特异性。其中,控制基因表达的机制统称为基因表达调控。不同的生物进行基因调控的方式也存在差异性。在原核生物中,环境刺激对基因的表达起到至关重要的影响,通过与外界环境的接触,原核生物通过开启、关闭一部分基因的表达,来适应不同的环境。与原核生物相比,真核生物的基因调控更为复杂。真核生物中的调控主要受到激素、细胞生长周期的影响,环境的因素极大的减少。基因调控的具体特征包括(1)结构复杂;(2)调控方式多变:既存在一对一的基因之间的调控,也存在一对多或多对一的多因子调控。(3)类型多样性,可由DNA、mRNA、蛋白质、小分子等多种类型参与。(4)调控关系动态变化。因此,基因调控机制是研究动植物生长发育规律、基本形态结构的重要基础之一基于不同类型的基因表达数据,通过计算的方式构建基因调控网络已成为系统生物学的重要挑战之一。常见的计算方法来构建基因调控网络涵盖了多个领域的理论,包括相关性分析方法,贝叶斯网络,特征选择方法和布尔网络。这些通过分析基因两两之间的相关性或者通过建模的方法分析基因之间表达水平的关系,来确定基因调控关系,最终构建调控网络。相关分析构建基因调控网络是最直观的方法之一。研究者利用皮尔逊相关系数、互信息等方式分析基因之间的关联性。其中,最为流行的方式是基于互信息的基因调控网络构建。相比于皮尔逊相关系数,互信息更能揭示基因之间非线性的调控关系。Margolin等人提出了ARACNE算法,使用DataProcessingInequality(DPI)的方式,判断在一个三元关系组(X1,X2,X3)中,如果存在那么存在以下关系:I(X1;X3)≤min[I(X1;X2),I(X2;X3)]。ARACNE对任意成对基因计算互信息I,并使用阈值I0,Margolin等认为只有I≥I0的基因对之间才存在调控关系。Meyer等人在ARACNE的基础上,进一步提出了MRNET算法。该算法使用maximumrelevance/minimumredundancy(MRMR)的策略,使用贪婪算法挑选出节点Xj,该节点需要符合和目标节点Y与到其他已选择节点集合S互信息差值Score最大。Patrick对于一对节点{Xi,Xj}使用较大的MRMR值作为他们的权值。Luo等人在进一步的研究中,认为基因表达调控关系一般超过3个基因,也就是对于目标基因T,一般有两个以上调控基因。基于此假设,他们提出新算法MI3,通过相关性部分和协调性部分对目标基因T和两个调控基因R1和R2进行打分,从而来发现更高阶的相互作用。Zhang等人集合条件互信息和路径一致性算法(pathconsistencyalgorithm,PCA),提出一种网络构建算法CMI-PCA。CMI-PCA采用多元条件互信息检验过滤间接的调控关系。Zhao等人针对CMI-PCA对于调控关系在计算中存在欠估计的问题,提出了一种新的互信息估计方法PMI。基于互信息的基因调控网络构建方法突破点在于过滤间接的调控关系。贝叶斯网络是另一种常见的基因调控网络构建方法。贝叶斯网络对生物有向网络的属性进行量化,结合了图论和概率论两个方面的方法。贝叶斯网络在基因调控网络的难点主要可以分为结构学习和参数学习两个部分。Werhli和Husmeier集成了基因表达数据和多个来源的先验知识。通过构造能量函数E(G)并结合Gibbs分布作为贝叶斯网络结构的学习,贝叶斯网络构造的精确性得到了提高。同时,他们还利用马尔可夫链蒙特卡罗方法(MCMC)对不同先验知识中的超参数进行估计。Qin等人在先验知识上加入了OntologyFingerprint评估基因之间的相似性,推断细胞类型特异性的信号传导网络。在算法过程中,贝叶斯网络建立在给定的规范化的信号传导网络上,采用了一个启发式搜索的算法,根据OntologyFingerprint相似性增加和删除边,并且计算候选模型和观测数据的符合程度作为选择指标。在贝叶斯网络结构学习的过程中,Qin采用了BIC作为参数的选择,并使用了MonteCarloEMalgorithm推断网络中节点的隐藏状态,并进一步估计候选模型参数。Hill等人受到“上游调控因子数量极少“的启发,认为基因在网络中入度dmax=4,从而有效的减少了网络的不确定性。Hill的方法在给定网络结构的作为先验知识的情况下,在酵母综合网络中构建网络的AUC值可达到到0.82,同时在乳腺癌细胞系中也显得极为有效。Li等人提出了一种结合高阶时序模型和Max-Minhill-climbing启发式搜索的动态贝叶斯算法MMHO-DBN。MMHO-DBN采用对局部搜索方法进行改进,采用DynamicMax-MinParent(DMMP)获得极大可能性的父节点集合,有效的减少了候选网络结构的空间。目前已有不少基因调控网络构建方法被提出,但受限于基因调控的复杂性,其精度仍有很大的提升空间。其中主要存在以下问题:(1)如何设计有效的算法过滤基因之间间接的调控关系;(2)如何结合其他生物信息,提高网络构建的精度。
技术实现思路
本专利技术所要解决的技术问题是,针对现有技术不足,提供一种基于多时滞因果熵的基因调控网络构建方法,提高网络构建的精度。为解决上述技术问题,本专利技术所采用的技术方案是:一种基于多时滞因果熵的基因调控网络构建方法及系统,包括以下步骤:1)将输入的时序基因表达数据根据时滞τ划分成不同的时间窗口;2)对划分窗口后的t个时间片的基因表达数据,分别构建t-τ个时间窗口下的时序基因表达矩阵,从t-τ到t-1的基因表达矩阵;3)对t-τ个时间窗口下的时序基因表达矩阵中的每一个基因,目标基因选择t窗口下的表达谱,调控因子选择t-τ窗口到t-1时间窗口下的表达谱,计算基因之间的多时滞转移熵,得到基因相关性矩阵;4)对基因相关性矩阵的全连通网络,将边聚类分成两类,过滤掉低概率值的一类边,对剩下的每一条边,计算在不同条件基因下的多时滞因果熵,过滤掉最大因果熵低于阈值θ的间接调控的边,得到最终的基因调控网络。步骤1)中,使用多时间延迟可以更精确的识别调控关系,根据时滞τ划分不同的时间窗口Gτ的表达式为:其中,表示在时间窗口表达矩阵Gτ中基因N在样本M时间窗口T下的表达值;T表示在哪个移动时间窗口下的基因表达向量;N代表基因的下标,N∈基因的数目;M代表样本细胞的下标,M∈样本的数目。步骤3)中,为了更精确识别多时滞下的调控关系,把转移熵推广到多时滞下的模式,基因之间的多时滞转移熵TX→Y的计算公式为:TX→Y=I(Yt,Xt-1:t-τ|Yt-1:t-τ)=H(Yt|Yt-1:t-τ)-H(Yt|Yt-1:t-τ,Xt-1:t本文档来自技高网
...

【技术保护点】
1.一种基于多时滞因果熵的基因调控网络构建方法,其特征在于,包括以下步骤:/n1)将输入的时序基因表达数据根据时滞τ划分成不同的时间窗口;/n2)对划分窗口后的t个时间片的基因表达数据,分别构建t-τ个时间窗口下的时序基因表达矩阵,从t-τ到t-1的基因表达矩阵;/n3)对t-τ个时间窗口下的时序基因表达矩阵中的每一个基因,目标基因选择t窗口下的表达谱,调控因子选择t-τ窗口到t-1时间窗口下的表达谱,计算基因之间的多时滞转移熵,得到基因相关性矩阵;/n4)对基因相关性矩阵的全连通网络,将边聚类分成两类,过滤掉低概率值的一类边,对剩下的每一条边,计算在不同条件基因下的多时滞因果熵,过滤掉最大因果熵低于阈值θ的间接调控的边,得到最终的基因调控网络。/n

【技术特征摘要】
1.一种基于多时滞因果熵的基因调控网络构建方法,其特征在于,包括以下步骤:
1)将输入的时序基因表达数据根据时滞τ划分成不同的时间窗口;
2)对划分窗口后的t个时间片的基因表达数据,分别构建t-τ个时间窗口下的时序基因表达矩阵,从t-τ到t-1的基因表达矩阵;
3)对t-τ个时间窗口下的时序基因表达矩阵中的每一个基因,目标基因选择t窗口下的表达谱,调控因子选择t-τ窗口到t-1时间窗口下的表达谱,计算基因之间的多时滞转移熵,得到基因相关性矩阵;
4)对基因相关性矩阵的全连通网络,将边聚类分成两类,过滤掉低概率值的一类边,对剩下的每一条边,计算在不同条件基因下的多时滞因果熵,过滤掉最大因果熵低于阈值θ的间接调控的边,得到最终的基因调控网络。


2.根据权利要求1所述的基于多时滞因果熵的基因调控网络构建方法,其特征在于,步骤1)中,根据时滞τ划分不同的时间窗口Gτ的表达式为:



其中,表示在时间窗口表达矩阵Gτ中基因N在样本M时间窗口T下的表达值;T表示在哪个移动时间窗口下的基因表达向量;N代表基因的下标N∈基因的数目;M代表样本细胞的下标M∈样本的数目。


3.根据权利要求1所述的基于多时滞因果熵的基因调控网络构建方法,其特征在于,步骤3)中,基因之间的多时滞转移熵TX→Y的计算公式为:
TX→Y=I(Yt,Xt-1:t-τ|Yt-1:t-τ)
=H(Yt|Yt-1:t-τ)-H(Yt|Yt-1::t-τ,Xt-1:t-τ);
其中I(Yt,Xt-1:t-τ|Yt-1:t-τ)代表Yt,Xt-1:t-τ在条件变量Yt-1:t-τ的条件互信息:



其中Px,y,z(x,y,z)代表联合概率密度,Pz(z)代表边际概率密度,Px,z(x,z)代表变量x,z之间的边际概率密度;
Xt-1:t-τ表示基因x在t-1到t-τ时间窗口下的表达值,H(·|·)代表条件熵:...

【专利技术属性】
技术研发人员:李敏冯浩楠郑瑞清
申请(专利权)人:中南大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1