当前位置: 首页 > 专利查询>湖南大学专利>正文

一种基于线性模型的基因共调控网络中关键调控子识别方法技术

技术编号:15691297 阅读:105 留言:0更新日期:2017-06-24 04:23
本发明专利技术公开了一种基于线性模型的基因共调控网络中关键调控子识别方法,利用基因表达谱数据和基因调控关系数据,通过构建线性模型预测已知疾病基因的表达来完成基因共调控网络中关键调控子的识别。本发明专利技术实现简单,只需根据基因表达谱数据和基因调控关系就能比较准确地识别出基因共调控网络中的关键调控子,并且通过实验证明识别的调控子具有很重要的生物意义,对于疾病机制的研究具有重要的理论意义和实用价值。

Identification of key regulators in a gene co regulation network based on linear model

The invention discloses a common promoter recognition method of key regulatory network in linear model based on gene expression data and gene regulation data using gene expression by constructing prediction of known disease genes to gene co regulation network control key recognition sub linear model. The invention is easy to implement, only according to gene expression data and gene regulation relationships can be accurately identified gene regulatory network is the key regulator, and through the experiment proves that it has very important biological significance of promoter recognition, has important theoretical significance and practical value for the study of disease mechanism.

【技术实现步骤摘要】
一种基于线性模型的基因共调控网络中关键调控子识别方法
本专利技术属于计算生物学领域,涉及一种基于线性模型的基因共调控网络中关键调控子识别方法。
技术介绍
在后基因组时代,理解基因、非编码RNA、蛋白质和其他相关生物分子的功能,提示生物过程的实现机理成为当前计算系统生物学和生物信息学最重要的研究目标之一。其中,基因调控的研究是一个非常重要的课题。了解基因表达的调控机制,对于我们认识生物学过程和疾病的发生机制都起到了重要的作用。在真核生物中,有两类重要的调控因子:转录因子(TF)和microRNA(miRNA),分别在转录水平及转录后水平上调控靶基因的表达水平。转录因子是一类具有特定功能的蛋白质,它通过结合到基因的启动子区域来开启基因的转录过程。miRNA是近年来研究发现的一种新的基因调控元件,是在真核生物中发现的一类内源性的具有调控功能的非编码RNA,其大小长约20-25个核苷酸。转录因子、miRNA在基因表达调控中起到了重要的作用,这种调控作用遍及各种生物活动以及疾病发生过程。在此基础上,研究发现转录因子和miRNA存在着广泛的相互作用和合作调控,它们组成了一个复杂的共调控网络。共调控网络中包含转录因子调控miRNA、转录因子调控靶基因、miRNA调控转录因子和靶基因的调控作用,这些调控作用体现了细胞分子生命过程和功能执行的各个阶段,所以共调控网络包含比单个网络更丰富的生物信息。因此,有效地识别共调控网络上的关键调控子对疾病的临床治疗和药物设计都有重要作用,这将可能会给人类疾病的治疗提供一种新的手段。随着高通量技术的迅速发展,产生了大量的基因组学、转录组学和蛋白质组学等组学数据,为生物分子功能研究提供了新的契机。以往对于关键点的识别算法,主要是集中在蛋白质相互作用网络上对于关键蛋白的识别。与蛋白质相互作用网络相比,转录调控网络的进化研究则更困难。首先,可信的转录调控网络数据仍然不容易获取;其次,就已有的转录调控网络来看,由于网络本身的功能特性,其展现出的拓扑特性与蛋白质相互作用网络有较大不同,且加上调控作用的有向性,使得调控网络展现出的拓扑特性更加复杂。因此对于调控网络上关键调控子的识别也比关键蛋白的识别更为复杂。近年来,对于调控网络的研究越来越多,已经有了多种基于计算的方法来识别调控网络上的关键调控子,主要是有下面这几类方法:基于信息流模型(RWR)、排名算法(PageRanking)、构建分类器(SVM、Regularizedleast-squaresclassification)、贝叶斯网络、基于回归模型等等。然而,已有的方法或多或少存在一些问题:比如不能处理大数据、时间复杂度太高、精度有待提高等等。2015年,Alexandra等提出了MIPRIP方法,利用线性模型来识别调控网络上的关键调控子,实验结果表明,基于线性模型的方法能有效的识别具有重要生物意义的调控子。然而,该方法只是单纯的考虑了转录因子与基因之间的关系,并没有考虑到共调控网络中调控子之间的相互作用和合作调控关系,同时识别精度也有待提高。因此,有必要设计一种基于线性模型的基因共调控网络中关键调控子识别方法。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于线性模型的基因共调控网络中关键调控子识别方法。该基于线性模型的基因共调控网络中关键调控子识别方法只需根据基因表达谱数据和基因调控关系就能比较准确地识别基因共调控网络中具有生物意义的关键调控子。专利技术的技术解决方案如下:一种基于线性模型的基因共调控网络中关键调控子识别方法,包括以下步骤:步骤1)构建基因共调控网络:输入基因表达谱数据、基因调控关系和蛋白质相互作用数据(Protein-ProteinInteraction,PPI),过滤掉其中存在无表达谱数据节点的作用关系对,建立基因共调控网络GCN(geneco-regulatorynetworks),基因共调控网络GCN中共包含三种节点:调控子miRNA(microRNA)、调控子TF和基因gene,节点之间存在作用边:miRNA-gene、TF-gene和gene-gene;若基因共调控网络GCN中任意两点,存在作用关系则边权为1,否则为0;步骤2)对已知疾病基因,分别计算调控子miRNA、调控子TF和邻接基因的活动值;活动值即miRNA、TF和邻接基因对已知疾病基因的影响值;步骤3)在已构建的基因共调控网络GCN中,利用基因表达谱数据以及步骤2)中得到的调控子和邻接基因的活动值构建线性模型,预测已知疾病基因的表达,获取已知疾病基因的预测表达值;步骤4)根据已知疾病基因的预测表达值和真实表达值之间的差值最小化将步骤3)构建的线性模型转化为最优化问题,基于混合整数线性规划思想对最优化问题进行求解,最终识别基因共调控网络中的关键调控子。进一步地,所述用于预测已知疾病基因的表达构建的线性模型表达式如下:其中,i表示已知的疾病基因,m、t、g分别表示调控子miRNA、调控子TF、已知的疾病基因i的邻接基因;g′i,s表示已知的疾病基因i在样本s中预测的表达值,β0是指线性模型的附加权重(additiveoffset),M、T、G分别表示miRNA集、TF集、gene集;βm、βt、βg分别表示m、t、g的优化参数,在步骤4)中的最优化问题处理时利用优化器可以直接计算得出;esm,i、tst,i、gsg,i分别表示m、t、g与i的作用边权值,取值为0或1;actm,s、actt,s、actg,s分别表示m、t、g在样本s中的活动值;所述样本s是指已知疾病的某个观测个体的数据。进一步地,所述的根据基因预测表达值和真实表达值之间的差值最小化将线性模型转化为最优化问题,表示为:其中,gi,s、g′i,s分别表示疾病基因i在样本s中真实的表达值和预测的表达值,O与S分别表示的是已知的疾病基因集和该疾病的总样本集;采用Gurobi优化器对所述优化问题进行求解,记录每个调控子在求解优化问题过程中被优化器选择的次数,根据选择次数对所有调控子进行排名,取排名前50的调控子作为最终的候选调控子。当安装好Gurobi优化器后,只需在R语言中导入gurobi包,便可直接调用gurobi函数进行优化问题处理,该gurobi函数存在三个输入参数:优化模型、timeLimit和OutputFlag,timeLimit一般取值600,OutputFlag取默认值0,所述优化模型即为构建的线性模型利用已知疾病基因的预测表达值和真实表达值之间的差值最小化将构建的线性模型转化为最优化问题而得到的。为了得到一系列典型的不同大小的模型,通过约束基因的调控子个数来构建线性模型。对于每个已知疾病基因,分别设定调控子个数为1至k来构建线性模型。进一步地,所述的调控子miRNA、调控子TF和邻接基因的活动值分别由下面两种方法进行计算:1)计算调控子miRNA和调控子TF的活动值:第一步,首先计算调控子r的所有目标基因的基准表达值:其中,r表示调控子,为调控子miRNA或者调控子TF;表示调控子r的目标基因gt的基准表达值,取值为基因gt在调控子r表达水平趋于0的所有样本中表达值的平均值;e(r)->0表示调控子r表达水平趋于0;目标基因的基准表达值是指无调控作用影响时的目标本文档来自技高网
...
一种基于线性模型的基因共调控网络中关键调控子识别方法

【技术保护点】
一种基于线性模型的基因共调控网络中关键调控子识别方法,其特征在于,包括以下步骤:步骤1)构建基因共调控网络:输入基因表达谱数据、基因调控关系和蛋白质相互作用数据,过滤掉其中存在无表达谱数据节点的作用关系对,建立基因共调控网络GCN,基因共调控网络GCN中共包含三种节点:调控子miRNA、调控子TF和基因gene,节点之间存在作用边:miRNA‑gene、TF‑gene和gene‑gene;若基因共调控网络GCN中任意两点,存在作用关系则边权为1,否则为0;步骤2)对已知疾病基因,分别计算调控子miRNA、调控子TF和邻接基因的活动值;步骤3)在已构建的基因共调控网络GCN中,利用基因表达谱数据以及步骤2)中得到的调控子和邻接基因的活动值构建线性模型,预测已知疾病基因的表达,获取已知疾病基因的预测表达值;步骤4)根据已知疾病基因的预测表达值和真实表达值之间的差值最小化将步骤3)构建的线性模型转化为最优化问题,基于混合整数线性规划思想对最优化问题进行求解,最终识别基因共调控网络中的关键调控子。

【技术特征摘要】
1.一种基于线性模型的基因共调控网络中关键调控子识别方法,其特征在于,包括以下步骤:步骤1)构建基因共调控网络:输入基因表达谱数据、基因调控关系和蛋白质相互作用数据,过滤掉其中存在无表达谱数据节点的作用关系对,建立基因共调控网络GCN,基因共调控网络GCN中共包含三种节点:调控子miRNA、调控子TF和基因gene,节点之间存在作用边:miRNA-gene、TF-gene和gene-gene;若基因共调控网络GCN中任意两点,存在作用关系则边权为1,否则为0;步骤2)对已知疾病基因,分别计算调控子miRNA、调控子TF和邻接基因的活动值;步骤3)在已构建的基因共调控网络GCN中,利用基因表达谱数据以及步骤2)中得到的调控子和邻接基因的活动值构建线性模型,预测已知疾病基因的表达,获取已知疾病基因的预测表达值;步骤4)根据已知疾病基因的预测表达值和真实表达值之间的差值最小化将步骤3)构建的线性模型转化为最优化问题,基于混合整数线性规划思想对最优化问题进行求解,最终识别基因共调控网络中的关键调控子。2.根据权利要求1所述的基于线性模型的基因共调控网络中关键调控子识别方法,其特征在于,所述用于预测已知疾病基因的表达构建的线性模型表达式如下:其中,i表示已知的疾病基因,m、t、g分别表示调控子miRNA、调控子TF、已知的疾病基因i的邻接基因;g′i,s表示已知的疾病基因i在样本s中预测的表达值,β0是指线性模型的附加权重,M、T、G分别表示miRNA集、TF集、gene集;βm、βt、βg分别表示m、t、g的优化参数,在步骤4)中的最优化问题处理时利用优化器可以直接计算得出;esm,i、tst,i、gsg,i分别表示m、t、g与i的作用边权值,取值为0或1;actm,s、actt,s、actg,s分别表示m、t、g在样本s中的活动值;所述样本s是指已知疾病的某个观测个体的数据。3.根据权利...

【专利技术属性】
技术研发人员:王伟胜曾亚菲骆嘉伟刘智明蔡洁
申请(专利权)人:湖南大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1