The invention discloses a common promoter recognition method of key regulatory network in linear model based on gene expression data and gene regulation data using gene expression by constructing prediction of known disease genes to gene co regulation network control key recognition sub linear model. The invention is easy to implement, only according to gene expression data and gene regulation relationships can be accurately identified gene regulatory network is the key regulator, and through the experiment proves that it has very important biological significance of promoter recognition, has important theoretical significance and practical value for the study of disease mechanism.
【技术实现步骤摘要】
一种基于线性模型的基因共调控网络中关键调控子识别方法
本专利技术属于计算生物学领域,涉及一种基于线性模型的基因共调控网络中关键调控子识别方法。
技术介绍
在后基因组时代,理解基因、非编码RNA、蛋白质和其他相关生物分子的功能,提示生物过程的实现机理成为当前计算系统生物学和生物信息学最重要的研究目标之一。其中,基因调控的研究是一个非常重要的课题。了解基因表达的调控机制,对于我们认识生物学过程和疾病的发生机制都起到了重要的作用。在真核生物中,有两类重要的调控因子:转录因子(TF)和microRNA(miRNA),分别在转录水平及转录后水平上调控靶基因的表达水平。转录因子是一类具有特定功能的蛋白质,它通过结合到基因的启动子区域来开启基因的转录过程。miRNA是近年来研究发现的一种新的基因调控元件,是在真核生物中发现的一类内源性的具有调控功能的非编码RNA,其大小长约20-25个核苷酸。转录因子、miRNA在基因表达调控中起到了重要的作用,这种调控作用遍及各种生物活动以及疾病发生过程。在此基础上,研究发现转录因子和miRNA存在着广泛的相互作用和合作调控,它们组成了一个复杂的共调控网络。共调控网络中包含转录因子调控miRNA、转录因子调控靶基因、miRNA调控转录因子和靶基因的调控作用,这些调控作用体现了细胞分子生命过程和功能执行的各个阶段,所以共调控网络包含比单个网络更丰富的生物信息。因此,有效地识别共调控网络上的关键调控子对疾病的临床治疗和药物设计都有重要作用,这将可能会给人类疾病的治疗提供一种新的手段。随着高通量技术的迅速发展,产生了大量的基因组学、转录组学 ...
【技术保护点】
一种基于线性模型的基因共调控网络中关键调控子识别方法,其特征在于,包括以下步骤:步骤1)构建基因共调控网络:输入基因表达谱数据、基因调控关系和蛋白质相互作用数据,过滤掉其中存在无表达谱数据节点的作用关系对,建立基因共调控网络GCN,基因共调控网络GCN中共包含三种节点:调控子miRNA、调控子TF和基因gene,节点之间存在作用边:miRNA‑gene、TF‑gene和gene‑gene;若基因共调控网络GCN中任意两点,存在作用关系则边权为1,否则为0;步骤2)对已知疾病基因,分别计算调控子miRNA、调控子TF和邻接基因的活动值;步骤3)在已构建的基因共调控网络GCN中,利用基因表达谱数据以及步骤2)中得到的调控子和邻接基因的活动值构建线性模型,预测已知疾病基因的表达,获取已知疾病基因的预测表达值;步骤4)根据已知疾病基因的预测表达值和真实表达值之间的差值最小化将步骤3)构建的线性模型转化为最优化问题,基于混合整数线性规划思想对最优化问题进行求解,最终识别基因共调控网络中的关键调控子。
【技术特征摘要】
1.一种基于线性模型的基因共调控网络中关键调控子识别方法,其特征在于,包括以下步骤:步骤1)构建基因共调控网络:输入基因表达谱数据、基因调控关系和蛋白质相互作用数据,过滤掉其中存在无表达谱数据节点的作用关系对,建立基因共调控网络GCN,基因共调控网络GCN中共包含三种节点:调控子miRNA、调控子TF和基因gene,节点之间存在作用边:miRNA-gene、TF-gene和gene-gene;若基因共调控网络GCN中任意两点,存在作用关系则边权为1,否则为0;步骤2)对已知疾病基因,分别计算调控子miRNA、调控子TF和邻接基因的活动值;步骤3)在已构建的基因共调控网络GCN中,利用基因表达谱数据以及步骤2)中得到的调控子和邻接基因的活动值构建线性模型,预测已知疾病基因的表达,获取已知疾病基因的预测表达值;步骤4)根据已知疾病基因的预测表达值和真实表达值之间的差值最小化将步骤3)构建的线性模型转化为最优化问题,基于混合整数线性规划思想对最优化问题进行求解,最终识别基因共调控网络中的关键调控子。2.根据权利要求1所述的基于线性模型的基因共调控网络中关键调控子识别方法,其特征在于,所述用于预测已知疾病基因的表达构建的线性模型表达式如下:其中,i表示已知的疾病基因,m、t、g分别表示调控子miRNA、调控子TF、已知的疾病基因i的邻接基因;g′i,s表示已知的疾病基因i在样本s中预测的表达值,β0是指线性模型的附加权重,M、T、G分别表示miRNA集、TF集、gene集;βm、βt、βg分别表示m、t、g的优化参数,在步骤4)中的最优化问题处理时利用优化器可以直接计算得出;esm,i、tst,i、gsg,i分别表示m、t、g与i的作用边权值,取值为0或1;actm,s、actt,s、actg,s分别表示m、t、g在样本s中的活动值;所述样本s是指已知疾病的某个观测个体的数据。3.根据权利...
【专利技术属性】
技术研发人员:王伟胜,曾亚菲,骆嘉伟,刘智明,蔡洁,
申请(专利权)人:湖南大学,
类型:发明
国别省市:湖南,43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。