【技术实现步骤摘要】
一种基于结构预测的基因调控网络构建方法
本专利技术涉及医学信息学领域,尤其涉及一种基于结构预测的基因调控网络构建方法。
技术介绍
基因表达调控即一个基因的表达被其它基因影响的过程,主要包括转录水平和翻译水平上的调控。由于基因表达的最终形式是蛋白质,需要转录形成mRNA作为模板最终产生蛋白质,因此转录水平上的基因调控是关键。一个基因的转录受到另外基因表达产物的影响,起到激励或抑制作用,其本身产生的蛋白质也可能影响其它基因。这种复杂的调控关系最终构成基因调控网络。了解生物的基因调控机制,可以在遗传视角上理解各种生物过程的发生,揭示生物体的不良过程,对发现生物系统的关键原理及细节至关重要。目前的一些基因调控网络模型在一定程度上解决了基因调控网络的构建问题,但同时也存在一些问题。如布尔模型在定性的角度上研究基因调控网络,过于粗糙和简化;微分方程模型则通过微分方程来定量、精准地描述基因调控网络,但是同时会由于参数过多造成难以优化的问题,计算量巨大。贝叶斯网络模型通过概率模型来描述基因调控网络,用概率表示调控关系,但是随着网络复 ...
【技术保护点】
1.一种基于结构预测的基因调控网络构建方法,其特征在于,包括以下步骤:/n步骤1:计算系数矩阵,通过计算基因之间的Pearson系数、互信息及最大互信息来确定基因之间的相关性,作为筛选潜在父节点集的依据;/n步骤2:结构预测,利用步骤1中获得的基因之间的系数矩阵,作为判定基因潜在父节点集的依据,为每个基因选取潜在父节点集;/n步骤3:结构学习,采用基于评分搜索的结构学习方法,评分函数选择BDe分数,并设置每个基因的调控集合的个数为K,对于基因x
【技术特征摘要】
1.一种基于结构预测的基因调控网络构建方法,其特征在于,包括以下步骤:
步骤1:计算系数矩阵,通过计算基因之间的Pearson系数、互信息及最大互信息来确定基因之间的相关性,作为筛选潜在父节点集的依据;
步骤2:结构预测,利用步骤1中获得的基因之间的系数矩阵,作为判定基因潜在父节点集的依据,为每个基因选取潜在父节点集;
步骤3:结构学习,采用基于评分搜索的结构学习方法,评分函数选择BDe分数,并设置每个基因的调控集合的个数为K,对于基因xi,以潜在父节点集Pi为搜索空间,遍历所述搜索空间内的基因可能组成的集合,对每一个所述集合计算BDe分数score,根据分数高低评判所述集合作为基因xi的父节点集的优劣;
步骤4:局部网络合并,每个基因对应一个局部网络Gi,将[G1,……,Gn]合并成全局网络G[[x1,G1],[x2,G2],…,[xn,Gn]],设基因y∈Gi,则基因xi和基因y间的存在调控关系表示为y→xi;
步骤5:参数学习,对于所述全局网络G中的每一条调控关系进行参数学习,所述参数包括调控作用和调控概率,所述调控作用表示为激励或抑制,所述调控概率表示调控基因与靶基因的后验概率。
2.根据权利要求1所述的一种基于结构预测的基因调控网络构建方法,其特征在于,所述的步骤1计算系数矩阵,通过计算基因之间的Pearson系数、互信息及最大互信息来确定基因之间的相关性,作为筛选潜在父节点集的依据,具体步骤如下:
步骤1.1:将基因表达数据表示为一个矩阵X(m*n),m表示基因表达数据的样本数,n为基因总数,所述矩阵X(m*n)的每一行为一个基因的表达数据向量,具体表述为第i个基因的表达数据向量表示为Xi,定义3个系数矩阵MPearson(n*n)用于存放基因之间的Pearson系数的计算结果,定义Mmi(n*n)用于存放互信息的计算结果,定义MMIC(n*n)用于存放最大互信息的计算结果;
步骤1.2:由于Pearson系数、互信息和最大互信息三种方法都具有对称性的属性,因此在计算所述3个系数矩阵时只需计算上三角矩阵,利用公式(1)计算基因xi的表达数据向量Xi与基因xi+1,xi+2,…,xn的表达数据向量Xi+1,Xi+2,…Xn的皮尔逊系数,将计算得到的皮尔逊系数存放到MPearson(n*n)中,具体为MPearson[i,i+1],MPearson[i,i+2],……,MPearson[i,n],同时将计算得到的皮尔逊系数复制到对应的下三角,具体为MPearson[i+1,i],MPearson[i+2,i],……,MPearson[n,i],最终得到MPearson的整个矩阵表达式;
式中,r(Xi,Y)表示基因xi的表达数据向量Xi和基因y的表达数据向量Y的皮尔逊系数,基因y∈{xi+1,xi+2,…,xn},Xip表示基因xi的表达数据向量Xi的第p个样本表达值,Yjp表示基因y的表达数据向量Y的第p个样本表达值,表示基因xi的表达数据向量Xi的样本平均值,表示基因y的表达数据向量Y的样本平均值,m表示基因表达数据的样本数;
步骤1.3:利用公式(2)计算基因xi的表达数据向量Xi与基因xi+1,xi+2,…,xn的表达数据向量Xi+1,Xi+2,…Xn的互信息的值,将计算得到的互信息值存放到Mmi(n*n)中,具体为Mmi[i,i+1],Mmi[i,i+2],……,Mmi[i,n],同时将计算得到的互信息值复制到对应的下三角,具体为Mmi[i+1,i],Mmi[i+2,i],……,Mmi[n,i],最终得到Mmi的整个矩阵表达式,
式中,I(Xi,Y)表示基因xi的表达数据向量Xi和基因y的表达数据向量Y的互信息值,基因y∈{xi+1,xi+2,…,xn},|C(Xi)|表示基因xi的表达数据向量Xi的协方差矩阵的行列式的值,|C(Y)|表示基因y的表达数据向量Y的协方差矩阵的行列式的值,|C(Xi,Y)|表示向量Xi和向量Y的协方差矩阵的行列式;
步骤1.4:利用公式(3)计算基因xi的表达数据向量Xi与基因xi+1,xi+2,…,xn的表达数据向量Xi+1,Xi+2,…Xn的最大互信息的值,将计算得到的最大互信息值存放到MMIC(n*n)中,即MMIC[i,i+1],MMIC[i,i+2],……,MMIC[i,n],同时将计算得到的最大互信息值复制到对应的下三角,具体为MMIC[i+1,i],MMIC[i+2,i],……,MMIC[n,i],最终得到MMIC的整个矩阵表达式,
式中,mic(Xi,Y)表示基因xi的表达数据向量Xi和基因y的表达数据向量Y的最大互信息值,基因y∈{xi+1,xi+2...
【专利技术属性】
技术研发人员:王之琼,郭上慧,曲路渲,信俊昌,钱唯,
申请(专利权)人:东北大学,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。