【技术实现步骤摘要】
一种融合多源生物信息的关键蛋白质识别方法
[0001]本专利技术涉及一种融合多源生物信息的关键蛋白质识别方法,主要是在蛋白质相互作用网络中融合蛋白质的多个生物信息的关键蛋白质识别技术,特别涉及蛋白质相互作用网络中融合了网络拓扑信息和蛋白质生物属性识别蛋白质复合物的方法,属于生物信息
技术介绍
[0002]已有研究成果表明,人类疾病的发生和发展都与蛋白质的动态变化密切相关。例如,乳腺癌和肠癌的基因组是由少数常见突变基因和大量的频率较低的突变基因组成。不同蛋白质对生命活动的重要性是不一样的。Winzeler[a]在《Science》发表文章给出了关键蛋白质的定义,他认为关键蛋白质是指通过基因剔除式突变将其移除后造成有关蛋白质复合物功能丧失,并导致生物体无法生存或发育的蛋白质。关键蛋白质的识别能够从系统水平上为生物学、医学等提供有价值的信息。
[0003]在本专利技术提出之前,关键蛋白质识别领域,最开始是通过一系列基于网络拓扑结构特征的关键蛋白质识别方法,例如,度中心性(DC)、接近度中心性(CC)、介数中心性(BC)、子图中心性(SC)、局部平均联通度(LAC)等方法,但是这些方法识别关键蛋白质的缺点是:(1)只考虑了网络本身所具有的拓扑特征,而忽略了蛋白质所固有的生物属性特征。(2)通过生物实验所获得的PPI网络存在噪声,使得蛋白质相互作用数据存在假阳性。
技术实现思路
[0004]本专利技术的目的就在于克服上述缺陷,提供一种融合多源生物信息的关键蛋白质识别方法,该识别关键蛋白质的方法 ...
【技术保护点】
【技术特征摘要】
1.一种融合多源生物信息的关键蛋白质识别方法,其特征在于,所述识别方法包括如下步骤:(1)输入PPI网络和基因表达数据、GO注释数据、亚细胞定位数据,其中,GO为蛋白质生物功能的注释属性;(2)根据静态PPI网络和蛋白质基因表达值数据集,利用3σ法则构建多个动态子网络;(3)对于任一子网中的任一节点u来说,计算出该节点的点边缘聚类系数值DEcc(u,v),最后求该节点与其所有邻居之间的点聚类系数值之和Sum_DEcc(u);(4)对于任一子网中的任一节点u来说,计算出该节点与邻居节点之间的基因共表达值PCC(u,v),最后求该节点与其所有邻居之间的共表达系数之和Sum_PCC(u);(5)对于任一子网中的任一节点u来说,计算出该节点的亚细胞定位得分值SLS(u),最后求该节点与其邻居之间的亚细胞定位得分值之和Sum_SLS(u);(6)对于任一子网中的任一节点u来说,计算出该节点与邻居节点之间的Go注释值Go(u,v),最后求该节点与其所有邻居之间的共表达系数之和Sum_Go(u);(7)对于每一个节点u来说,将上述的属性值进行相加,得到蛋白质u的最终关键性得分值Ess_Pro(u);(8)最后将蛋白质节点按Ess_Pro(u)的值从大到小排序输出。2.根据权利要求1所述的融合多源生物信息的关键蛋白质识别方法,其特征在于,步骤(2)中,根据静态PPI网络和蛋白质基因表达值数据集,利用3σ法则构建多个动态子网络;根据基因表达值数据集,可以计算出每个蛋白质的活跃阈值T
g
,再结合静态网络的拓扑属性,可以将静态网络根据时间点划分为多个动态子网络;每个蛋白质的活跃阈值T
g
计算过程如公式(1)
‑
(4)所示:(4)所示:(4)所示:T
g
=u
g
+3ρ
g
(1
‑
F
g
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)蛋白质的基因表达值随时间变化而变化,在公式(1)中,N表示每个蛋白质基因的表达值的数量,G
i
表示在i时刻某个蛋白质基因的表达值,u
g
表示某个蛋白质基因表达值的平均值,在公式(2)中,ρ
g
表示的是某个蛋白质基因表达值的标准差的值,在公式(3)中,F
g
表示某个蛋白质一组基因表达值的波动性;最后在公式(4)中,T
g
表示是某个蛋白质的活跃阈值,也就是说,如果在某个时刻,蛋白质的基因表达值大于这个阈值T
g
,就可以说在该时刻,蛋白质是活跃的、表达的。3.根据权利要求1所述的融合多源生物信息的关键蛋白质识别方法,其特征在于,步骤(3)中,对于任一子网中的任一节点u来说,计算出该节点的点边缘聚类系数值DEcc(u,v),最后求该节点与其所有邻居之间的点聚类系数值之和Sum_DEcc(u);其中DEcc、Sum_DEcc(u)的计算公如下(5)、(6)表示;
其中,在公式(5)中,CN
u,v
表示结点u,v共同邻居的个数,k
u
,k
v
分别表示结点u,v的度,Dcc
u
,Dcc
v
表示结点u,v的点聚集系数,其计算如上述公式(7)所示,在公式(7)中k
v
表示结点v的度,N
v
表示由结点v的邻居...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。