当前位置: 首页 > 专利查询>扬州大学专利>正文

一种融合多源生物信息的关键蛋白质识别方法技术

技术编号:32360481 阅读:20 留言:0更新日期:2022-02-20 03:27
本发明专利技术公开了一种融合多源生物信息的关键蛋白质识别方法,包括如下步骤:输入PPI网络和基因表达数据、蛋白质生物功能的注释属性注释数据、亚细胞定位数据;根据静态PPI网络和蛋白质基因表达值数据集,利用3σ法则构建多个动态子网络;计算出节点的点边缘聚类系数值,计算出该节点与邻居节点之间的基因共表达值,计算出该节点的亚细胞定位得分值,最后求该节点与其邻居之间的亚细胞定位得分值之和;计算出该节点与邻居节点之间的注释值,最后求该节点与其所有邻居之间的共表达系数之和;将上述的属性值进行相加,得到蛋白质u的最终关键性得分值。本发明专利技术的识别方法,提高了识别关键蛋白质的准确性,同时使预测结果更加准确,提高了预测的效率。了预测的效率。了预测的效率。

【技术实现步骤摘要】
一种融合多源生物信息的关键蛋白质识别方法


[0001]本专利技术涉及一种融合多源生物信息的关键蛋白质识别方法,主要是在蛋白质相互作用网络中融合蛋白质的多个生物信息的关键蛋白质识别技术,特别涉及蛋白质相互作用网络中融合了网络拓扑信息和蛋白质生物属性识别蛋白质复合物的方法,属于生物信息


技术介绍

[0002]已有研究成果表明,人类疾病的发生和发展都与蛋白质的动态变化密切相关。例如,乳腺癌和肠癌的基因组是由少数常见突变基因和大量的频率较低的突变基因组成。不同蛋白质对生命活动的重要性是不一样的。Winzeler[a]在《Science》发表文章给出了关键蛋白质的定义,他认为关键蛋白质是指通过基因剔除式突变将其移除后造成有关蛋白质复合物功能丧失,并导致生物体无法生存或发育的蛋白质。关键蛋白质的识别能够从系统水平上为生物学、医学等提供有价值的信息。
[0003]在本专利技术提出之前,关键蛋白质识别领域,最开始是通过一系列基于网络拓扑结构特征的关键蛋白质识别方法,例如,度中心性(DC)、接近度中心性(CC)、介数中心性(BC)、子图中心性(SC)、局部平均联通度(LAC)等方法,但是这些方法识别关键蛋白质的缺点是:(1)只考虑了网络本身所具有的拓扑特征,而忽略了蛋白质所固有的生物属性特征。(2)通过生物实验所获得的PPI网络存在噪声,使得蛋白质相互作用数据存在假阳性。

技术实现思路

[0004]本专利技术的目的就在于克服上述缺陷,提供一种融合多源生物信息的关键蛋白质识别方法,该识别关键蛋白质的方法,是先构建动态PPI子网络,随后在PPI子网络中对于任意一节点计算出它与所有邻居节点之间的点聚类系数值之和、基因共表达值之和、Go注释相似度值之和、以及细胞核位置得分值之和。接着将上述的值相加,作为蛋白质节点的关键性值,最后按照关键性值降序排序输入。
[0005]本专利技术是这样实现的:一种融合多源生物信息的关键蛋白质识别方法,其主要技术特征在于如下步骤:
[0006](1)输入PPI网络和基因表达数据、GO(蛋白质生物功能的注释属性)注释数据、亚细胞定位数据;
[0007](2)根据静态PPI网络和蛋白质基因表达值数据集,利用3σ法则构建多个动态子网络;
[0008](3)对于任一子网中的任一节点u来说,计算出该节点的点边缘聚类系数值DEcc(u,v),最后求该节点与其所有邻居之间的点聚类系数值之和Sum_DEcc(u);
[0009](4)对于任一子网中的任一节点u来说,计算出该节点与邻居节点之间的基因共表达值PCC(u,v),最后求该节点与其所有邻居之间的共表达系数之和Sum_PCC(u);
[0010](5)对于任一子网中的任一节点u来说,计算出该节点的亚细胞定位得分值SLS
(u),最后求该节点与其邻居之间的亚细胞定位得分值之和Sum_SLS(u);
[0011](6)对于任一子网中的任一节点u来说,计算出该节点与邻居节点之间的Go注释值Go(u,v),最后求该节点与其所有邻居之间的共表达系数之和Sum_Go(u);
[0012](7)对于每一个节点u来说,将上述的属性值进行相加,得到蛋白质u的最终关键性得分值Ess_Pro(u);
[0013](8)最后将蛋白质节点按照Ess_Pro(u)的值从大到小排序输出。
[0014]进一步,所述步骤(2)根据静态PPI网络和蛋白质基因表达值数据集,利用3σ法则构建多个动态子网络;根据基因表达值数据集,可以计算出每个蛋白质的活跃阈值T
g
,再结合静态网络的拓扑属性,可以将静态网络根据时间点划分为多个动态子网络,根据基因表达值数据集,可以计算出每个蛋白质的活跃阈值T
g
,再结合静态网络的拓扑属性,可以将静态网络根据时间点划分为多个动态子网络;每个蛋白质的活跃阈值T
g
计算过程如公式(1)

(4)所示:
[0015][0016][0017][0018]T
g
=u
g
+3ρ
g
(1

F
g
)
ꢀꢀꢀ
(4)
[0019]蛋白质的基因表达值随时间变化而变化,在公式(1)中,N表示每个蛋白质基因的表达值的数量,G
i
表示在i时刻某个蛋白质基因表达值,u
g
表示某个蛋白质基因表达值的平均值,在公式(2)中,ρ
g
表示的是某个蛋白质基因表达值的标准差的值,在公式(3)中,F
g
表示某个蛋白质一组基因表达值的波动性;最后在公式(4)中,T
g
表示是某个蛋白质的活跃阈值,也就是说,如果在某个时刻,蛋白质的基因表达值大于这个阈值T
g
,就可以说在该时刻,蛋白质是活跃的、表达的。
[0020]进一步,所述步骤(3)对于任一子网中的任一节点u来说,计算出该节点的点边缘聚类系数值DEcc(u,v),最后求该节点与其所有邻居之间的点聚类系数值之和Sum_DEcc(u);其中DEcc(u,v)、Sum_DEcc(u)的计算公如下(5)、(6)表示:
[0021][0022][0023][0024][0025]其中在公式(5)中,CN
u,v
表示结点u,v共同邻居的个数,k
u
,k
v
分别表示结点u,v的度,Dcc
u
,Dcc
v
表示结点u,v的点聚集系数,其计算如上述公式(7)所示,在公式(7)中k
v
表示结点v的度,N
v
表示由结点v的邻居结点之间组成的边数目;最后借助公式(8)对节点u和所有邻居节点v之间DEcc(u,v)值求和,其中v∈Nu表示与u相连的所有邻居节点的集合。
[0026]进一步,所述步骤(4)对于任一子网中的任一节点u来说,计算出该节点与邻居节点之间的基因共表达值PCC(u,v),最后求该节点与其所有邻居之间的共表达系数之和Sum_PCC(u);其中两个蛋白质节点之间的共表达系数PCC(u,v)值计算如公式(8)所示,Sum_PCC(u)计算如公式(9)所示:
[0027][0028]在公式(8)中,U={u1,u2...u
n
},V={v1,v2...v
n
}分别表示的是蛋白质u和蛋白质v的n个基因表达值;u

和v

分别表示其基因表达值的平均值;如果两个相互作用的蛋白质u,v基因的共表达程度越高,计算出来的PCC(u,v)值也就越大;在公式(9)中,v∈N
u
表示与u相连的所有邻居节点的集合。
[0029]进一步,根据权利要求1所述的融合多源生物信息的关键蛋白质识别方法,其特征在于:所述步骤(5)对于任一子网中的任一节点u来说,计算出该节点和邻居之间的亚细胞定位得分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合多源生物信息的关键蛋白质识别方法,其特征在于,所述识别方法包括如下步骤:(1)输入PPI网络和基因表达数据、GO注释数据、亚细胞定位数据,其中,GO为蛋白质生物功能的注释属性;(2)根据静态PPI网络和蛋白质基因表达值数据集,利用3σ法则构建多个动态子网络;(3)对于任一子网中的任一节点u来说,计算出该节点的点边缘聚类系数值DEcc(u,v),最后求该节点与其所有邻居之间的点聚类系数值之和Sum_DEcc(u);(4)对于任一子网中的任一节点u来说,计算出该节点与邻居节点之间的基因共表达值PCC(u,v),最后求该节点与其所有邻居之间的共表达系数之和Sum_PCC(u);(5)对于任一子网中的任一节点u来说,计算出该节点的亚细胞定位得分值SLS(u),最后求该节点与其邻居之间的亚细胞定位得分值之和Sum_SLS(u);(6)对于任一子网中的任一节点u来说,计算出该节点与邻居节点之间的Go注释值Go(u,v),最后求该节点与其所有邻居之间的共表达系数之和Sum_Go(u);(7)对于每一个节点u来说,将上述的属性值进行相加,得到蛋白质u的最终关键性得分值Ess_Pro(u);(8)最后将蛋白质节点按Ess_Pro(u)的值从大到小排序输出。2.根据权利要求1所述的融合多源生物信息的关键蛋白质识别方法,其特征在于,步骤(2)中,根据静态PPI网络和蛋白质基因表达值数据集,利用3σ法则构建多个动态子网络;根据基因表达值数据集,可以计算出每个蛋白质的活跃阈值T
g
,再结合静态网络的拓扑属性,可以将静态网络根据时间点划分为多个动态子网络;每个蛋白质的活跃阈值T
g
计算过程如公式(1)

(4)所示:(4)所示:(4)所示:T
g
=u
g
+3ρ
g
(1

F
g
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)蛋白质的基因表达值随时间变化而变化,在公式(1)中,N表示每个蛋白质基因的表达值的数量,G
i
表示在i时刻某个蛋白质基因的表达值,u
g
表示某个蛋白质基因表达值的平均值,在公式(2)中,ρ
g
表示的是某个蛋白质基因表达值的标准差的值,在公式(3)中,F
g
表示某个蛋白质一组基因表达值的波动性;最后在公式(4)中,T
g
表示是某个蛋白质的活跃阈值,也就是说,如果在某个时刻,蛋白质的基因表达值大于这个阈值T
g
,就可以说在该时刻,蛋白质是活跃的、表达的。3.根据权利要求1所述的融合多源生物信息的关键蛋白质识别方法,其特征在于,步骤(3)中,对于任一子网中的任一节点u来说,计算出该节点的点边缘聚类系数值DEcc(u,v),最后求该节点与其所有邻居之间的点聚类系数值之和Sum_DEcc(u);其中DEcc、Sum_DEcc(u)的计算公如下(5)、(6)表示;
其中,在公式(5)中,CN
u,v
表示结点u,v共同邻居的个数,k
u
,k
v
分别表示结点u,v的度,Dcc
u
,Dcc
v
表示结点u,v的点聚集系数,其计算如上述公式(7)所示,在公式(7)中k
v
表示结点v的度,N
v
表示由结点v的邻居...

【专利技术属性】
技术研发人员:刘维唐玉亮
申请(专利权)人:扬州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1