当前位置: 首页 > 专利查询>江南大学专利>正文

一种蛋白质相互作用网络比对方法和系统技术方案

技术编号:37550859 阅读:27 留言:0更新日期:2023-05-15 07:36
本发明专利技术涉及一种蛋白质相互作用网络比对方法和系统,方法包括:获取两个蛋白质相互作用网络的结构信息;提取每个网络中所有节点的分层结构特征,并基于分层结构特征计算节点间的结构得分;基于结构得分构造多层的加权图,使每个节点在加权图上进行随机游走生成上下文序列;将两个网络中每个节点对应的上下文序输入词向量模型,得到每个节点对应的低维向量,并计算每个节点对应的低维向量之间的距离作为节点间的拓扑相似性;将节点间序列相似性和节点间的拓扑相似性结合,来计算节点间的相似性得分,并基于相似性得分构建节点间的相似性矩阵;根据节点间的相似性矩阵生成两个网络的节点比对结果。本发明专利技术有效提高蛋白质相互作用网络比对效率。用网络比对效率。用网络比对效率。

【技术实现步骤摘要】
一种蛋白质相互作用网络比对方法和系统


[0001]本专利技术涉及蛋白质相互作用网络比对
,尤其是指一种蛋白质相互作用网络比对方法和系统。

技术介绍

[0002]高通量技术和大规模计算的发展,大量的蛋白质相互作用(PPI)网络数据被获取,而蛋白质是细胞执行各种生物功能的基础,分析这些PPI网络能够更好的了解生物组织特征以及发现重要功能模块。网络比对是分析PPI网络的一种更有效的方法,可以用来发现网络中的保守功能模块和预测蛋白质的未知功能。网络比对将不同网络根据其相似性进行匹配,进而发现保守的蛋白质以及将已经被充分研究的物种上的信息转移到研究较少的物种上。如今,已经有大量的全局网络比对算法被提出。
[0003]I soRank是首个网络比对算法,算法根据PageRank的思想,聚合节点的邻居信息特征值并结合序列相似性计算节点间的相似性得分,再通过光谱聚类方法生成比对。此算法存在的问题:仅使用邻居信息,没有发掘网络中的深层拓扑信息,导致最终产生的比结果的拓扑质量和生物功能质量都不高。
[0004]NAI GO首先对网络进行子网划分,并根据度标签相似性和GO术语相似性选取相似性最大的模块作为种子进行拓展,从而得到最终的比对结果。此算法存在的问题:过度依赖于GO相似性,对于GO未知的网络无法进行比对,且比对的效率较低。
[0005]MAGNA算法将启发式算法思想引入网络比对,使用遗传算法进行网络比对。将每一种比对结果作为种群中的个体,通过初始种群不断迭代交叉变异产生具有更高目标函数得分的个体,有效的避免了比对时出现局部最优的问题。此算法存在的问题:初始种群一般通过随机生成的方式获取,且比对时为了取得最优结果多次迭代,算法运行时间较长,且初始种群和迭代次数会影响比对的结果。
[0006]尽管已经对网络比对进行了大量研究,但寻找一种高效且有意义的算法仍是一种挑战。现有的算法想要获取更多保守功能信息,往往需要借助网络的拓扑结构信息,而如何更好的量化网络的拓扑信息是需要面对的重大挑战。此外,还需要对比对效率做进一步的研究。

技术实现思路

[0007]为此,本专利技术所要解决的技术问题在于克服现有技术中蛋白质网络比对效率较低的问题。
[0008]为解决上述技术问题,本专利技术提供了一种蛋白质相互作用网络比对方法,包括:
[0009]步骤S1:获取任意两个待比对蛋白质相互作用网络的结构信息;
[0010]步骤S2:对每个蛋白质相互作用网络中所有节点的结构特征进行分层次提取,得到分层结构特征,并基于所述分层结构特征计算节点间的结构得分;
[0011]步骤S3:构造多层的加权图,所述加权图的每一层为蛋白质相互作用网络中所有
节点组成的无向完全图,并将所述节点间的结构得分作为加权图的边权重,使每个节点在所述加权图上进行随机游走生成上下文序列;
[0012]将任意两个待比对蛋白质相互作用网络中每个节点对应的上下文序列输入词向量模型进行训练,得到每个节点对应的低维向量,计算每个节点对应的低维向量之间的距离作为节点间的拓扑相似性;
[0013]步骤S4:根据节点间序列相似性和所述节点间的拓扑相似性计算节点间的相似性得分,并基于所述节点间的相似性得分构建节点的相似性矩阵;
[0014]步骤S5:根据所述节点的相似性矩阵生成两个蛋白质相互作用网络的节点比对结果。
[0015]在本专利技术的一个实施例中,所述步骤S2中分层结构特征的公式为:
[0016][0017]其中,R
k
(u)表示与节点u距离为k跳邻居节点的度序列向量,x
ik
表示节点u的k跳邻居节点中度为i的节点的个数,d表示网络中度的理想最大值。
[0018]在本专利技术的一个实施例中,所述步骤S2中基于所述分层结构特征计算节点间的结构得分,公式为:
[0019][0020]其中,N
k
(u)表示网络中节点u的k跳邻居节点数目,N
k
(v)表示网络中节点v的k跳邻居节点数目,R
k
(u)表示与节点u距离为k跳邻居节点的度序列向量,R
k
(v)表示与节点v距离为k跳邻居节点的度序列向量,dis(R
k
(u),R
k
(v))表示节点u与节点v度序列向量相近性且dis(R
k
(u),R
k
(v))=||R
k
(u),R
k
(v)||2,||||2表示L2范数。
[0021]在本专利技术的一个实施例中,所述步骤S3中使每个节点在所述加权图上进行随机游走生成上下文序列的方法包括:节点在所述加权图的当前层游走、以及节点在所述加权图中从当前层切换到其他层游走生成上下文序列。
[0022]在本专利技术的一个实施例中,所述步骤S3中使节点在所述加权图的当前层游走时,在第k层加权图中节点u游走到节点v的概率公式为:
[0023][0024]其中,f
k
(u,v)表示第k层加权图中节点u和节点v之间的结构得分,u'、v'表示节点集V中任意节点,∑
u',v'∈V
f
k
(u',v')表示第k层加权图中所有节点之间边的权重之和。
[0025]在本专利技术的一个实施例中,所述步骤S3中节点在所述加权图中从当前层切换到其他层游走的概率公式为:
[0026][0027]其中,p
k+1
(u)表示节点u从第k层进入第k+1层对应节点的概率,p
k
‑1(u)表示节点u从第k层进入第k

1层对应节点的概率,w(u
k
,u
k+1
)表示多层加权图中连接不同层之间的边权重,u
k
表示第k层的节点u,u
k+1
表示第k+1层的节点u。
[0028]在本专利技术的一个实施例中,所述多层加权图中连接不同层之间的边权重公式为:
[0029]w(u
k
,u
k+1
)=log(e+∑num|f
k
(u,v)>avg(f
k
)|)
[0030]其中,e表示常数值,f
k
(u,v)表示第k层加权图中节点u和节点v之间的结构得分,avg(f
k
)表示第k层加权图中所有边权重之和的平均值,num|
·
|表示数量。
[0031]在本专利技术的一个实施例中,所述步骤S3中两个蛋白质相互作用网络中每个节点对应的低维向量位于同一向量空间。
[0032]在本专利技术的一个实施例中,所述步骤S4中将节点间序列相似性和所述节点间的拓扑相似性结合,来计算节点间的相似性得分,公式为:
[0033][0034]其中,T(u,v)表示节点u和节点v的拓扑相似性且r(u)表示节点u的低维向量,r(v)表示节本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种蛋白质相互作用网络比对方法,其特征在于:包括:步骤S1:获取任意两个待比对蛋白质相互作用网络的结构信息;步骤S2:对每个蛋白质相互作用网络中所有节点的结构特征进行分层次提取,得到分层结构特征,并基于所述分层结构特征计算节点间的结构得分;步骤S3:构造多层的加权图,所述加权图的每一层为蛋白质相互作用网络中所有节点组成的无向完全图,并将所述节点间的结构得分作为加权图的边权重,使每个节点在所述加权图上进行随机游走生成上下文序列;将任意两个待比对蛋白质相互作用网络中每个节点对应的上下文序列输入词向量模型进行训练,得到每个节点对应的低维向量,计算每个节点对应的低维向量之间的距离作为节点间的拓扑相似性;步骤S4:根据节点间序列相似性和所述节点间的拓扑相似性计算节点间的相似性得分,并基于所述节点间的相似性得分构建节点的相似性矩阵;步骤S5:根据所述节点的相似性矩阵生成两个蛋白质相互作用网络的节点比对结果。2.根据权利要求1所述的蛋白质相互作用网络比对方法,其特征在于:所述步骤S2中分层结构特征的公式为:其中,R
k
(u)表示与节点u距离为k跳邻居节点的度序列向量,表示节点u的k跳邻居节点中度为i的节点的个数,d表示网络中度的理想最大值。3.根据权利要求1所述的蛋白质相互作用网络比对方法,其特征在于:所述步骤S2中基于所述分层结构特征计算节点间的结构得分,公式为:其中,N
k
(u)表示网络中节点u的k跳邻居节点数目,N
k
(v)表示网络中节点v的k跳邻居节点数目,R
k
(u)表示与节点u距离为k跳邻居节点的度序列向量,R
k
(v)表示与节点v距离为k跳邻居节点的度序列向量,dis(R
k
(u),R
k
(v))表示节点u与节点v度序列向量相近性且dis(R
k
(u),R
k
(v))=||R
k
(u),R
k
(v)||2,|| ||2表示L2范数。4.根据权利要求1所述的蛋白质相互作用网络比对方法,其特征在于:所述步骤S3中使每个节点在所述加权图上进行随机游走生成上下文序列的方法包括:节点在所述加权图的当前层游走、以及节点在所述加权图中从当前层切换到其他层游走生成上下文序列。5.根据权利要求4所述的蛋白质相互作用网络比对方法,其特征在于:所述步骤S3中使节点在所述加权图的当前层游走时,在第k层加权图中节点u游走到节点v的概率公式为:其中,f
k
(u,v)表示第k层加权图中节点u和节点v之间的结构得分,u'、v'表示节点集V中的任意节点,∑
u',v'∈V
f
k
(u',v')表示第k层加权图中所有节点之间边的权重之和。6.根据权利要求4所述的蛋白质相互作用网络比对方法...

【专利技术属性】
技术研发人员:陈璟王子祥任利军
申请(专利权)人:江南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1