当前位置: 首页 > 专利查询>武汉大学专利>正文

一种基于图匹配的跨物种生物通路发现方法技术

技术编号:17541872 阅读:51 留言:0更新日期:2018-03-24 19:11
本发明专利技术公开了一种基于图匹配的跨物种生物通路发现方法,本发明专利技术是为了解决采用传统生物化学实验方法发现生物通路的低效率问题,和现有图匹配算法无法很好结合生物序列相似性和蛋白质交互网络结构相似性问题。通过本发明专利技术可以将生物序列相似性和网络结构相似性很好地融合,能够发现不同物种的蛋白质交互网络中共存的较大子结构,从而更有效地发现存在于不同物种中具有相似功能的生物通路,对生物学研究不同物种之间的联系有指导意义。

A method of finding cross species biological pathway based on graph matching

The invention discloses a cross species biological pathway discovery method based on graph matching algorithm, the invention is to solve the traditional method of biochemistry experiment found that biological pathway inefficiency, and the existing map matching algorithm cannot very good similarity and similarity of the protein interaction network structure with biological sequence. The invention can be very similar to the fusion similarity and network structure of biological sequences, can be found in protein interaction networks of different species coexisting in the relatively large structure, so as to more effectively found in different species have similar functions of biological pathways, have guiding significance to study the connections between different forms of biology.

【技术实现步骤摘要】
一种基于图匹配的跨物种生物通路发现方法
本专利技术属于图算法
,涉及一种基于图匹配的跨物种生物通路发现方法,尤其涉及一种跨物种生物蛋白质交互网络中生物通路的发现方法。
技术介绍
图是计算机科学中常用的一类抽象数据结构,以描述事物之间的复杂关系。图结构已广泛应用于多种领域,如万维网、公路网、社交网络、知识图谱、蛋白质交互网络等。随着以上应用领域的发展,图数据不断的快速产生和积累,如何对其进行有效的管理、查询和挖掘等已成为学术界和工业界的研究热点。其中一个重要的课题就是挖掘不同物种生物蛋白质交互网络中的具有相似功能的生物通路。生物通路(biologicalpathway)由蛋白质和蛋白质之间的交互组成,可视为执行特定生物功能的最小的生物系统,不同物种之间存在大量相似功能的生物通路。有效挖掘发现不同物种之间具有相似功能的生物通路,可以帮助人类在生物体系层次上深刻理解物种间的相似及差别,对于基因学和医药学的发展具有重要的指导意义。传统生物通路发现方法需要大量的生物化学实验支撑,比较低效。通过图匹配方法,可以发现不同物种生物蛋白质交互网络(PPI网络)中相似结构和功能的子结构,根据这些匹配的子结构再根据生物化学方法验证它们是否是真正具有相似功能的生物通路,就比较有针对性和高效。图匹配问题目标是从两个由节点和边构成的图中得到节点一一映射的关系,实质上是图论中的子图同构问题,本身就是一个无法在多项式时间内解决的问题,随着生物蛋白质交互网络规模的扩大,蛋白质网络匹配问题面临着更加艰巨的挑战。早期蛋白质网络匹配技术主要采用序列匹配技术,因为蛋白质是由基因序列转码的mRNA转译合成的,所以蛋白质也携带有基因序列信息,通过利用BLAST等序列匹配算法可以将序列信息相近的蛋白质进行匹配,然而只依赖蛋白质序列信息而忽略蛋白质网络的结构特性,导致匹配的准确性不高。后来PathBLAST、MaWISh、Graemlin等启发式算法开始采用计算局部网络相似性来进行蛋白质网络匹配,但这些局部匹配算法可能会造成误导,因为一个物种的蛋白质网络子结构可能会匹配到另一个物种的蛋白质网络中的多个子结构,这种一对多的关系给确定生物通路带来了困难。现在比较流行的是采用全局网络匹配算法,比如IsoRank、PATH、GA、GRAAL、L-GRAAL、NATALIE、GHOST、NETAL、MAGNA、SPINAL、HubAlign等。全局网络匹配算法强调两个蛋白质网络匹配的一对一映射关系,当且仅当两个蛋白质节点的邻居节点也匹配的情况下才会将两个蛋白质节点进行匹配。但现有全局网络匹配算法存在一个弊端,即进行网络匹配时不能很好地将蛋白质序列信息和蛋白质网络结构信息结合起来,造成序列信息匹配度和结构信息匹配度两者的对立,导致比较差的生物通路发现效果。
技术实现思路
为了解决上述技术问题,本专利技术提供了一种基于新的图匹配算法的跨物种生物通路发现方法。本专利技术所采用的技术方案是:一种基于图匹配的跨物种生物通路发现方法,其特征在于,包括以下步骤:步骤1:构建初始匹配(matchingconstruction)阶段,通过结合各种相似性度量得到一个初始匹配方案,具体是:首先将两个物种的蛋白质交互网络(PPI网络)G1和G2中具有最高全局相似性、局部相似性、序列相似性和度相似性以及度数大于一定阈值的的节点进行匹配作为锚点A,然后从这些锚点A扩展,根据局部相似性和序列相似性匹配锚点的邻居节点,直至两个物种中节点总数较少的PPI网络中的所有节点均已匹配,得到初始匹配M。具体实现包括以下子步骤;步骤1.1:采用谱方法计算全局相似性Sg;对于图G,它的邻接矩阵为A,对角度矩阵为D,拉普拉斯矩阵L=D-A;对于两个物种的蛋白质交互网络G1和G2,分别计算它们的拉普拉斯矩阵的特征值,假设图G1的拉普拉斯矩阵L1的特征值为α1≥α2≥…≥αn,图G2的拉普拉斯矩阵L2的特征值为β1≥β2≥…≥βn,令Λ1=diag(αi),Λ2=diag(βi),L1和L2是对称半正定矩阵,则其中U1和U2是正交矩阵;如果G1和G2是同构的,则存在一个列矩阵P使得PL1PT=L2,解得则全局相似性步骤1.2:计算局部相似性Sl;假设图G中的顶点v的k步邻居子图为Nk(v),并且表示包括节点v的完整k步子图,V1表示图G1的顶点集合,V2表示图G2的顶点集合,节点u∈V1和节点v∈V2两者之间的局部相似性通过比较u和v的k步邻居子图来衡量,具体如下:假设d(u)、d(v)分别为节点u和节点v在G1、G2中的度,假设Nk(u)的所有节点的度按大小降序排列后分别为d1,1,d1,2,…,Nk(v)的所有节点的度按大小降序排列后分别为d2,1,d2,2,…;令节点u和节点v的k步子图的较小节点总数nmin=min{|Nk(u)|,|Nk(v)|},则G1的节点u和G2的节点v之间的局部相似性为其中和分别表示包含节点u的k步子图的顶点数和边数,和分别表示包含节点v的k步子图的顶点数和边数,其中k步子图的最小度之和步骤1.3:计算度相似性Sd和序列相似性Sseq;假设G1的节点u的度为d(u),G2的节点v的度为d(v),那么u和v之间的度相似性为通过BLAST计算出序列分数seq(u,v),然后进行归一化得到序列相似性步骤1.4:融合各种相似性,选择出锚点A;首先由全局相似性矩阵Sg、局部相似性矩阵Sl得到拓扑相似性矩阵St=Sg×Sl,再结合度相似性Sd得到网络结构相似性Sstr(u,v)=(1-θ)×St(u,v)+θ×Sd(u,v),其中θ表示拓扑相似性和度相似性的平衡参数,值在[0,1]之间可调节。再结合结构相似性Sstr和序列相似性Sseq得到最终的节点相似性S(u,v)=(1-α)×Sstr(u,v)+α×Sseq(u,v),其中α表示平衡结构相似性和度列相似性的平衡参数,值在[0,1]之间可调节。然后根据节点间的相似性分数S(u,v)将所有节点对进行降序排列,当节点对(u,v)满足以下两个条件时则将这两个节点进行匹配并加入锚点集合A;条件1:条件2:S(u,v)≥τ,其中τ是阈值;步骤1.5:从选择出的锚点集合A出发将邻居节点进行扩展匹配,得到初始匹配M;首先将锚点集合A中的匹配节点对都加入初始匹配M中,然后将锚点集合A中的所有匹配节点对(u,v)的邻居节点的笛卡尔积节点对(N(u)×N(v))加入优先队列Q中,并按照扩展相似性Se(u,v)=(1-α)×Sl(u,v)+α×Sseq(u,v)大小降序排列,然后逐个出列,如果扩展相似性最大的节点对(u,v)之前都没有与其他节点匹配过,那么将(u,v)匹配对加入M中,并将(u,v)的邻居节点笛卡尔积加入优先队列Q中,直至队列Q为空,得到初始匹配M。步骤2:优化匹配M得到最优匹配M*;匹配优化(matchingrefinement)阶段,步骤1中根据启发式算法得到的初始匹配M不能保证是最优的,采用一种新提出的算法进行匹配优化,具体是:首先从两个物种其中之一的蛋白质交互网络G1中随机选择一个顶点覆盖集C,然后保留顶点覆盖集C和初始匹配M的节点交集F1,以及保留F1在M中对应的G2的节点集合F2,对G1中不属于F1集合的节点和G2中不属于F2集本文档来自技高网
...
一种基于图匹配的跨物种生物通路发现方法

【技术保护点】
一种基于图匹配的跨物种生物通路发现方法,其特征在于,包括以下步骤:步骤1:构建初始匹配M;首先将两个物种的蛋白质交互网络G1和G2中具有最高全局相似性、局部相似性、序列相似性和度相似性以及度数大于一定阈值的节点进行匹配作为锚点A,然后从这些锚点A扩展,根据局部相似性和序列相似性匹配锚点的邻居节点,直至两个物种中节点总数较少的蛋白质交互网络中的所有节点均已匹配,得到初始匹配M;步骤2:优化匹配M得到最优匹配M

【技术特征摘要】
1.一种基于图匹配的跨物种生物通路发现方法,其特征在于,包括以下步骤:步骤1:构建初始匹配M;首先将两个物种的蛋白质交互网络G1和G2中具有最高全局相似性、局部相似性、序列相似性和度相似性以及度数大于一定阈值的节点进行匹配作为锚点A,然后从这些锚点A扩展,根据局部相似性和序列相似性匹配锚点的邻居节点,直至两个物种中节点总数较少的蛋白质交互网络中的所有节点均已匹配,得到初始匹配M;步骤2:优化匹配M得到最优匹配M*;首先从蛋白质交互网络G1中随机选择一个顶点覆盖集C,然后保留顶点覆盖集C和初始匹配M的节点交集F1,以及保留F1在M中对应的G2的节点集合F2,对G1中不属于F1集合的节点和G2中不属于F2集合的节点进行匹配优化,得到优化后匹配M*,如果M*的匹配效果比M好,则更新M,如此多次迭代优化直至M不再更新,就得到接近最优的最终匹配结果;步骤3:利用匹配M*发现生物通道;首先在KEGGPATHWAY数据库中找到两个物种的蛋白质交互网络中所有蛋白质节点涉及的生物通路集合;然后利用匹配M*的节点映射关系找到具有最大公共子结构的生物通道。2.根据权利要求1所述的基于图匹配的跨物种生物通路发现方法,其特征在于,步骤1的具体实现包括以下子步骤;步骤1.1:采用谱方法计算全局相似性Sg;对于图G,它的邻接矩阵为A,对角度矩阵为D,拉普拉斯矩阵L=D-A;对于两个物种的蛋白质交互网络G1和G2,分别计算它们的拉普拉斯矩阵的特征值,假设图G1的拉普拉斯矩阵L1的特征值为α1≥α2≥…≥αn,图G2的拉普拉斯矩阵L2的特征值为β1≥β2≥…≥βn,令Λ1=diag(αi),Λ2=diag(βi),L1和L2是对称半正定矩阵,则其中U1和U2是正交矩阵;如果G1和G2是同构的,则存在一个列矩阵P使得PL1PT=L2,解得则全局相似性步骤1.2:计算局部相似性Sl;假设图G中的顶点v的k步邻居子图为Nk(v),并且表示包括节点v的完整k步子图,V1表示图G1的顶点集合,V2表示图G2的顶点集合,节点u∈V1和节点v∈V2两者之间的局部相似性通过比较u和v的k步邻居子图来衡量,具体如下:假设d(u)、d(v)分别为节点u和节点v在G1、G2中的度,假设Nk(u)的所有节点的度按大小降序排列后分别为d1,1,d1,2,…,Nk(v)的所有节点的度按大小降序排列后分别为d2,1,d2,2,…;令节点u和节点v的k步子图的较小节点总数nmin=min{|Nk(u)|,|Nk(v)|},则G1的节点u和G2的节点v之间的局部相似性为其中和分别表示包含节点u的k步子图的顶点数和边数,和分别表示包含节点v的k步子图的顶点数和边数,其中k步子图的最小度之和步骤1.3:计算度相似性Sd和序列相似性Sseq;假设G...

【专利技术属性】
技术研发人员:祝园园李阅志
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1