The invention discloses a cross species biological pathway discovery method based on graph matching algorithm, the invention is to solve the traditional method of biochemistry experiment found that biological pathway inefficiency, and the existing map matching algorithm cannot very good similarity and similarity of the protein interaction network structure with biological sequence. The invention can be very similar to the fusion similarity and network structure of biological sequences, can be found in protein interaction networks of different species coexisting in the relatively large structure, so as to more effectively found in different species have similar functions of biological pathways, have guiding significance to study the connections between different forms of biology.
【技术实现步骤摘要】
一种基于图匹配的跨物种生物通路发现方法
本专利技术属于图算法
,涉及一种基于图匹配的跨物种生物通路发现方法,尤其涉及一种跨物种生物蛋白质交互网络中生物通路的发现方法。
技术介绍
图是计算机科学中常用的一类抽象数据结构,以描述事物之间的复杂关系。图结构已广泛应用于多种领域,如万维网、公路网、社交网络、知识图谱、蛋白质交互网络等。随着以上应用领域的发展,图数据不断的快速产生和积累,如何对其进行有效的管理、查询和挖掘等已成为学术界和工业界的研究热点。其中一个重要的课题就是挖掘不同物种生物蛋白质交互网络中的具有相似功能的生物通路。生物通路(biologicalpathway)由蛋白质和蛋白质之间的交互组成,可视为执行特定生物功能的最小的生物系统,不同物种之间存在大量相似功能的生物通路。有效挖掘发现不同物种之间具有相似功能的生物通路,可以帮助人类在生物体系层次上深刻理解物种间的相似及差别,对于基因学和医药学的发展具有重要的指导意义。传统生物通路发现方法需要大量的生物化学实验支撑,比较低效。通过图匹配方法,可以发现不同物种生物蛋白质交互网络(PPI网络)中相似结构和功能的子结构,根据这些匹配的子结构再根据生物化学方法验证它们是否是真正具有相似功能的生物通路,就比较有针对性和高效。图匹配问题目标是从两个由节点和边构成的图中得到节点一一映射的关系,实质上是图论中的子图同构问题,本身就是一个无法在多项式时间内解决的问题,随着生物蛋白质交互网络规模的扩大,蛋白质网络匹配问题面临着更加艰巨的挑战。早期蛋白质网络匹配技术主要采用序列匹配技术,因为蛋白质是由基因序列转码的mR ...
【技术保护点】
一种基于图匹配的跨物种生物通路发现方法,其特征在于,包括以下步骤:步骤1:构建初始匹配M;首先将两个物种的蛋白质交互网络G1和G2中具有最高全局相似性、局部相似性、序列相似性和度相似性以及度数大于一定阈值的节点进行匹配作为锚点A,然后从这些锚点A扩展,根据局部相似性和序列相似性匹配锚点的邻居节点,直至两个物种中节点总数较少的蛋白质交互网络中的所有节点均已匹配,得到初始匹配M;步骤2:优化匹配M得到最优匹配M
【技术特征摘要】
1.一种基于图匹配的跨物种生物通路发现方法,其特征在于,包括以下步骤:步骤1:构建初始匹配M;首先将两个物种的蛋白质交互网络G1和G2中具有最高全局相似性、局部相似性、序列相似性和度相似性以及度数大于一定阈值的节点进行匹配作为锚点A,然后从这些锚点A扩展,根据局部相似性和序列相似性匹配锚点的邻居节点,直至两个物种中节点总数较少的蛋白质交互网络中的所有节点均已匹配,得到初始匹配M;步骤2:优化匹配M得到最优匹配M*;首先从蛋白质交互网络G1中随机选择一个顶点覆盖集C,然后保留顶点覆盖集C和初始匹配M的节点交集F1,以及保留F1在M中对应的G2的节点集合F2,对G1中不属于F1集合的节点和G2中不属于F2集合的节点进行匹配优化,得到优化后匹配M*,如果M*的匹配效果比M好,则更新M,如此多次迭代优化直至M不再更新,就得到接近最优的最终匹配结果;步骤3:利用匹配M*发现生物通道;首先在KEGGPATHWAY数据库中找到两个物种的蛋白质交互网络中所有蛋白质节点涉及的生物通路集合;然后利用匹配M*的节点映射关系找到具有最大公共子结构的生物通道。2.根据权利要求1所述的基于图匹配的跨物种生物通路发现方法,其特征在于,步骤1的具体实现包括以下子步骤;步骤1.1:采用谱方法计算全局相似性Sg;对于图G,它的邻接矩阵为A,对角度矩阵为D,拉普拉斯矩阵L=D-A;对于两个物种的蛋白质交互网络G1和G2,分别计算它们的拉普拉斯矩阵的特征值,假设图G1的拉普拉斯矩阵L1的特征值为α1≥α2≥…≥αn,图G2的拉普拉斯矩阵L2的特征值为β1≥β2≥…≥βn,令Λ1=diag(αi),Λ2=diag(βi),L1和L2是对称半正定矩阵,则其中U1和U2是正交矩阵;如果G1和G2是同构的,则存在一个列矩阵P使得PL1PT=L2,解得则全局相似性步骤1.2:计算局部相似性Sl;假设图G中的顶点v的k步邻居子图为Nk(v),并且表示包括节点v的完整k步子图,V1表示图G1的顶点集合,V2表示图G2的顶点集合,节点u∈V1和节点v∈V2两者之间的局部相似性通过比较u和v的k步邻居子图来衡量,具体如下:假设d(u)、d(v)分别为节点u和节点v在G1、G2中的度,假设Nk(u)的所有节点的度按大小降序排列后分别为d1,1,d1,2,…,Nk(v)的所有节点的度按大小降序排列后分别为d2,1,d2,2,…;令节点u和节点v的k步子图的较小节点总数nmin=min{|Nk(u)|,|Nk(v)|},则G1的节点u和G2的节点v之间的局部相似性为其中和分别表示包含节点u的k步子图的顶点数和边数,和分别表示包含节点v的k步子图的顶点数和边数,其中k步子图的最小度之和步骤1.3:计算度相似性Sd和序列相似性Sseq;假设G...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。