一种基于图模型的蛋白质复合物识别方法技术

技术编号:15501123 阅读:193 留言:0更新日期:2017-06-03 22:38
本发明专利技术提供了一种基于图模型的蛋白质复合物识别方法,将给定物种的蛋白质互作网络视为网络图G=(V,E),V是蛋白质结点,E是蛋白质相互作用边的集合,从所有的边的集合中去掉网络中自连接边和重复边;首先获取蛋白质复合物的核蛋白顶点集,然后扩展其边缘结点一阶邻居,形成图模型;再根据图模型的特征,判别其连通性,找到所有的稠密子图,即蛋白质复合物。本发明专利技术提供的方法将图模型看作蛋白质复合物的核,通过考察扩展该图模型的一阶邻居结点识别蛋白质复合物;将本发明专利技术提供的算法应用于已知的酵母蛋白质网络,实验结果表明,本算法能够识别出比较多的具有生物意义的蛋白质复合物,且算法对输入参数不敏感。

A protein complex recognition method based on graph model

The present invention provides a method for identifying protein complexes based on graph model, a given species of the protein interaction network as a network graph G = (V, E), V protein is a node, E is a collection of protein interaction side, remove the side and repeated self connection in the network from the set of all sides the vertex first gets; nuclear protein protein complexes, and then extended the edge node of first order neighbors, the formation of graph model; according to the characteristics of the graph model to judge the connectivity, find all dense sub graph, namely protein complexes. The invention provides a method of the graph model as nuclear protein complexes, extend the graph model of first order neighbor node identification of protein complexes through investigation; yeast protein network provided the algorithm is applied to the known, the experimental results show that this algorithm can identify more protein complexes with biological significance the algorithm is not sensitive to input parameters and.

【技术实现步骤摘要】
一种基于图模型的蛋白质复合物识别方法
本专利技术涉及一种蛋白质复合物识别方法,尤其涉及一种基于H-index图模型的蛋白质复合物识别算法HPCMiner(H-indexbasedProteincomplexMiner),将图模型H-index看作蛋白质复合物的核,通过考察扩展该图模型的一阶邻居结点识别蛋白质复合物。
技术介绍
在后基因时代,系统分析蛋白质互作网络拓扑结构,从蛋白质网络中识别蛋白质复合物,对预测蛋白质功能、解释特定的生物进程具有重要作用。同时,蛋白质复合物识别也为研究蛋白质互作网络提供了一种研究途径。蛋白质网络可以用图模型表达,其中结点是蛋白质,边代表蛋白质之间的相互作用。这样的图模型为理解复杂的生物系统提供了一个新的视角。虽然可以对蛋白纸互作网络利用图模型的表达方法做研究,但是目前对蛋白质互作网络上的蛋白质复合物或蛋白质模块的识别,还停留在蛋白质复合物在图模型里呈现的是一个密集的蛋白质簇这样一个概念。目前对蛋白质复合物在相互作用网络中对应的子图模型还没有严格的数学表述和统一的定义。所以,很多研究者将蛋白质复合物识别问题转化为稠密子图的求解问题。为了在蛋白质网络中发现这些重要且有生物意义的稠密子图,Sprin和Mimy(SpirinVandMimyLA.Proteincomplexesandfunctionalmodulesinmolecularnetworks.ProcNatlAcadSciUSA,100(21):12123-12128,2003.)通过挖掘蛋白质中ds=1(densesubgraph,ds)的全连通图(极大团)来识别蛋白质复合物。然而,由于目前能够获得的蛋白质相互作用还不完全,仅通过挖掘全连通图来识别蛋白质复合物存在很大的局限性。最近,有很多蛋白质复合物识别方法,Bader和Hogue(BaderG.andHogueC.Anautomatedmethodforfindingmolecularcomplexesinlargeproteininteractionnetworks.BMCBioinformatics,4:2,1.)提出的MCODE(MolcularComplexDetection)算法,算法以蛋白质互作网络为输入,通过寻找稠密的蛋白质簇发现蛋白质复合物。MCODE算法可以大致分为三个阶段:第一阶段利用基于网络密度的方式计算网络结点的权重;根据已经计算完毕网络中结点的权重,从权重较大的结点开始利用贪婪搜索的方式扩展一个区域作为寻找到的蛋白质复合物;最后通过定义好的条件过滤掉不符合条件的复合物,但是该算法不能保证预测到的蛋白质复合物之间连接紧密。Enright等(EnrightA.etal.Aneffcientalgorithmforlarge-scaledetectionofproteinfamilies.NucleicAcidsRes,30:1575-1584,2002.)提出的MCL(MarkovClusterAlgorithm)发现蛋白质互作网络上稠密的簇,通过模拟随机流的方式分析网络结点的分布情况,模拟随机游走的反复迭代在蛋白质互作网络上游走。网络可以看成是引导游走的路径的集合。经过足够的次数的迭代游走之后,游走者如果进入一个稠密的连接区域,就会有很小的概率走出来。该算法利用一个膨胀系数将高密度连接区域与低密度链接区域分开,但是膨胀系数会影响算法寻找到的蛋白质簇的结构,膨胀系数越大簇的数量越大。Rungarityotin等(RungsarityotinW.etal.Identifyingproteincomplexesdirectlyfromhigh-throughputtapdatawithmarkovrandomfields.BMCBioinformatics,8:482.2007.)提出一个新的基于马尔科夫随机域MRF(MarkovRandomFeilds)的蛋白质复合物识别算法,MRF应用概率模型确定蛋白质互作网络上假阴性和假阳性的结点的质量,定义每个蛋白质的质量分数由其周围的邻居决定,根据已经确定的蛋白质的质量分数寻找蛋白质复合物。King等(KingAD,PrzuljN,andJurisicaI.Proteincomplexpredictionviacost-basedclustering.Bioinformatics,20(17):3013-20,2004.)提出的RNSC(theRestrictedSearchClustering)尽力发现蛋白质复合物通过把网络中的定点集划分为不同的簇。RNSC算法开始随机指定一个簇类,然后不断地对这些定点集进行再划分使得划分分数达到最大值,最后根据划分的网络子集,即功能模块的最小、密度以及功能同源性,对这些功能模块进行过滤。Palla等(PallaG,DerényiI,FarkasI,andVicsekT.Uncoveringtheoverlappingcommunitystructureofcomplexnetworksinnatureandsociety.Nature,435(7043):814-818,2005.)提出基于图论的计算方法CPM,是一种基于团渗透的算法,通过挖掘图中相互连通的若干k-团组成的一个k-团链。k-团是指包含k个顶点的全连通图。如果两个k-团有k-1个公共顶点,则称这两个k-团是邻接的。一系列邻接的k-团组成一个k-团链。如果两个k-团出现在一个k-团链中,则称这两个k-团是连通的。但是算法CPM的结果数据集与k值有关,k值较大获得连通的k-团集合的规模较小,且内部结点之间连接比较紧密。算法CPM在蛋白质网络中能够识别到的蛋白质复合物数量较少,特别是k取值比较大时能够识别到的蛋白质复合物就更少。对于较小的k取值算法CPM通常会发生规模比较庞大的k-团集合。这样的k-团集合包含了规模大于k的团结构和比较稀疏的k-团链。在实际应用中,更希望将这样的k-团集合分裂成多个比较稠密的团。综上所述,现有的蛋白质复合物识别方法够识别出的具有生物意义的蛋白质复合物较少,且算法对输入参数较为敏感,识别结果不太理想。
技术实现思路
本专利技术要解决的技术问题是提供一种能够识别出比较多的具有生物意义的蛋白质复合物,且算法对输入参数不敏感的蛋白质复合物识别方法。为了解决上述技术问题,本专利技术的技术方案是提供一种基于图模型的蛋白质复合物识别方法,其特征在于:该方法由以下步骤组成:步骤1:概念定义将给定物种的蛋白质互作网络视为网络图G=(V,E),V是蛋白质结点,E是蛋白质相互作用边的集合,从所有的边的集合中去掉网络中自连接边和重复边;为从蛋白质互作网络G中发现所定义的蛋白质复合物,首先定义如下概念:定义1HP-vertices给定蛋白质互作网络G=(V,E),H-index结点代表HP-vertices蛋白质集合,定义为HP=v:vV,d(v)≥h,假如此时|HP|=h,v(V\H),d(v)≤h;HP-vertices蛋白质集合包括h个蛋白,这h个蛋白的度至少为h;从HP-vertices扩展至概念HP-neighbors;其中,v是代表蛋白质结点,d(v)是结点v的度,v(V\H)是度为H的蛋本文档来自技高网
...
一种基于图模型的蛋白质复合物识别方法

【技术保护点】
一种基于图模型的蛋白质复合物识别方法,其特征在于:该方法由以下步骤组成:步骤1:概念定义将给定物种的蛋白质互作网络视为网络图G=(V,E),V是蛋白质结点,E是蛋白质相互作用边的集合,从所有的边的集合中去掉网络中自连接边和重复边;为从蛋白质互作网络G中发现所定义的蛋白质复合物,首先定义如下概念:定义1 HP‑vertices给定蛋白质互作网络G=(V,E),H‑index结点代表HP‑vertices蛋白质集合,定义为HP=v:v V,d(v)≥h,假如此时|HP|=h,v(V\H),d(v)≤h;HP‑vertices蛋白质集合包括h个蛋白,这h个蛋白的度至少为h;从HP‑vertices扩展至概念HP‑neighbors;其中,v是代表蛋白质结点,d(v)是结点v的度,v(V\H)是度为H的蛋白质结点;H‑index,又称为H指数或H因子,是一种评价学术成就的新方法。H代表“高引用次数”,一名科研人员的H指数是指他至多有H篇论文分别被引用了至少H次;定义2 HP‑neighborsHP‑neighbors定义为HP‑vertices蛋白质集合的一阶邻居的集合;定义3 HP‑graph蛋白质互作网络G的子图HP‑graph由HP‑vertices和它的Hp‑neighbors,除去一阶邻居HP‑neighbors之间的边;对于一个蛋白质互作网络,HP‑graph从一个原始蛋白质互作网络里分离出来有可能是一个非连通子图,因此从非连通子图HP‑graph中分离出所有的子图,最终得到的蛋白质互作网络的所有子图为所要识别的蛋白质复合物;定义4 HP‑complex如果HP‑graph是非连通的,HP‑complex定义为HP‑graph的所有子图;所有从HP‑graph中分离的子图都是想要找到的蛋白质复合物;步骤2:获取蛋白质复合物的核蛋白HP‑vertices顶点集,扩展其边缘结点一阶邻居HP‑neighbors,形成HP‑graph图模型;步骤3:判别HP‑graph的连通性,找到所有的稠密子图,即蛋白质复合物。...

【技术特征摘要】
1.一种基于图模型的蛋白质复合物识别方法,其特征在于:该方法由以下步骤组成:步骤1:概念定义将给定物种的蛋白质互作网络视为网络图G=(V,E),V是蛋白质结点,E是蛋白质相互作用边的集合,从所有的边的集合中去掉网络中自连接边和重复边;为从蛋白质互作网络G中发现所定义的蛋白质复合物,首先定义如下概念:定义1HP-vertices给定蛋白质互作网络G=(V,E),H-index结点代表HP-vertices蛋白质集合,定义为HP=v:vV,d(v)≥h,假如此时|HP|=h,v(V\H),d(v)≤h;HP-vertices蛋白质集合包括h个蛋白,这h个蛋白的度至少为h;从HP-vertices扩展至概念HP-neighbors;其中,v是代表蛋白质结点,d(v)是结点v的度,v(V\H)是度为H的蛋白质结点;H-index,又称为H指数或H因子,是一种评价学术成就的新方法。H代表“高引用次数”,一名科研人员的H指数是指他至多有H篇论文分别被引用了至少H次;...

【专利技术属性】
技术研发人员:林志杰
申请(专利权)人:上海电机学院
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1