一种采用烟花算法识别蛋白质复合物的方法技术

技术编号:14211589 阅读:205 留言:0更新日期:2016-12-18 20:55
本发明专利技术提供一种采用烟花算法识别蛋白质复合物的方法,由如下步骤组成:将蛋白质相互作用网络转化为无向图、对蛋白质相互作用网络边和结点预处理、构建动态蛋白质相互作用网络、设置参数、初始化烟花的位置、模拟烟花爆炸产生火花、从火花中选择部分较好的点作为烟花、所有烟花组成一个类、过滤不好的类、输出最终得到的类。该方法考虑了蛋白质网络的动态性、蛋白质复合物内部核心‑附件结构以及蛋白质相互作用网络的局部性和全局性,能准确地识别蛋白质复合物。仿真实验结果表明,正确率、查全率等指标性能较优。与其他聚类方法相比,结合蛋白质相互作用网络和蛋白质复合物特性,实现蛋白质复合物识别过程,提高了蛋白质复合物的识别准确率。

【技术实现步骤摘要】

本专利技术属于生物信息领域,涉及一种动态蛋白质相互作用网络中蛋白质复合物的识别方法,具体涉及一种采用烟花算法识别蛋白质复合物的方法
技术介绍
随着人类基因组计划以及多物种基因组测序工作的完成,蛋白质组学(Proteomics)的研究拉开了序幕。蛋白质是生命体内不可或缺的一种组成成分,是保证生命活动正常进行的重要参与者,而蛋白质组学正是研究蛋白质的功能、结构以及蛋白质之间的相互作用,以便完整描述整个生命周期中的所有蛋白质。细胞中的每一个蛋白质都不是孤立存在的,每一项生命活动从开始到结束都会涉及到多个蛋白质,这些蛋白质通过相互作用连在一起共同完成一项生命活动。蛋白质的相互作用也是生命活动得到精确执行的保证,例如生命体的新陈代谢、细胞分裂、神经传导等。在生命活动中,有些蛋白质的相互作用是同时发生的,而有些则是以一定顺序依次发生的。蛋白质相互作用网络(Protein Protein Interaction Networks)就是细胞中所有相互作用的集合,网络是我们研究生命活动内在规律、探索生命微观未知领域的基础。近年来的研究发现,大规模的复杂的蛋白质相互作用网络有着明显的模块化结构特征,构成蛋白质相互作用网络的模块的内部在功能和拓扑上也存在着相互联系。所以从蛋白质相互作用网络中挖掘出蛋白质功能模块(Protein Functional Modules),对揭示蛋白质功能和解释特定的生命活动过程具有十分重要的意义。近几年来,在蛋白质相互作用网络以及蛋白质功能模块挖掘方面的研究成为生命科学的研究热点,已有很多学者提出了一系列基于相互作用网络进行蛋白质功能模块挖掘的算法。此外,目前研究人员往往对蛋白质复合物和功能模块等同看待。在蛋白质相互作用网络中,蛋白质功能模块在结构上就比较特殊。研究人员对此有着不同的理解,提出了簇、稠密子图等理论。其中,簇属于稠密子图的一种特殊情况。之所以把簇看成是稠密子图的一种特殊情况,是因为很多计算方法会把簇当成功能模块的一个组成部分。一方面,簇常被用作功能模块的组成部分。Spirin和Mirny提出了三种方法来识别蛋白质功能模块。第一种方法通过枚举网络中的所有全连通子图来进行挖掘工作,然而由于蛋白质相互作用数据的不完整,这种方法有很大的局限性。因此两位作者提出的第二种方法是给网络中的每一个点指定一个自旋参数,每个点的自旋参数都可能有好几种状态,若一条相互作用两端的点的自旋参数处于相同的状态,则这两个点的能量最小。该方法的思想是高度连接的子图的自旋参数以一种相关的方式在波动,通过检测点的自旋参数,这种方法可以识别出网络中高连接子图的点。第三种方法是将识别子图描述为一个最优化问题:找出一些点使得子图的密度最大化。还有一种情况是将簇看成一个新图的组成部分。Palla和Adamcsek等人提出的CFinder算法正是基于此。算法首先检测出网络中全部的K-簇。K-簇是指包含K个顶点的簇。如果两个K-簇有K-1个公共结点,那么就称这两个K-簇是邻接的。K-簇连通图是指将K-簇看成结点,将两个K-簇的邻接关系看成边,从而构成的一个图。对于其中的一些簇,如果它们任意之间都是连通的或者可以通过其他簇连接起来,那么算法就把这些簇看成一个功能模块。该算法的性能受K的取值影响较大,若K的取值较大,那么将产生较少的邻接关系,从而会得到规模较小的功能模块。另一方面,很多算法通过发现网络中的稠密子图来挖掘功能模块。这是因为功能模块内部的蛋白为往往具有更强的联系,而模块间蛋白质的联系较弱。但是稠密子图并没有一个普适的定义,研究人员一般将它定义为网络中连接较紧密的一组点集。研究人员提出了基于成本的方法、随机方法等方法来发现蛋白质相互作用网络中的稠密子图。对于基于成本的方法,都会设定一个成本函数。King等人提出的RNSC(Restricted Neighborhood Search Clustering,受限邻居搜索聚类)算法就是一种典型的算法。成本函数是结点的无效连接数。算法首先将网络划分为k个独立的子图,通过不断地将一个子图中的结点移动到另一个子图中来降低成本函数值。当函数值达到给定阈值或者函数值无法继续降低时,算法终止。对于随机方法,一个典型的例子就是MCL(Markov Clustering,马尔可夫聚类)算法。Van Dongen通过模拟图中的随机流将MCL算法用于解决聚类问题。算法输入的是一个状态转移概率矩阵,经过两步运算,仍然得到一个状态转移概率矩阵。通过对这个矩阵的运算,最终可以得到一个体现聚类结果的矩阵,矩阵中大部分元素为零或接近于零,而取值较大的元素组成了一个个类。Satuluri等人提出了一种改进型的R-MCL算法并使它更适用于挖掘蛋白质功能模块。上述聚类方法的缺陷在于没有考虑到蛋白质相互作用网络的动态性,不能同时考虑到整个蛋白质相互作用网络的全局特性和局部特性以及蛋白质复合物的内部结构,蛋白质复合物识别的准确率低。
技术实现思路
本专利技术要解决的技术问题在于克服上述蛋白质复合物识别方法的缺点,提供了一种模拟烟花爆炸的现象,准确度高、能真实地模拟蛋白质相互作用网络的动态性,采用烟花算法识别蛋白质复合物的方法。解决上述技术问题所采用的技术方案由下述步骤组成:一种采用烟花算法识别蛋白质复合物的方法,包括以下步骤:(1)将蛋白质相互作用网络转化为无向图将最初得到的蛋白质相互作用网络转化成一个无向图,该无向图可用G=(V,E)表示,其中,V为所有蛋白质结点的集合,E为所有蛋白质相互作用边的集合;(2)对无向图中的边和结点进行预处理对点集V进行预处理:计算点集中每个结点vi的聚集系数和度,结点的度是每个结点的邻居结点的数目,结点的聚集系数可由式(1)计算得出:式中kv是结点vi的度,nv是结点vi的kv个邻居结点相互之间的边的个数;边的聚集系数可由式(2)计算得到:式中,Z(vi,vj)表示包含结点vi与vj的三角形个数,即两个结点的公共邻居结点的数目,di,dj分别是结点vi,vj的度;边的皮尔森相关系数可由式(3)计算得到:式中,xi,yi表示蛋白质vx,vy在时间点t时的基因表达值,μ(x),μ(y)是蛋白质vx,vy的平均基因表达值,T为时间点的最大值;(3)构建动态蛋白质相互作用网络在时间点t时,蛋白质vx的基因表达值xi若大于基因表达阈值AT(i),则认为蛋白质vx在时间点t具有活性;一条边两端的两个蛋白质vx,vy都在时间点t具有活性,则这条边是构成动态蛋白质相互作用网络的一条边,在时间点t存在于网络当中;通过对每个蛋白质结点都进行上述处理,再每个时间点都可以得到在该时间具有活性的蛋白质结点及边,这些结点和边在每个时间点都构成了一个子网,由全部时间点的子网所构成的一个网络就是动态蛋白质相互作用网络;(4)初始化参数令t,T分别表示当前的时间点和最大时间点,t=1;firework表示烟花结点,spark表示火花结点,fc表示一个蛋白质簇,簇的密度阈值th_core=0.7,重叠度阈值为th_os,past表示已经聚类的结点集合,temp表示剩余未聚类的结点集合,cluster是最终聚类得到的蛋白质复合物,t=1时,temp=V,cluster和past均为空集;(5)初始化烟花的位置对剩本文档来自技高网
...
一种采用烟花算法识别蛋白质复合物的方法

【技术保护点】
一种采用烟花算法识别蛋白质复合物的方法,其特征在于包括以下步骤:(1)将蛋白质相互作用网络转化为无向图将最初得到的蛋白质相互作用网络转化成一个无向图,该无向图可用G=(V,E)表示,其中,V为所有蛋白质结点的集合,E为所有蛋白质相互作用边的集合;(2)对无向图中的边和结点进行预处理对点集V进行预处理:计算点集中每个结点vi的聚集系数和度,结点的度是每个结点的邻居结点的数目,结点的聚集系数可由式(1)计算得出:式中kv是结点vi的度,nv是结点vi的kv个邻居结点相互之间的边的个数;边的聚集系数可由式(2)计算得到:式中,Z(vi,vj)表示包含结点vi与vj的三角形个数,即两个结点的公共邻居结点的数目,di,dj分别是结点vi,vj的度;边的皮尔森相关系数可由式(3)计算得到:式中,xi,yi表示蛋白质vx,vy在时间点t时的基因表达值,μ(x),μ(y)是蛋白质vx,vy的平均基因表达值,T为时间点的最大值;(3)构建动态蛋白质相互作用网络在时间点t时,蛋白质vx的基因表达值xi若大于基因表达阈值AT(i),则认为蛋白质vx在时间点t具有活性;一条边两端的两个蛋白质vx,vy都在时间点t具有活性,则这条边是构成动态蛋白质相互作用网络的一条边,在时间点t存在于网络当中;通过对每个蛋白质结点都进行上述处理,再每个时间点都可以得到在该时间具有活性的蛋白质结点及边,这些结点和边在每个时间点都构成了一个子网,由全部时间点的子网所构成的一个网络就是动态蛋白质相互作用网络;(4)初始化参数令t,T分别表示当前的时间点和最大时间点,t=1;firework表示烟花结点,spark表示火花结点,fc表示一个蛋白质簇,簇的密度阈值th_core=0.7,重叠度阈值为th_os,past表示已经聚类的结点集合,temp表示剩余未聚类的结点集合,cluster是最终聚类得到的蛋白质复合物,t=1时,temp=V,cluster和past均为空集;(5)初始化烟花的位置对剩余未聚类的结点集合temp中的结点先按照点的聚集系数和度进行降序排序,其中值最大的结点作为一个初代烟花firework;(6)模拟烟花爆炸产生火花在蛋白质相互作用网络中,由烟花结点firework起,模拟烟花爆炸,经由连接烟花的相互作用向外扩散,所有与烟花相连的结点均为由它爆炸产生的火花spark;(7)从火花中选择部分较好的点作为烟花对于由烟花爆炸产生的火花spark,逐个将火花加入烟花所在的簇fc中,若加入后的簇的密度大于阈值th_core,则将此火花转换为烟花,并保存在簇中,否则将它从簇中删除,在将所有火花遍历一遍后,簇中的所有结点成为新一代烟花firework;(8)所有烟花组成一个类将簇fc中的结点从temp中删除,将fc归到cluster中,若temp为空集,则转到步骤(9),若temp不为空,则转到步骤(6);(9)过滤不好的类确定所有时间点产生的蛋白质复合物之间的重叠度OS,合并重叠度大于重叠度阈值th_os的蛋白质复合物,并删除cluster中只包含一个蛋白质结点的蛋白质复合物;(10)输出得到的类将最终的蛋白质复合物cluster输出,cluster中的每个元素均为一个蛋白质复合物,每个蛋白质复合物至少包含两个蛋白质,所有这些蛋白质复合物即为聚类结果。...

【技术特征摘要】
1.一种采用烟花算法识别蛋白质复合物的方法,其特征在于包括以下步骤:(1)将蛋白质相互作用网络转化为无向图将最初得到的蛋白质相互作用网络转化成一个无向图,该无向图可用G=(V,E)表示,其中,V为所有蛋白质结点的集合,E为所有蛋白质相互作用边的集合;(2)对无向图中的边和结点进行预处理对点集V进行预处理:计算点集中每个结点vi的聚集系数和度,结点的度是每个结点的邻居结点的数目,结点的聚集系数可由式(1)计算得出:式中kv是结点vi的度,nv是结点vi的kv个邻居结点相互之间的边的个数;边的聚集系数可由式(2)计算得到:式中,Z(vi,vj)表示包含结点vi与vj的三角形个数,即两个结点的公共邻居结点的数目,di,dj分别是结点vi,vj的度;边的皮尔森相关系数可由式(3)计算得到:式中,xi,yi表示蛋白质vx,vy在时间点t时的基因表达值,μ(x),μ(y)是蛋白质vx,vy的平均基因表达值,T为时间点的最大值;(3)构建动态蛋白质相互作用网络在时间点t时,蛋白质vx的基因表达值xi若大于基因表达阈值AT(i),则认为蛋白质vx在时间点t具有活性;一条边两端的两个蛋白质vx,vy都在时间点t具有活性,则这条边是构成动态蛋白质相互作用网络的一条边,在时间点t存在于网络当中;通过对每个蛋白质结点都进行上述处理,再每个时间点都可以得到在该时间具有活性的蛋白质结点及边,这些结点和边在每个时间点都构成了一个子网,由全部时间点的子网所构成的一个网络就是动态蛋白质相互作用网络;(4)初始化参数令t,T分别表示当前的时间点和最大时间点,t=1;firework表示烟花结点,spark表示火花结点,fc表示一个蛋白质簇,簇的密度阈值th_core=0.7,重叠度阈值为th_os,past表示已经聚类的结点集合,temp表示剩余未聚类的结点集合,cluster是最终聚类得到的蛋白质复合物,t=1时,temp=V,cluster和past均为空集;(5)初始化烟花的位置对剩余未聚类的结点集合temp中的结点...

【专利技术属性】
技术研发人员:雷秀娟王飞程适
申请(专利权)人:陕西师范大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1