当前位置: 首页 > 专利查询>中南大学专利>正文

基于距离判定的蛋白质复合物识别方法技术

技术编号:2826365 阅读:279 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于距离判定的蛋白质复合物识别方法,基于对已知蛋白质复合物中蛋白质顶点之间的最短距离一般不超过2的发现,将蛋白质顶点之间的最短距离作为蛋白质复合物识别的一个重要参数,并利用蛋白质顶点与蛋白质复合物之间的作用概率来控制识别的蛋白质复合物的稠密程度。本发明专利技术实现简单,能够通过蛋白质相互作用网络识别大量已知的具有生物意义的蛋白质复合物,对蛋白质相互作用大规模数据中普遍存在的比例较高的假阳性和假阴性具有很好的健壮性,有效地解决了化学实验成本昂贵,单次识别数量少以及很难识别动态复合物的生物学难题。

【技术实现步骤摘要】

本专利技术属于系统生物学领域,尤其涉及蛋白质复合物的识别。
技术介绍
在后基因组时代,系统地分析和全面理解生物网络拓扑及细胞内的生物化学进程成为一个非常重要的研究课题。细胞中的每个蛋白质并不是独立完成被赋予的功能,而是通过与其它蛋白质相互作用形成大的复合物,在特定的时间和空间内完成特定的功能,而且有些蛋白质的功能只有在复合物形成后才能发挥出来。识别这些蛋白质复合物对预测蛋白质功能、解释特定的生物进程具有重要作用。目前,用于识别蛋白质复合物的方法包括化学实验测定方法、基于进化模型的物种比较方法、基于多信息集成的分析方法和基于蛋白质相互作用信息的聚类分析方法。化学实验测定方法主要包括APMS(Affinity Purification techniques usingMass Spectrometry)、TAP(Tandem Affinity Purification)、iTAP(TAP与RNAi)和HMS-PCI(High-throughput Mass Spectromic Protein Complex Identification)等方法。通过化学实验可以准确地测定某一环境下的蛋白质复合物,特别是那些比较稳定的复合物。但环境中仍存在一定数量的不稳定复合物,复合物内的蛋白质之间的相互作用是瞬时的,动态变化的,以实验为基础的研究方法很难捕捉到这些蛋白质复合物,而且实验成本十分昂贵。基于进化模型的物种比较方法依据不同物种间的同源信息及进化过程中同一复合物内的蛋白质或集体保留或集体消失的机制,通过两个或多个物种的比较分析识别那些在物种进化过程中保守的蛋白质复合物。这种基于进化模型的物种比较方法在一定程度上提高了识别的蛋白质复合物的可靠性,但该方法以蛋白质的同源信息为基础,对两个蛋白质的同源程度本身的把握就是一个难题,基于同源去识别蛋白质复合物就变得更加困难。基于多信息集成的分析方法则是依据已知数据库中的蛋白质功能注释、蛋白质结构、基因表达、亚细胞定位、蛋白质相互作用等信息在整个基因组规模上进行研究。Zoltán Dezso等人基于假定mRNA共表达的一组蛋白质可-->能调节相同功能的假说,通过分析mRNA共表达系数来识别蛋白质复合物。虽然基因表达和蛋白质相互作用之间的相互关系能够揭示出这些数据内部之间的总体趋势,但基因表达水平未必能够真正代表蛋白质丰度,特别是高通量方法产生的蛋白质相互作用数据具有较高的假阳性,蛋白质相互作用信息和基因表达信息之间的关系非常复杂。目前,普遍的做法是基于蛋白质相互作用信息进行聚类分析,将蛋白质相互作用数据表示成一个无向图,蛋白质复合物对应于其中的稠密子图,应用各种聚类算法来识别这些稠密子图(又称为“簇/Cluster”,即蛋白质复合物)。已经提出的聚类方法主要有SPC方法、MCODE方法,RNSC方法、LCMA方法、DPClus方法、CFinder方法和STM方法等。SPC(Super Paramagnetic Clustering)是一种层次聚类法。SPC方法模拟铁磁模型的物理特性,给每个蛋白质设定“spin”,每个spin可以存在多种状态。对应连接的两个顶点的spins之间互相影响,spins处于相同状态时系统的能量最低。同一个高连通簇内的顶点对应的spins以关联的方式进行浮动,可以通过识别关联的spins来识别蛋白质复合物。根据Brohée和Helden在BMCBioinformatics上给出的评估结果,SPC方法的敏感度和健壮性都较弱。MCODE(Molecular Complex Detection)是一种基于密度的局部搜索方法。MCODE方法首先根据每个顶点对应邻居顶点的密度计算出所有顶点权重,并将权重最大的顶点作为种子,从种子顶点不断地向外扩展,扩展的条件是被扩展的顶点权重大于给定阈值。但是,由于权重大的顶点彼此之间的连接并不一定稠密,MCODE方法并不能保证得到的簇是稠密的,对于那些稀疏的子图还需要进一步处理。RNSC是一个基于成本的局部搜索方法。RNSC方法首先随机地将蛋白质相互作用网络分为若干个独立簇,定义一个成本函数,然后不断地将一个簇内蛋白质移至另一个簇来降低整体成本,直到这种移动次数超过事先设定的阈值而没有使整体成本下降。RNSC方法的缺陷在于结果质量与方法开始生成簇的质量关系密切,此外每个蛋白质只属于一个簇与蛋白质可能参与多个复合物的事实不符。LCMA是一个基于局部团合并的方法。LCMA方法首先将每个蛋白质顶点扩充成为一个团,再根据这些团之间的密切关系进行合并。DPClus和MCODE类似,也是一种基于密度的局部搜索方法。DPClus方法首先计算出可能的蛋白质复合物种子,然后从种子顶点开始不断地向外扩展,被扩展的顶点需要满足密度和簇性质的要求。CFinder是一种基于团渗透的方法,该方法将蛋白质复合物对应于图中相互连通的若干k--->团的集合。由于CFinder需要枚举网络中的所有极大团,所以对于规模比较大的网络其效率成为难以克服的瓶颈。STM是一种流方法,首先计算出网络中任意两个顶点之间的最短路径,并在此基础上计算出任意两个顶点之间的信号传导关系,然后为每个顶点选择一个簇表达,并在此基础上进行初步聚类,最后对这些初步获得的簇进行合并。在上述这些方法中,基于局部搜索和优化的聚类方法更适用于识别比较小的簇,而大多数蛋白质复合物都比较小,规模为5至25不等。基于局部搜索和优化的聚类方法的难点在于种子的选择和扩充条件的制定,特别是扩充条件对产生蛋白质复合物的质量有很大的影响。
技术实现思路
本专利技术基于对已知复合物内蛋白质之间的最短距离一般不超过2的发现,提出了一种基于距离判定的蛋白质复合物识别方法(IPCA)。该方法不需要其它任何辅助信息,只根据蛋白质相互作用数据就能够较准确地识别大量具有生物意义的蛋白质复合物,解决了化学实验方法很难识别动态蛋白质复合物的难题,而且节约了成本,并且一次可以预测出大量的蛋白质复合物。本专利技术的技术方案为:建立蛋白质相互作用无向图:输入一组蛋白质相互作用数据,设置允许的蛋白质顶点之间的最短距离的最大值Din,和一个大小在(0,1)之间的阈值Tin,过滤重复的相互作用和自相互作用,建立无向图;计算顶点权重:计算出网络中每条边的权重,边权重定义为边的两个顶点的公共邻居顶点个数;然后,将每个顶点连接的边的权重求和,计算出网络中所有顶点的权重,并根据权重对这些顶点按从大到小进行排序,放入一个候选种子队列Sq中;如果两个顶点的权重相同,或顶点的权重为0,则根据顶点度对顶点进行排序;选择种子:若所述候选种子队列Sq不为空,将队列Sq的首个顶点,即权重最大的顶点作为种子,并初始化为一个簇,将该种子作为识别的蛋白质复合物的初始状态进行扩充;每扩充完一个簇,队列Sq中对应的该簇内的顶点被删除;队列Sq为空时,整个识别过程结束;扩充簇:根据簇的所有邻居顶点对簇进行扩充;所述簇的邻居顶点指与簇内的顶点有直接相互作用且不在簇内的顶点;簇的每个邻居顶点都拥有一个被扩充的优先权,由该顶点与簇内顶点连接的边数以及边的权重之和决定;首先考虑优先权最高的邻居顶点作为候选的扩充顶点,候选的扩充顶点是否会被扩充需要调用扩充判断子过程对其进行判断,符合本文档来自技高网
...

【技术保护点】
一种基于距离判定的蛋白质复合物识别方法,其特征在于包括以下步骤:(1)建立蛋白质相互作用无向图:输入一组蛋白质相互作用数据,设置允许的蛋白质顶点之间的最短距离的最大值D↓[in],和一个大小在(0,1)之间的阈值T↓[in],过滤重 复的相互作用和自相互作用,建立无向图;(2)计算出网络中每条边的权重,边权重定义为边的两个顶点的公共邻居顶点个数。然后,将每个顶点连接的边的权重求和,计算出网络中所有顶点的权重,并根据权重对这些顶点按从大到小进行排序,放入一个候选种 子队列S↓[q]中;如果两个顶点的权重相同,或顶点的权重为0,则根据顶点度对顶点进行排序;(3)选择种子:若所述候选种子队列S↓[q]不为空,将队列S↓[q]的首个顶点,即权重最大的顶点作为种子,并初始化为一个簇,将该种子作为识别的 蛋白质复合物的初始状态进行扩充;每扩充完一个簇,队列S↓[q]中对应的该簇内的顶点被删除;队列S↓[q]为空时,整个识别过程结束;(4)扩充簇的过程为:根据簇的所有邻居顶点对簇进行扩充;所述簇的邻居顶点指与簇内的顶点有直接相互作用且 不在簇内的顶点;簇的每个邻居顶点都拥有一个被扩充的优先权,由该顶点与簇内顶点连接的边数以及边的权重之和决定;首先考虑优先权最高的邻居顶点作为候选的扩充顶点,候选的扩充顶点是否会被扩充需要调用扩充判断子过程对其进行判断,符合扩充条件的候选扩充顶点才能被加入簇;一旦有一个新的候选扩充顶点被加入簇,簇的邻居顶点就进行更新,并重新计算其优先权;(5)所述扩充判断的过程为:判断一个候选的扩充顶点是否符合两个条件:1)SP(v,u)≤D↓[in],u∈C;2)IN↓[vC]≥T↓ [in],若符合就将其加入该簇,并调用扩充簇子过程对其作进一步的扩充;若不符合,且所有的邻居顶点都已作过候选扩充顶点被考察过,则对该簇的扩充结束;若仍存在未被考察的邻居顶点,则将下一个优先权最高的邻居顶点作为候选扩充顶点;所述SP(v,u)表示蛋白质顶点v和蛋白质顶点u之间的最短距离,C表示蛋白质复合物内的蛋白质顶点集;T↓[in]越大,识别的蛋白质复合物越稠密;所述IN↓[vC]是指某个蛋白质顶点v与蛋白质复合物之间的作用概率。...

【技术特征摘要】
1.一种基于距离判定的蛋白质复合物识别方法,其特征在于包括以下步骤:(1)建立蛋白质相互作用无向图:输入一组蛋白质相互作用数据,设置允许的蛋白质顶点之间的最短距离的最大值Din,和一个大小在(0,1)之间的阈值Tin,过滤重复的相互作用和自相互作用,建立无向图;(2)计算出网络中每条边的权重,边权重定义为边的两个顶点的公共邻居顶点个数。然后,将每个顶点连接的边的权重求和,计算出网络中所有顶点的权重,并根据权重对这些顶点按从大到小进行排序,放入一个候选种子队列Sq中;如果两个顶点的权重相同,或顶点的权重为0,则根据顶点度对顶点进行排序;(3)选择种子:若所述候选种子队列Sq不为空,将队列Sq的首个顶点,即权重最大的顶点作为种子,并初始化为一个簇,将该种子作为识别的蛋白质复合物的初始状态进行扩充;每扩充完一个簇,队列Sq中对应的该簇内的顶点被删除;队列Sq为空时,整个识别过程结束;(4)扩充簇的过程为:根据簇的所有邻居顶点对簇进行扩充;所述簇的邻居顶点指与簇内的顶点有直接相...

【专利技术属性】
技术研发人员:王建新李敏
申请(专利权)人:中南大学
类型:发明
国别省市:43[中国|湖南]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1