一种融合多数据特征预测关键蛋白质的计算方法技术

技术编号:20047578 阅读:46 留言:0更新日期:2019-01-09 05:01
本发明专利技术公开了一种融合多数据源预测关键蛋白质的计算方法。该方法通过分析关键蛋白质所体现的聚集性、共表达性、功能相似性、位置一致性的特征,有效融合蛋白质相互作用网络的边聚类系数、基因表达值的皮尔逊相关系数、基因本体术语的语义相似性指数以及蛋白质亚细胞定位统计特征。本发明专利技术方法简单易用,输入蛋白质相互作用关系数据、基因表达谱数据、基因本体术语信息数据以及蛋白质亚细胞定位数据信息这四种数据,经测试验证,和已有方法相比本发明专利技术提出的方法可以显著提高蛋白质相互作用网络中关键蛋白的预测精度和效率。

【技术实现步骤摘要】
一种融合多数据特征预测关键蛋白质的计算方法
本专利技术涉及数学与生物学交叉领域,具体涉及基于生物多种数据源来识别蛋白质相互作用网络中关键蛋白质的计算方法。
技术介绍
蛋白质是构成细胞的基因有机物质,是生命活动的主要参与者,在维持正常生理活动中扮演着非常重要的角色。关键蛋白质是在维持生物体正常生命活动所必须的蛋白质,一旦这类蛋白质发生异常将会导致生物体正常生理活动失调甚至引起疾病。研究表明,关键蛋白质与致病基因、药物靶标设计以及个性化医疗治疗都有密不可分的联系,有效识别关键蛋白质有助于对疾病的致病机理和药物分子靶标的研究。传统的生物学实验一般采用基因敲除、RNA干扰等方法来识别关键蛋白质,由于生物学实验周期长、花费高、效率低、而且只能在有限的物种上面进行实验,很难满足当前生物领域快速发展的需求。随着近些年来高通量生物学技术的快速发展,人们可以获得大量的高通量数据,例如:蛋白质相互作用数据、基因功能注释信息数据、基因时序表达数据、蛋白质子细胞定位数据等等,这为从计算的角度预测关键蛋白质提供了条件。基于这些数据,如何从数学角度有效挖掘这些数据之间蕴含的内在特性,设计数学计算方法来从计算角度预测关键蛋白质是目前比较热门的研究领域。已有的研究成果显示,一个蛋白质是否为关键蛋白质取决于这个蛋白质在生物分子网络中所对应节点的拓扑结构和生物学特性。近些年来国内外学者提出了很多预测关键蛋白质的计算方法,从早期的基于蛋白质相互作用网络拓扑结构特征的方法,如连接度中心性(DegreeCentrality,DC),介数中心性(Betweennesscentrality,BC),边聚类系数中心性(EdgeClusteringCoefficientcentrality,ECC),子图中心性(SubgraphCentrality,SC),特征向量中心性(EigenvectorCentrality,EC)和邻居中心性(NeighborCentrality,NC)等来将蛋白质按照这些数值的大小排序,从而进行关键蛋白质预测。这些基于拓扑结构特征的方法预测精度依赖于蛋白质相互作用网络数据的可靠性,而目前通过高通量技术得到的蛋白质相互作用含有较大的假阳性等噪声数据,很大程度限制了基于网络拓扑结构特征方法的预测精度。随着多种生物学数据的涌现,研究者发现有效结合多种数据信息可以减少蛋白质相互作用网络数据中噪声对预测精度的影响、显著提高关键蛋白质的预测效率。例如:结合网络拓扑结构和基因表达数据等的方法有Pec,CoEWC等、结合网络结构和GO术语的注释信息数据的有GEG,TEO方法、结合网络结构和蛋白质亚细胞定位数据信息的CIC,SCP方法以及结合网络结构与蛋白质直系同源信息数据的ION方法等。虽然上述综合多数据源方法在预测关键蛋白质精度上有所提高,但是,目前预测关键蛋白质的精度和效率仍有待提高。
技术实现思路
为解决
技术介绍
中提到的问题,本专利技术旨在提供一种新的基于多数据源融合的方法来预测蛋白质相互作用网络中关键蛋白质。本专利技术采用以下技术方案:一种基于多数据源融合预测关键蛋白质的计算方法,具体操作按照以下步骤进行:(1)基于蛋白质相互作用网络,计算相互作用连边的聚类系数;(2)计算蛋白质相互作用网络中每条连边(u,v)的两个蛋白质u,v对应基因的共表达相关性,基于已有基因的时序表达数据,采用皮尔逊相关系数计算所有相互作用蛋白质对的共表达相关系数;(3)根据蛋白质相互作用数据中的任意一对蛋白质相互作用关系的两个蛋白,找出这两个蛋白在对应基因本体(GO)被注解术语注释编号(GO-id),然后根据基因语义相似性计算方法计算这一对蛋白质之间的功能相似性,依次类推,计算所有相互作用蛋白质对的功能相似性值;(4)统计已知关键蛋白质的亚细胞定位信息,计算已知关键蛋白质所处亚细胞定位的概率;统计蛋白质相互作用网络中每条连边(u,v)对应蛋白质u,v的亚细胞定位信息,计算网络中每条连边对应蛋白质组的亚细胞定位信息的交集;(5)由上述步骤得到的网络边聚类系数,共表达相关性,功能相似性数据和蛋白质亚细胞定位统计数据按照公式(4)计算每个蛋白质的关键值,并将关键值从大到小进行排序,值越大说明这个蛋白质为关键蛋白质的可能性越大。本专利技术公开了一种融合多数据源(蛋白质相互作用网络数据、基因表达数据、GO术语的语义信息数据以及蛋白质亚细胞定位数据信息)来预测关键蛋白质的计算方法。本方法有效挖掘关键蛋白质内在特性,将关键蛋白质在网络中的拓扑属性、关键蛋白质之间共表达相关性、功能相似性以及亚细胞定位的统计特性有效的结合在一起,提出了新的预测关键蛋白质的计算方法。本专利技术的技术效果是:本专利技术与现有的技术相比,在考虑蛋白质相互作用网络拓扑结构特性的基础上,结合基因表达时序数据、基因本体语义功能注释信息数据和蛋白质亚细胞定位信息数据,整合这四组数据来预测关键蛋白,能有效的减少单个数据源数据噪声对预测准确性的影响,本专利技术提出的方法在预测准确度上与已有方法相比具有明显优势,能有效解决了生物实验的昂贵成本和时间周期长等问题,可为生物学家进行生物学验证提供可靠依据。附图说明图1为本专利技术TEGS方法与其它六种中心性度量方法DC、BC、NC、Pec、WDC、TEO在测试数据下预测正确的关键蛋白个数比较图,其中N分别取100、200、300、400、500、600对应的子图表示预测的前N个关键蛋白质中各种方法预测正确的关键蛋白质个数比较。图2为本专利技术TEGS方法与其它六种中心性度量DC、BC、NC、Pec、WDC、TEO在测试数据下Jackknife方法的jackknife曲线图。X轴表示按照各个关键蛋白质预测方法排序,排在前面的蛋白质个数;Y轴表示预测正确的关键蛋白质累计数目。图3为本专利技术TEGS方法与其它六种中心性度量DC、BC、NC、Pec、WDC、TEO在测试数据下precision-recall曲线比较图。具体实施方式下面将结合附图和具体实施方式详细说明本专利技术所具有的有益效果,旨在帮助阅读者更好地理解本专利技术的实质,但不能对本专利技术的实施和保护范围构成任何限定。鉴于酵母的蛋白质相互作用关系数据和关键蛋白质数据是目前所有物种中最为完整的,为了测试本专利技术的有效性,采用酵母数据用于接下来的验证分析。本专利技术中用于测试的酵母蛋白质相互作用关系数据来源于DIP数据库2010年10月的数据,剔除掉重复的和自相互作用数据后,最终得到一个包含5093个蛋白质和24743条连边的蛋白质相互作用网络数据;从GEO(GeneExpressionOmnibus)数据库中下载酵母的基因表达数据(GSE3431),该基因表达数据包含6,777个基因产物对应的36个时间点的表达值;从GeneOntologyConsortium数据库中下载酵母的GO注释语义信息数据,截止日期是2015-3-4;酵母蛋白质的亚细胞定位数据来源于COMPARTMENTS数据库,该数据中酵母蛋白质分别被11种亚细胞定位注释,分别为细胞骨架、细胞核、内质网、细胞质、高尔基体、线粒体、核内体、细胞膜、溶酶体、细胞外基质和液泡。已知酵母的关键蛋白质一共包含1285个关键蛋白,这些数据从MIPS(MunichInformationcenterforPro本文档来自技高网
...

【技术保护点】
1.一种融合多数据特征预测关键蛋白质的计算方法,包括如下步骤:步骤1:基于已有蛋白质相互作用关系数据,构建蛋白质相互作用关系的邻接矩阵,采用以下的边聚类系数公式计算连边(u,v)的聚类系数:

【技术特征摘要】
1.一种融合多数据特征预测关键蛋白质的计算方法,包括如下步骤:步骤1:基于已有蛋白质相互作用关系数据,构建蛋白质相互作用关系的邻接矩阵,采用以下的边聚类系数公式计算连边(u,v)的聚类系数:其中du和dv分别为节点u和v的度,表示由边(u,v)构成的在这个网络中三个节点相连组成三角形个数;步骤2:根据基因时序表达数据计算基因之间的表达相关性,具体采用皮尔逊相关系数公式计算每对蛋白质相互作用关系下对应的基因对之间两基因之间的表达相关性,一对基因X和Y之间的表达相关性计算皮尔逊相关系数定义如下:其中n是基因表达值数据的样本数目;Xi是第i个基因的表达水平,std(X)表示X的标准差;步骤3:基于下载酵母基因本体术语注释信息数据,找出蛋白质相互作用关系数据中每个蛋白质u对应的基因本体术语的编号信息(GO-id(u)),这样每一对相互作用的两个蛋白质(u,v)对应的一对基因本体术语在生物过程信息下的编号(GO-id(u),GO-id(v));采用统计软件R中工具箱GOSim来计算蛋白质相互作用关系数据对应的基因本体术语在生物过程下的相似度GOsim(u,v);步骤4:基于下载的酵母蛋白质亚细胞定位数据...

【专利技术属性】
技术研发人员:张伟徐佳
申请(专利权)人:华东交通大学
类型:发明
国别省市:江西,36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利