一种识别蛋白质相互作用网络中关键蛋白质的方法技术

技术编号:12782077 阅读:155 留言:0更新日期:2016-01-28 01:13
本发明专利技术公开了一种识别蛋白质相互作用网络中关键蛋白质的方法,根据蛋白质相互作用数据,构建无向图G,计算图的边聚类系数,本发明专利技术与现有的技术相比,在考虑蛋白质相互作用网络拓扑结构特性的基础上,结合基因表达谱数据和基因功能注释信息数据,整合三组数据来预测关键蛋白,能有效的减少单个数据源数据噪声对预测准确性的影响,通过计算蛋白质相互作用网络的边聚类系数、基因表达值的皮尔逊相关系数以及基因功能相似性指数这三类数据所体现的关键蛋白特性结合起来预测网络中关键蛋白,本发明专利技术可以显著提高蛋白质相互作用网络中关键蛋白的识别准确度,并且可以一次预测出大量的关键蛋白质,解决了生物实验方法的昂贵成本和耗时的问题。

【技术实现步骤摘要】

本专利技术设及生物信息学领域,尤其设及一种识别蛋白质相互作用网络中关键蛋白 质的方法。
技术介绍
蛋白质是构成生物组织器官的支架和主要物质,它是生理功能的执行者,在生命 活动中起着非常重要的作用。关键蛋白质在维持生物体正常生理过程中起着至关重要的作 用,一旦移除运些蛋白质会造成相关蛋白质复合物和功能模块的生物功能丧失,导致生物 体无法完成正常的生理活动,最终导致生物体生理活动失调或者死亡。有效的预测关键蛋 白质对研究细胞的生理调控机制具有非常重要的生物意义,对药物祀标设计也具有很重要 的实际价值。 在生物学领域,一般采取基因敲除、RNA干扰等生物实验的方法控制相关蛋白后通 过观察生物体能否正常执行生命活动来判别一个蛋白是否是关键蛋白。利用生物实验的方 法预测关键蛋白的方法虽然比较准确,但是生物实验周期长而且代价高。近些年来,随着 高通量技术的发展,获得了大量的蛋白质相互作用、基因时序表达、基因功能注释信息等数 据,运为从网络水平上预测关键蛋白质提供了条件。 已有的研究成果显示,一个蛋白质是否是关键蛋白质取决于运个蛋白质在生 物分子网络中所对应节点的拓扑特性和生物功能特性。近些年来,出现了大量的网络 中屯、性预测方法,典型的基于网络拓扑结构的有:度中屯、性(degreecentrality,DC), 介数中屯、性化etweennesscentrality,BC),边聚类系数中屯、性(edgeclustering coefficientcentrality,ECC),子图中屯、性(subgraphcentrality,SC)和特征向量中屯、 性(eigenvectorcentrality,EC)等。 阳〇化]由于目前通过高通量技术得到的蛋白质相互作用含有较大的假阳性、假阴性等噪 声数据,为了减少噪声的影响,近几年来出现了结合网络拓扑结构跟其它生物信息数据比 如基因表达数据等的方法有化C,CoEWC等方法。
技术实现思路
本专利技术的目的在于提供,通过 计算蛋白质相互作用网络的边聚类系数、基因表达值的皮尔逊相关系数W及基因功能相似 性指数运Ξ个不同的层面来刻画关键蛋白的特性,有效的将运Ξ种特性结合起来预测关键 蛋白,本专利技术不需要借助已有关键蛋白信息,准确度高,有效解决了生物实验的昂贵成本和 时间周期长等问题。 为解决上述技术问题,本专利技术采取的技术方案是:通过计算蛋白质相互作用网络 的边聚类系数、基因表达值的皮尔逊相关系数W及基因功能相似性指数,只需要根据网络 拓扑结构信息,基因表达谱信息W及基因功能相似性信息就能准确地预测未知关键蛋白, 本专利技术具体实现步骤为:1)根据蛋白质相互作用数据,构建无向图G,计算图的边聚类系 数;2)根据基因表达谱,找出蛋白质相互作用数据中蛋白质对应基因的表达谱,计算蛋白 质相互作用数据中任意一对蛋白质相互作用的两个蛋白对应基因表达谱的皮尔逊相关系 数,依次类推,计算所有相互作用蛋白质对的皮尔逊相关系数;3)根据蛋白质相互作用数 据中的任意一对蛋白质相互作用关系的两个蛋白,找出运两个蛋白对应基因的功能注释编 号,然后根据基因功能相似性计算方法计算运一对蛋白质之间的功能相似性,依次类推,计 算所有相互作用蛋白质对的功能相似性值;4)由上述步骤得到的网络边聚类系数,基因功 能相似性数据和基因表达相关性数据按照公式(3)计算每个蛋白质的关键值排名,值越大 说明运个蛋白质越重要。 本专利技术的技术效果是:本专利技术与现有的技术相比,在考虑蛋白质相互作用网络拓 扑结构特性的基础上,结合基因表达谱数据和基因功能注释信息数据,整合运Ξ组数据来 预测关键蛋白,能有效的减少单个数据源数据噪声对预测准确性的影响,通过计算蛋白质 相互作用网络的边聚类系数、基因表达值的皮尔逊相关系数W及基因功能相似性指数运Ξ 类数据所体现的关键蛋白特性结合起来预测网络中关键蛋白,本专利技术可W显著提高蛋白质 相互作用网络中关键蛋白的识别准确度,并且可W-次预测出大量的关键蛋白质,解决了 生物实验方法的昂贵成本和耗时的问题。【附图说明】 图1为本专利技术TGE在结合Ξ种GO信息情况下与其它五种中屯、性度量方法 DC,BC,NC,C0EWC,Pec在测试数据1下关键蛋白预测结果的准确度比较图,其中N= 200 对应的子图表示预测的前200个关键蛋白质中各种方法预测正确的关键蛋白质个数比较; N= 400对应的子图表示预测的前400个关键蛋白质中各种方法预测正确关键蛋白质个数 比较;N= 600对应的子图表示预测的前600个关键蛋白质中各种方法预测正确关键蛋白 质个数比较。 图2为本专利技术TGE在结合Ξ种GO信息情况下与其它五种中屯、性度量 DC,BC,NC,C0EWC,Pec在测试数据2下关键蛋白预测结果的准确度比较图,其中N= 200 对应的子图表示预测的前200个关键蛋白质中各种方法预测正确的关键蛋白质个数比较; N= 400对应的子图表示预测的前400个关键蛋白质中各种方法预测正确关键蛋白质个数 比较;N= 600对应的子图表示预测的前600个关键蛋白质中各种方法预测正确关键蛋白 质个数比较。 1 ] 图3为本专利技术TGE在结合Ξ种GO信息情况下与其它五种中屯、性度量DC,BC,NC,C0EWC,Pec在两组测试数据下化ckknife方法的验证比较图:图A为在测试数据 1下的比较结果,图B为在测试数据2下的比较结果。【具体实施方式】 下面将结合实施例详细说明本专利技术所具有的有益效果,旨在帮助阅读者更好地理 解本专利技术的实质,但不能对本专利技术的实施和保护范围构成任何限定。 由于酵母是目前研究最为广泛的物种,而且积累了一些实验测定的酵母关键蛋白 质信息。为了证实本专利技术方法的有效性,将酵母的数据作为测试验证。本专利技术从DIP(蛋白 质相互作用数据库)中下载酵母的蛋白质相互作用网络数据,剔除掉重复的和自相互作用 数据后,最终得到一个包含5093个酵母蛋白质和24743对相互作用的网络作为测试数据1, 另外从文献库中捜集由质谱测量技术和酵母双杂交技术得到的综合的蛋白质相互作用网 络数据,剔除重复和自相互作用W及孤立点数据后得到一个包含3861个酵母蛋白,19165 对相互作用的网络数据作为测试数据2 ; 从GE0(GeneExpressionOmnibus)数据库中下载酵母的基因表达时间序列值, 得到6, 777个基因产物对应的36个时间点的表达值;从G0(Gene化tology)数据库中下 载酵母的基因功能注释信息数据,截止日期是2015-3-4。实验测试所用的关键蛋白质数据 来源于MIPS(MunichInformationcenterforProteinSequences),SGD(Saccharomyces GenomeDatabase),DEG(DatabaseofEssentialGenes)和SGDP(SaccharomycesGenome DeletionProject)四个数据库,一共有1285个关键蛋白。经过统计,实验所用的酵母蛋白 质相互作用网络数据中共有5093个蛋白,其中1167个是关键蛋白,3591个是非关键蛋白, 剩余的335个蛋白质的关键性未知。 通过对已知数据的研究发现网络中的关键蛋白总是会形成连接紧本文档来自技高网
...
一种<a href="http://www.xjishu.com/zhuanli/55/CN105279397.html" title="一种识别蛋白质相互作用网络中关键蛋白质的方法原文来自X技术">识别蛋白质相互作用网络中关键蛋白质的方法</a>

【技术保护点】
一种识别蛋白质相互作用网络中关键蛋白质的方法,所述方法包括如下步骤:步骤1:建立蛋白质相互作用网络,过滤其中重复的相互作用和子相互作用关系,基于蛋白质相互作用网络得到这个网络的邻接矩阵A,首先基于这个邻接矩阵计算每个节点的度,然后采用边聚类系数公式计算这个网络中节点u和节点v之间的聚类系数:Ecc(u,v)=Nu,v3min(du-1,dv-1)---(1)]]>其中du和dv分别为节点u和v的度。表示由边(u,v)构成的在这个网络中三个节点相连组成三角形子网的个数;步骤2:根据基因时序表达数据计算基因表达相关性,具体采用皮尔逊相关系数Pearson correlation coefficient(PCC)公式计算每对蛋白质相互作用关系下对应的基因对之间两基因之间的表达相关性。一对基因X和Y之间的表达相关性计算皮尔逊相关系数定义如下:PCC(X,Y)=1n-1Σi=1n(Xi-mean(X)std(X))(Yi-mean(Y)std(Y))---(2)]]>其中n是基因表达值数据的样本数目;Xi是第i个基因的表达水平;步骤3:根据蛋白质相互作用关系数据在基因功能注释信息数据库下载酵母基因功能注释信息数据,然后找出蛋白质相互作用关系数据中每个蛋白质对应的基因功能编号信息GO‑id,这样每一对相互作用的两个蛋白质对应相互作用的一对基因功能编号信息;由于每个物种下基因功能注释信息包含三方面的功能信息,分别是生物过程信息Biological Process,分子功能信息Molecular function,细胞组成信息Cellular component,基于上述方法得到的基因功能编号相互作用信息数据,采用统计软件R中工具箱GOSemSim来计算蛋白质相互作用关系数据对应的三方面基因功能信息相似性,这样得到三组蛋白质相互作用关系对应的三方面相似性数据,分别是基因过程相似性、分子功能信息相似性、细胞组成相似性;步骤4:基于上述步骤中计算得到的网络边聚类系数,基因功能相似性数据和基因表达相关性数据,定义新的识别关键蛋白质的方法TGE如下,对于蛋白质相互作用数据中的一个蛋白u,TGE(u)的计算公式如下:TGE(u)=Σv∈N(u)Ecc(u,v)×(GO_sim(u,v)+PCC(u,v))---(3)]]>其中Nu表示节点u的所有邻居节点集合。...

【技术特征摘要】

【专利技术属性】
技术研发人员:张伟
申请(专利权)人:华东交通大学
类型:发明
国别省市:江西;36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1