当前位置: 首页 > 专利查询>中南大学专利>正文

基于基因表达与亚细胞定位信息的蛋白质网络精炼方法技术

技术编号:13674570 阅读:73 留言:0更新日期:2016-09-07 23:54
本发明专利技术公开了基于基因表达与亚细胞定位信息的蛋白质网络精炼方法,利用时间相关模型与时间不相关模型过滤基因表达数据;对S‑PIN中的每条边e(u,v),如果边e连接的两个蛋白质节点u和v在所有时间点都不同时满足活性的判决条件,则将边e(u,v)从S‑PIN中移除;对S‑PIN中的每条边e(u,v),如果边e连接的两个蛋白质节点u和v不出现在任意一个共同的亚细胞位置中,则将边e(u,v)从S‑PIN中移除;输出过滤后的S‑PIN的边集E,即为精炼后的蛋白质网络TS‑PIN。有效提高基于网络的关键蛋白质预测方法预测关键蛋白质的准确率。

【技术实现步骤摘要】

本专利技术属于系统生物学
,涉及蛋白质相互作用网络中关键蛋白质的识别,具体涉及基于基因表达与亚细胞定位信息的蛋白质网络精炼方法
技术介绍
多物种全基因组测序的完成以及人类基因组计划的开展,使生命科学研究的重点正在从基因组学向蛋白质组学转移。所有的生物,包括人类和细菌,蛋白质都是其构成所有细胞和组织结构无法或缺的部分。它能构成维持机体新陈代谢所需要的各种酶类以及与机体免疫反应息息相关的抗体,还参与构成调节人体各种生理机能的激素,是生命活动极其重要的物质基础。Winzeler等通过基因剔除式突变将某些重要的蛋白移除后会造成相关的蛋白质复合物失去功能,继而使生物体无法维持生存。所以我们认为在生命活动中,不同蛋白质的重要性是有区别的。于是我们将蛋白质分为两类:关键蛋白质(essential proteins)和非关键蛋白质(non-essential proteins)。关键蛋白质是生物体生存和繁殖所必需的蛋白质。由于关键蛋白质在生命活动中扮演重要角色,因此对于关键蛋白质的预测与识别成为一项重要的研究工作。过去关键蛋白在生物学上的识别主要通过生物实验,像RNA干扰、单基因敲除、条件性基因剔除等。与计算生物学相比,使用生物技术固然能得到有效的结论,但是代价相对高而效率相对低,并且适用的物种范围有局限性。所以,使用计算生物学的方法来预测关键蛋白质是该领域的又一个值得研究的方向。随着酵母双杂交、串联亲和纯化、质谱分析、蛋白质芯片和噬菌体显示等高通量蛋白质组技术的发展,以及基于计算生物学的蛋白质相互作用预测技术的日趋成熟,可获得的蛋白质相互作用数据迅速增长,大量的蛋白质相互作用数据已经被收录在公开数据库中以供下载。然而,不管是根据高通量蛋白质组技术测定的还是通过生物信息学方法预测的蛋白质相互作用数据,都普遍存在大量的假阳性数据和假阴性数据。假阳性和假阴性的存在使数据集的可靠性大大降低,并且不同方法预测得到的相互作用数据差异较大,目前蛋白质相互作用数据仍然存在较高的不准确性。数据的这种不准确性阻碍了蛋白质组学的相关研究,也严重影响了基于网络水平的关键蛋白质识别的正确性。尽管基于拓扑的方法能直接预测关键蛋白质而不需要已知的关键蛋白质集合,但这些方法同样存在一定的局限性。我们所用到的PPI数据是不完整的,包含了许多假阳性和假阴性数 据,这些数据会对预测结果产生影响,而大多数中心性算法仅仅使用了网络的拓扑特性,这就对我们网络的准确性提出了更高的要求。
技术实现思路
本专利技术的目的是提供一种基于基因表达与亚细胞定位信息的蛋白质网络精炼方法,提高基于网络的关键蛋白质预测方法预测关键蛋白质的准确率,解决现有预测方法对蛋白质相互作用网络的噪声敏感的问题。本专利技术所采用的技术方案是,基于基因表达与亚细胞定位信息的蛋白质网络精炼方法,具体按照以下步骤进行:步骤1,使用生物相关数据集,包括蛋白质相互作用网络、时间序列下的基因表达数据、蛋白质亚细胞位置信息;步骤2,利用时间相关模型与时间不相关模型过滤时间序列下的基因表达数据;对每一个蛋白质v计算其活性阈值Active_th(v),如果该蛋白质v在时刻i对应的基因表达值大于活性阈值,即EV(v,i)>Active_th(v),则表明蛋白质v在时刻i是活跃的,记作ti(v)=1;步骤3,对S-PIN中的每条边e(u,v),如果边e连接的两个蛋白质节点u和v在所有时间点都不同时满足活性的判决条件,即在所有的时刻都不存在EV(u,i)>Active_th(u)和EV(v,i)>Active_th(v)同时成立,则将边e(u,v)从S-PIN中移除;对S-PIN中的每条边e(u,v),如果边e连接的两个蛋白质节点u和v不出现在任意一个共同的亚细胞位置中,则将边e(u,v)从S-PIN中移除;输出过滤后的S-PIN的边集E,即为精炼后的蛋白质网络TS-PIN。本专利技术的特征还在于,进一步的,具体按照以下步骤进行:步骤1,使用生物相关数据集,包括蛋白质相互作用网络、时间序列下的基因表达数据、蛋白质亚细胞位置信息;称原始的蛋白质相互作用网络为S-PIN,它包含了在不同时间不同亚细胞位置表达的蛋白质相互作用边,S-PIN用无向图G(V,E)表示,V={v1,...,vn本文档来自技高网
...

【技术保护点】
基于基因表达与亚细胞定位信息的蛋白质网络精炼方法,其特征在于,具体按照以下步骤进行:步骤1,使用生物相关数据集,包括蛋白质相互作用网络、时间序列下的基因表达数据、蛋白质亚细胞位置信息;步骤2,利用时间相关模型与时间不相关模型过滤时间序列下的基因表达数据;对每一个蛋白质v计算其活性阈值Active_th(v),如果该蛋白质v在时刻i对应的基因表达值大于活性阈值,即EV(v,i)>Active_th(v),则表明蛋白质v在时刻i是活跃的,记作ti(v)=1;步骤3,对S‑PIN中的每条边e(u,v),如果边e连接的两个蛋白质节点u和v在所有时间点都不同时满足活性的判决条件,即在所有的时刻都不存在EV(u,i)>Active_th(u)和EV(v,i)>Active_th(v)同时成立,则将边e(u,v)从S‑PIN中移除;对S‑PIN中的每条边e(u,v),如果边e连接的两个蛋白质节点u和v不出现在任意一个共同的亚细胞位置中,则将边e(u,v)从S‑PIN中移除;输出过滤后的S‑PIN的边集E,即为精炼后的蛋白质网络TS‑PIN。

【技术特征摘要】
1.基于基因表达与亚细胞定位信息的蛋白质网络精炼方法,其特征在于,具体按照以下步骤进行:步骤1,使用生物相关数据集,包括蛋白质相互作用网络、时间序列下的基因表达数据、蛋白质亚细胞位置信息;步骤2,利用时间相关模型与时间不相关模型过滤时间序列下的基因表达数据;对每一个蛋白质v计算其活性阈值Active_th(v),如果该蛋白质v在时刻i对应的基因表达值大于活性阈值,即EV(v,i)>Active_th(v),则表明蛋白质v在时刻i是活跃的,记作ti(v)=1;步骤3,对S-PIN中的每条边e(u,v),如果边e连接的两个蛋白质节点u和v在所有时间点都不同时满足活性的判决条件,即在所有的时刻都不存在EV(u,i)>Active_th(u)和EV(...

【专利技术属性】
技术研发人员:李敏陈骁培王建新
申请(专利权)人:中南大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1