当前位置: 首页 > 专利查询>中南大学专利>正文

一种基于结构域特征的关键蛋白质识别方法技术

技术编号:8131172 阅读:317 留言:0更新日期:2012-12-27 03:25
本发明专利技术公开了一种基于结构域特征的关键蛋白质识别方法。对于物种的全部蛋白质,该方法首先通过数据库或进行蛋白质序列分析等得到结构域信息,在结构域信息基础上统计各个结构域类型在蛋白质中出现次数,通过统计结果计算每个蛋白质的权重,权重越大蛋白质成为关键蛋白质的可能性越大。该方法简单有效,且仅基于蛋白质结构域信息,不依赖蛋白质相互作用网络信息等,避免了生物实验所消耗的大量人力物力。通过与随机方法比较,该方法能够较准确的识别关键蛋白质。

【技术实现步骤摘要】

本专利技术属于系统生物学领域,涉及。
技术介绍
蛋白质是构成一切细胞和组织结构必不可少的成分,是生命活动最重要的物质基础。细胞中并不是每个蛋白质都具有同等重要性,而是不同的蛋白质对生命活动的重要性不尽相同。通常那些被剔除后造成有关生物功能丧失,并导致生物体无法生存或致 病的蛋白质被称为关键蛋白质。关键蛋白质的识别能够从系统水平上为生物学、医学等提供有价值的信息,特别是在疾病诊疗、药物标靶设计、确定合成生物学上最小限度基因组(即包括一个物种全部关键基因)有重要的应用前景。目前,用于识别关键蛋白质的方法主要有三种( I)生物实验测定方法主要包括SGK (single gene knockouts)、RNA 干扰(RNA interference)、CK(conditional knockouts)和 WTM (who I e-genome transposon mutagenesis)等方法。通过生物实验可以准确地测定某一环境下的单个或几个关键蛋白质。但长期以来,生物实验方法因细胞培养等技术上的要求,只能在动物模型等上完成,如SGK基因敲除方法以小鼠建立动物模型。建立动物模型需要较长时间,进而观察和分析实验结果。另外,感染性细菌类生物,针对其进行关键蛋白质生物实验可行性较低。除耗时长久和物种局限外,生物实验成本十分昂贵且需投入大量人力物力。(2)基于多信息集成的分析方法为了提高识别关键蛋白质的准确率,有研究通过已知数据库中的蛋白质功能注释、蛋白质长度、基因表达、亚细胞定位、蛋白质相互作用网络等信息融合集成来评估蛋白质是否具关键性。基于多信息集成的分析方法大多使用机器学习等方法,如支持向量机,需已知部分关键蛋白质进行训练和分类。同时,多种数据信息虽然能够一定程度的校准关键蛋白质识别准确率,但各种评估关键蛋白质因素有其应用局限性。例如,用来评估关键性的流平衡分析FBA (flux balance analyses)需要在给定的特殊环境条件下对营养获取量和生物出产量有明确控制;载点(Load Points)和瓶颈(Choke Points)限于评估酶蛋白质是否具关键性。(3)基于蛋白质相互作用信息进行拓扑识别对关键蛋白质进行拓扑识别时,主要将蛋白质相互作用信息表示为无向图,即蛋白质相互作用网络,蛋白质抽象为图中对应结点。关键蛋白质为其中特殊结点,分析特殊结点所具网络拓扑特征,通过应用网络拓扑特征识别特殊结点。关键蛋白质所具网络拓扑特征主要包括中心性特征和相互作用边特征、功能模块特征等。拓扑识别关键蛋白质更适用于研究已经较为成熟的模式生物。相对于模式生物如酵母等,多数种类物种没有较为可靠的蛋白质相互作用网络,或蛋白质相互作用网络规模较小。基于蛋白质相互作用网络上进行关键蛋白质识别,识别水平依赖于蛋白质相互作用网络。不同蛋白质相互作用网络对关键蛋白质识别的质量有较大影响。同一物种不同数据库中蛋白质相互作用网络不尽相同,所识别关键蛋白质因此不尽相同。因此,有必要设计一种全新的关键蛋白质识别方法。
技术实现思路
本专利技术所要解决的技术问题是提供,该基于结构域特征的关键蛋白质识别方法简单有效,且仅基于蛋白质结构域信息,不依赖蛋白质相互作用网络信息等,避免了生物实验所消耗的大量人力物力。专利技术的技术解决方案如下,其特征在于,包括以下步骤步骤I :获取某一物种S的全部蛋白质,并获取每个蛋白质Pk的结构域类型集合 D (S,PkMD1, D2,. . . Dt. . . } ;I)(S) = U为物种S的全部结构域类型集合; Pk GS步骤2 :统计每个结构域类型Di在该物种S全部蛋白质中的出现次数fDi ;步骤3 :计算各个蛋白质Pk的权重wk,将各蛋白质按照权重Wk排序,权重Wk越大表明该权重Wk对应的蛋白质Pk越关键。步骤2的具体过程为首先初始化物种S的全部结构域类型集合D(S)为空,并开始遍历该物种S的全部蛋白质;对于蛋白质Pk,检查蛋白质Pk拥有的全部结构域类型集合D (S, Pk)中的每个元素Dt,若结构域类型Dt在D (S)中,则次数值fDt = fDt+l,否则将结构域类型Dt加入集合D(S)中并设置次数值fDt = I ;遍历完所有的蛋白质的包含的所有元素后,输出各个元素Dt的次数值fDt。步骤3中,蛋白质Pk对应的权重Wk的计算公式如下 Y丄 D(SyPk)^ φ=< DlED(S^pi) Zd1。 OΙ^,Ρ!:) = φ根据对现有可获得多类物种数据(包含已知关键蛋白质数据和已知蛋白质结构域数据)的分析,发现含有fDi越低结构域类型的蛋白质成为关键蛋白质的可能性越大,以此发现作为衡量一个蛋白质成为关键蛋白质的权重。fDi的倒数代表此结构域类型Di给出的权重,由加权值给出单个蛋白质权重。Di是属于蛋白质Pk的结构域类型。若D(及蛋白质Pk的权重wk为属于蛋白质Pk的各个结构域类型Di的fDi倒数之和;若£>(又则wk=O。有益效果本专利技术基于对已知关键蛋白质与结构域特征相关关系的发现,提出了(Ero)。该方法不需要其它大量辅助信息,如较高精确度的蛋白质相互作用网络,识别关键蛋白质没有物种限制和其它要求。识别一个物种的关键蛋白质时,仅根据该物种拥有的全部蛋白质信息就能够较准确的识别大量具有生物意义的关键蛋白质,避免了生物实验方法耗费大量人力物力和资金的缺陷,不依赖于蛋白质相互作用网络信息等。对于物种的全部蛋白质,该方法首先通过数据库或进行蛋白质序列分析等得到结构域信息,在结构域信息基础上统计各个结构域类型在蛋白质中出现次数,通过统计结果计算每个蛋白质的权重,权重越大蛋白质成为关键蛋白质的可能性越大。该方法简单有效,且仅基于蛋白质结构域信息,不依赖蛋白质相互作用网络信息等,避免了生物实验所消耗的大量人力物力。通过与随机方法比较,该方法能够较准确的识别关键蛋白质。本专利技术的方法摆脱了现有普遍依赖于蛋白质相互作用网络数据的计算方法,不受蛋白质相互作用网络普遍存在的比例较高的假阳性和假阴性影响,能够在无需获得辅助信息的情况下,完全基于蛋白质信息,有效地识别关键蛋白质,为生物学家进行关键蛋白质识别的实验和进一步研究提供有价值的参考信息。附图说明图I为基于结构域特征的关键蛋白质识别方法(Ero)的总体流程图;图2为不同物种下用结构域特征识别关键蛋白质方法和十次随机方法识别关键蛋白质的 PPV 曲线比较(图 A-L 分别为 CAEEL YEAST DANRE HUMAN MOUSE ACIAD ECOLIFRATN HAEIN PSEAB SALTI STAAN STAA8 这 13 个物种的对比图)。具体实施例方式以下将结合附图和具体实施例对本专利技术做进一步详细说明实施例I :基于对已知关键蛋白质的结构域特征发现,EPD将仅根据蛋白质的结构域信息来识别关键蛋白质。在识别过程中,结构域特征是指一种结构域类型在物种全部蛋白质的具体个数蛋白质中出现情况。给定一个物种S的全部蛋白质及其结构域或序列组成(可通过相关模型得出结构域,如隐形马尔科夫模型等),给出蛋白质成为关键蛋白质的概率排序或识别出此物种所拥有的关键蛋白质。基于结构域特征的关键蛋白质识别方法Ero的整个流程如图I所示,可以划分为以下几个步骤(I)建立本文档来自技高网
...

【技术保护点】
一种基于结构域特征的关键蛋白质识别方法,其特征在于,包括以下步骤:步骤1:获取某一物种S的全部蛋白质,并获取每个蛋白质Pk的结构域类型集合D(S,Pk)={D1,D2,...Dt…};为物种S的全部结构域类型集合;步骤2:统计每个结构域类型Di在该物种S全部蛋白质中的出现次数fDi;步骤3:计算各个蛋白质Pk的权重wk,将各蛋白质按照权重wk排序,权重wk越大表明该权重wk对应的蛋白质Pk越关键。FDA00001994256000011.jpg

【技术特征摘要】
1.一种基于结构域特征的关键蛋白质识别方法,其特征在于,包括以下步骤 步骤I:获取某一物种S的全部蛋白质,并获取每个蛋白质Pk的结构域类型集合2.根据权利要求I所述的基于结构域特征的关键蛋白质识别方法,其特征在于,步骤2的具体过程为首先初始化物种S的全部结构域类型集合D (S)为空,并开始遍历该物种S的全部蛋白质;对于蛋白质Pk,检查蛋白质Pk拥有的全部结构域类...

【专利技术属性】
技术研发人员:王建新成颖佼彭玮李敏
申请(专利权)人:中南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1