一种蛋白质亚叶绿体多位置预测方法技术

技术编号:13113136 阅读:53 留言:0更新日期:2016-04-01 09:04
本发明专利技术公开了一种蛋白质亚叶绿体多位置预测的方法,步骤为:抽取出蛋白质序列的伪氨基酸组成特征,分别为每个亚叶绿体位置训练一个支持向量机分类器;把亚叶绿体位置对于蛋白质样本的归属值追加到蛋白质的特征向量中,使用亚叶绿体位置来扩展蛋白质样本的特征空间;在扩展后的蛋白质特征空间中,利用遗传算法分别为每个亚叶绿体位置选取最优的扩展特征子集;基于每个亚叶绿体位置的最优扩展特征子集,分别训练一个支持向量机分类器;基于所得两组支持向量机分类器对待预测蛋白质进行蛋白质亚叶绿体多位置预测。本发明专利技术能够同时预测出蛋白质的多个亚叶绿体位置,且通过融合位置间关系和位置相关特征大幅度地提高了蛋白质亚叶绿体多位置预测的精度。

【技术实现步骤摘要】

本专利技术属于蛋白质亚细胞位置定位预测领域,尤其设及一种融合位置间关系与位 置相关特征的蛋白质亚叶绿体多位置预测方法
技术介绍
叶绿体(Chloroplast)是大部分绿色植物细胞中的细胞器,也存在于某些真核生 物体中,如海藻。叶绿体的主要功能是执行光合作用,吸收存储太阳的光能,转化成化学能, 并且释放氧气。除了光合作用外,它们也负责合成植物所需的几乎所有脂肪酸和参与植物 的免疫反应。位于叶绿体中的蛋白质在运些生物过程中起到十分重要的作用,并且在不同 的生物过程中扮演不同的角色,具有不同的功能。由于运些叶绿体蛋白质的功能和它们的 亚叶绿体位置有十分密切的关系,因此首先识别出它们的亚叶绿体位置对于了解它们的功 能很有帮助。 过去,研究人员主要专注于在细胞级别预测蛋白质的位置,提出了大量的方法。运 些方法分别从W下4个方面推进了该领域的发展: (1)不断拓宽了细胞位置的覆盖范围,使亚细胞位置预测工具的实用性大大增强。 最早的一些工作仅覆盖很少的位置信息。例如,化kashima等人(Nakashima,H. ,Nishikawa, Κ.Discrimination of intracellular and extracellular proteins using amino acid composition and residue-pair frequencies. Journal of Molecular Biology,1994, 238(1): 54-61)的研究仅仅覆盖了2个位置信息,Cedano等人(Cedano,J.,Aloy,P.,P' erez-Pons,J.A.,et al.Relation between amino acid composition and cellular location of proteins.Journal of Molecular Biology, 1997,266:594-600)的工作覆盖了5个位置 信息。随着越来越多的蛋白质数据可用,位置数量已经增加到了 22个。 (2)大大提高了预测的准确率。研究人员主要从两个方面入手,一是从蛋白质序列 中提取具有高度判别能力的特征,二是选用和开发泛化能力强大的分类器。对于特征提取, 首先采用的是氨基酸组成,然后畑〇u(Chou,K.C.Prediction of protein cellular attributes using pseudo-amino acid composition.Proteins: Structure.Function, and Bioinformatics,2001,43(3): 246-255)又提出了伪氨基酸组成,加入了序列顺序影 响。此后,基于畑OU的伪氨基酸组成概念,大量的变体被开发出来,比如,考虑序列进化信 息,功能域组成,基因本体信息。除了提取特征W外,大量的机器学习方法被应用到该领域, 最常用的有kNN及其变体,SVM等。 (3)由于不同物种间蛋白质序列和细胞位置间的差异,比如,叶绿体只存在于植物 细胞中,而人类等其他动物细胞中却没有,因此,有必要为不同的物种开发专口的预测器, W避免得到无意义的预测结果。目前,已经出现不少的物种专有的预测器,W化OU和化en开 ^^tlCel l-Ploc(Chou ,Κ. C. , Shen ,Η. B . Cel 1-PLoc : a package of Web servers for predicting subcellular localization of proteins in various organisms.Nature Protocols ,2008,3(2) :153-162)最为著名。 (4)研究表明,有大量的蛋白质定位于多个细胞位置,参与执行不同的生物功能, 运些蛋白质对于制药工程和基础研究有很重要的意义。因此,开发出能够预测多个细胞位 置的方法将十分必要。已经有一些方法可W用于预测蛋白质的多亚细胞位置。 随着对细胞中细胞器研究的深入,研究人员发现了大量的细胞器亚结构,比如,细 胞核中包含核染色质(chromatin)、异染色质化eterochromatin),核被膜(nuclear envelope)、核仁(nucleolus)等亚结构;线粒体中包含内膜(inner membrane)、外膜(outer membrane)等亚结构;叶绿体中包含基质(shoma)、类囊体(Thylakoid)等亚结构。为了更加 深入了解蛋白质的功能,很有必要确定蛋白质在细胞器级别的具体位置。从最近发布的 化1口'〇1邸/5*133斗'〇1数据库(的16日36 2013_05)了解到,共有14,408个叶绿体蛋白质,标 注有亚叶绿体位置的蛋白质有7,367个,占到总叶绿体蛋白质的7,367/14,408 = 51.1 %,而 运些亚叶绿体位置标注中,经过实验验证的共有6,955个,占到总叶绿体蛋白质的6,955/ 14,408 = 48.3%,也就是说,大概一半W上的叶绿体蛋白质都没有明确的亚结构信息标注。 细胞器是相对于细胞来说更微观的结构单位,因而实验确定蛋白质的亚细胞器位置将更加 困难和耗时。随着叶绿体蛋白组项目的快速发展,叶绿体蛋白质的数量和它们的功能之间 的差距将越来越大。为了弥补运一差距,同时由于实验测定亚细胞器级的位置更加困难,十 分有必要开发计算预测方法来预测蛋白质的亚叶绿体位置。 近年来,已经有一些预测方法可W预测蛋白质的亚-亚细胞位置,比如,亚细胞核 位置的预测(Shen,H.B. ,Chou,K.C.Predicting protein subnuclear location with optimized evidence-theoretic K-nearest classifier and pseudo amino acid composition.Biochemical and Biophysical Research Communications,2005,337(3): 752-756 ),亚线粒体位置的识别(Zeng,Y.H.,加 o,Y.Z.,Xiao, R.Q.,et al. Using the augmented chou's pseudo amino acid composition for predicting protein submitochondria locations based on auto covariance 曰ppro曰ch.Journ曰1 of Theoretical Biology,2009,259(2):366-372)。具体到亚叶绿体位置预测,第一个工作由 Du等人(Du,P. ,C曰o,S. ,Li,Y.SubChlo:predictin邑 protein subchloropl曰st locations with pseudo-amino acid composition and the evidence-theoretic K-nearest nei曲bo;r(ET-K順)algorithm. Journal of Theor本文档来自技高网...

【技术保护点】
一种蛋白质亚叶绿体多位置预测方法,其特征在于,包括以下步骤:步骤1、对于待预测的蛋白质序列和训练数据集,基于蛋白质的氨基酸序列信息,采用伪氨基酸组成方法,抽取出待预测的蛋白质序列和训练数据集中所有蛋白质序列的特征向量,从而构成待预测样本集和训练样本集;步骤2、基于步骤1所构建的原始训练样本集,分别为每个亚叶绿体位置构建新的训练样本集;在每个亚叶绿体位置所对应的新训练样本集中,把属于亚叶绿体位置的蛋白质标记为正样本,不属于亚叶绿体位置的蛋白质标记为负样本;步骤3、基于步骤2所构建的针对每个亚叶绿体位置的新训练样本集,分别训练一个支持向量机预测器;步骤4、对于步骤2构建的每个亚叶绿体位置所对应的新训练样本集的每个蛋白质样本,除了新训练样本集所对应的亚叶绿体位置以外,把其他亚叶绿体位置对于该蛋白质样本的归属值追加到蛋白质样本的特征向量中,蛋白质样本属于某亚叶绿体位置,归属值设为1,否则设为‑1,以扩展蛋白质样本的特征空间,基于上述规则,分别更新每个亚叶绿体位置构建的训练样本集;步骤5、对于步骤4扩展特征空间后的每个训练样本集,使用遗传算法进行特征子集的选择,同时选取出与训练样本集对应的亚叶绿体位置最相关的氨基酸组成特征和其他亚叶绿体位置特征,去除无关和冗余的氨基酸组成特征和其他亚叶绿体位置特征,从而得到与每个亚叶绿体位置相对应的最优扩展特征子空间;步骤6、基于步骤5所得的针对每个亚叶绿体位置的最优扩展特征子空间,分别训练一个支持向量机预测器;步骤7、基于步骤3和步骤6所得的两组支持向量机预测器,对待预测蛋白质进行蛋白质亚叶绿体多位置预测。...

【技术特征摘要】
...

【专利技术属性】
技术研发人员:王晓张秋闻赵进超王榕张伟伟郭瑞
申请(专利权)人:郑州轻工业学院
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1