一种人类蛋白质亚细胞位置预测方法技术

技术编号:15501134 阅读:141 留言:0更新日期:2017-06-03 22:38
本发明专利技术公开了一种人类蛋白质亚细胞位置预测的方法,是利用人类蛋白质的序列来预测该蛋白质的亚细胞位置,基于基因本体论(GO)特征和保守域相关性优化人类蛋白质亚细胞分类算法。首先通过蛋白质的序列获得该蛋白质的序列残基统计特征(氨基酸组成成分特征,归一化的特异性打分矩阵特征),保守域特征和GO特征;其次,对序列残基统计特征使用CFS特征选择方法提取特征子集,对保守域特征和GO特征通过计算分别得到这些特征的相似性度量,使用带权值的KNN方法计算出概率信息,然后将获得的特征进行整合运用SVM分类器进行分类。

Human protein subcellular location prediction method

The invention discloses a method for predicting protein subcellular location of human, is to predict the subcellular location of the protein sequence of human proteins, based on Gene Ontology (GO) characteristics and conserved domain correlation optimization of human protein subcellular classification algorithm. First, the protein sequence for residue sequence statistical characteristics of the protein (amino acid composition, the normalized specific scoring matrix features), conserved domain features and GO features; secondly, the residue sequence statistical feature extraction method using CFS feature selection feature subset of conserved domain features and GO features by calculating respectively get these features similarity metric, weighted KNN method is used to calculate the probability of a feature information, then will obtain integration using SVM classifier.

【技术实现步骤摘要】
一种人类蛋白质亚细胞位置预测方法
本专利技术属于生物信息
,特别涉及一种人类蛋白质亚细胞位置预测的方法。
技术介绍
了解蛋白质的亚细胞位置对于理解蛋白质的功能、蛋白质间的相互作用,以及药物的靶向治疗具有重要的意义。然而目前利用实验检验的方法来获取蛋白质的亚细胞位置需要很大的时间和成本。因此利用蛋白质亚细胞位置预测工具来对大量的蛋白质进行预测具有重要意义。根据我们的统计,在2016年二月份发布的SWISS-PROT蛋白质数据库上一共有550552条蛋白质,其中只有10.4%的蛋白质具有实验验证的亚细胞位置,剩下的未知亚细胞位置的蛋白质急需通过一种可靠的预测方法来预测。到目前为止,已经有很多能够预测蛋白质亚细胞位置的工具,常见的网络服务器包括BaCeLlo,YLoc,MultiLoc,GOASVM,WoLFPSORT,CellPLoc,HSLPred等等。这些预测工具给相关领域的生物学家带来了极大的便利。蛋白质的亚细胞位置信息经常被用在疾病的基因治疗,药物靶向治疗上。例如通过检查在肿瘤中蛋白质YAP的表达和亚细胞定位来研究Hippo/YAP途径在小儿肝细胞癌演变中的作用。所以,一个易于使用的高精度预测工具将非常有助于这些实验室进行临床研究。我们以前发布的网络服务器Hum-mPLoc2.0是专门为预测人类蛋白质定位而设计的。每年使用的次数已从2010年的2万次增加到2015年的8万多次。这表明为了提供更好的预测服务,基于新技术和更全面精准的注释数据库来进一步增强预测能力具有重要意义。通常,用于预测蛋白质亚细胞定位的计算方法可以分为两类,即基于同源性搜索的方法和基于机器学习的方法。基于同源性搜索的方法可以被认为是利用最近邻方法来进行预测,在该方法中两个蛋白质之间的距离通常通过它们的序列同源性来衡量。通过计算查询蛋白质与大量已有亚细胞位置注释信息的序列的同源性,该方法找到前K个最相似的蛋白质,并将它们的注释信息传递给所要预测的蛋白质作为分类结果。基于同源性搜索的方法是一种比较直接的预测方法,但是它的性能显著取决于是否能够找到相似度高已有亚细胞位置信息注释的同源序列,此外,有些时候两个蛋白质序列之间的相似度高但是他们可具有非常不同的结构或功能,这会导致该方法的失效。基于机器学习的预测器是蛋白质亚细胞位置预测中的一类较为灵活模型。它们需要所谓的训练数据集,然后通过基于统计学习的算法来学习分类规则。因此,训练数据的质量与所学习的统计规则的质量密切相关。受益于蛋白质数据库中关于亚细胞位置信息越来越多并且越来越可靠的注释,我们可以通过收集大规模训练数据以便于更充分地训练分类模型。在机器学习模型中的另一个重要问题是如何编码蛋白质序列,因为大多数算法需要提取特征向量作为输入,如何从原始蛋白质序列以及相关联的现有知识中提取特征对于分类器的最终性能是至关重要的。用于预测亚细胞位置的现有机器学习工具使用各种特征如下:(1)基于残基的统计特征,伪氨基酸组成和位置特异性评分矩阵。(2)基于信号肽,功能域的特征。(3)基于数据库注释的特征,例如基因本体论(GO)特征。由于GO特征是对领域知识的高级抽象,当拥有足够的注释时,它们通常比基于序列所提取的特征具有更高的准确性。然而,大量的注释数据带来新的算法挑战。例如,通过对每个GO特征使用伯努利事件模型,即对于该GO特征是否存在进行二进制编码,常常导致极高维的特征空间。随着GO数据库的定期扩展和更新,维度将随着我们关于蛋白质的知识拓展而不断增加。高维特征向量增加了机器学习过程的复杂性,并且我们还考虑到注释数据库中的潜在噪声的影响。虽然整个GO数据库是巨大的,但每个蛋白质实际上只包含几个GO特征。根据我们的统计,在SWISS-PROT数据库中那些至少具有一个GO特征的蛋白质,他们平均拥有6个GO注释。也就是说一个蛋白质的GO特征是一个稀疏特征向量,它有数千个维度,但只有大约6个GO注释。目前领域内已经针对这个问题提出了不同的方法来处理。例如,YLoc仅选择对于特定亚细胞位置具有明显相关性的GO注释和PROSITE模式。因此,它减少了不必要的特征,并使得结果更易于理解,但是这样也会导致信息丢失。WegoLoc为每个GO特征分配权重来突出有用的GO特征。
技术实现思路
本专利技术提供一种人类蛋白质亚细胞位置预测方法,目的在于通过利用注释特征之间潜在相关性信息来提高人类蛋白质亚细胞分类器的预测精度。一种人类蛋白质亚细胞位置预测方法,基于人类蛋白质序列预测蛋白质亚细胞位置,包括以下步骤:第一步:利用人类蛋白质序列信息分别提取序列全长,序列N端,C端多个蛋白质序列片段的残基统计特征,其中包括氨基酸组成成分特征和利用蛋白质同源信息所获得的特异性打分矩阵特征并对该特征进行归一化处理,在综合这两个特征之后使用Correlation-basedFeatureSelection这种有监督的特征选择算法进行降维;第二步:通过提取蛋白质数据库中所有人类蛋白质的GO特征,利用GOSSTO获取GO(BP,MF,CC)特征空间三个相似度矩阵;第三步:通过blast方法在Swiss-Prot数据库中搜索同源蛋白,提取所述同源蛋白的GO特征,同时用相同的方法获取训练集中蛋白质的GO特征;第四步:将蛋白质GO特征的三个部分(BP,MF,CC)通过一元组,二元组,三元组划分为7个部分(BP,MF,CC),(BP&MF,BP&CC,MF&CC),(BP&MF&CC);第五步:通过蛋白质GO特征的相关性,分成七个部分来计算两个蛋白质的相关性,并通过参数优化,提取训练集中十个相关性高的蛋白质做有权值的KNN方法,获得该蛋白质在每个亚细胞位置上的概率值;第六步:通过rps-blast来获得Swiss-Prot数据库中所有人类蛋白质的保守域特征,并通过信息差计算特征之间的相关性,得到保守域特征相似度矩阵,然后通过rps-blast来获得目标蛋白质的保守域特征来计算两个蛋白质的相关性,并通过参数优化,提取训练集中十个相关性高的蛋白质做有权值的KNN方法,获得该蛋白质在每个亚细胞位置上的概率值;第七步:融合所获得的序列特征,GO七个部分的概率特征,保守域概率特征,使用BinaryRelevance策略搭建可以预测中心体,细胞质,细胞骨架,内质网,内体,分泌途径,高尔基体,溶酶体,线粒体,细胞核,过氧化物酶体和细胞膜这12个亚细胞位置的SVM分类器。一种人类蛋白质亚细胞位置预测方法,基于人类蛋白质序列预测蛋白质亚细胞位置,包括以下步骤:S101,利用人类蛋白质序列信息分别提取序列全长,N端前10到60,C端前10到100长度蛋白质序列片段的氨基酸组成成分特征,归一化后的PSSM矩阵特征,并使用CFS降维,其中PSSM矩阵归一化并在每部分转化为20维特征的公式为:其中Si,j表示出现在序列的第i个(1≤i≤L)位置上的氨基酸在进化过程中演变成第j种(1≤j≤20)氨基酸的概率评分,L表示蛋白质序列的长度。表示了归一化后这个特异性打分矩阵的分数,这个的N表示了氨基酸的数目,所以在公式2中N等于20。其中表示的是对每列分数进行相加并求取平均后的值;就是我们所得到的经过归一化处理后的PSSM矩阵特征。S10本文档来自技高网
...
一种人类蛋白质亚细胞位置预测方法

【技术保护点】
一种人类蛋白质亚细胞位置预测方法,基于人类蛋白质序列预测蛋白质亚细胞位置,其特征在于,包括以下步骤:第一步:利用人类蛋白质序列信息分别提取序列全长,序列N端,C端多个蛋白质序列片段的残基统计特征,其中包括氨基酸组成成分特征和利用蛋白质同源信息所获得的特异性打分矩阵特征并对该特征进行归一化处理,在综合这两个特征之后使用Correlation‑based Feature Selection这种有监督的特征选择算法进行降维;第二步:通过提取蛋白质数据库中所有人类蛋白质的GO特征,利用GOSSTO获取GO(BP,MF,CC)特征空间三个相似度矩阵;第三步:通过blast方法在Swiss‑Prot数据库中搜索同源蛋白,提取所述同源蛋白的GO特征,同时用相同的方法获取训练集中蛋白质的GO特征;第四步:将蛋白质GO特征的三个部分(BP,MF,CC)通过一元组,二元组,三元组划分为7个部分(BP,MF,CC),(BP&MF,BP&CC,MF&CC),(BP&MF&CC);第五步:通过蛋白质GO特征的相关性,分成七个部分来计算两个蛋白质的相关性,并通过参数优化,提取训练集中十个相关性高的蛋白质做有权值的KNN方法,获得该蛋白质在每个亚细胞位置上的概率值;第六步:通过rps‑blast来获得Swiss‑Prot数据库中所有人类蛋白质的保守域特征,并通过信息差计算特征之间的相关性,得到保守域特征相似度矩阵,然后通过rps‑blast来获得目标蛋白质的保守域特征来计算两个蛋白质的相关性,并通过参数优化,提取训练集中十个相关性高的蛋白质做有权值的KNN方法,获得该蛋白质在每个亚细胞位置上的概率值;第七步:融合所获得的序列特征,GO七个部分的概率特征,保守域概率特征,使用Binary Relevance策略搭建可以预测中心体,细胞质,细胞骨架,内质网,内体,分泌途径,高尔基体,溶酶体,线粒体,细胞核,过氧化物酶体和细胞膜这12个亚细胞位置的SVM分类器。...

【技术特征摘要】
1.一种人类蛋白质亚细胞位置预测方法,基于人类蛋白质序列预测蛋白质亚细胞位置,其特征在于,包括以下步骤:第一步:利用人类蛋白质序列信息分别提取序列全长,序列N端,C端多个蛋白质序列片段的残基统计特征,其中包括氨基酸组成成分特征和利用蛋白质同源信息所获得的特异性打分矩阵特征并对该特征进行归一化处理,在综合这两个特征之后使用Correlation-basedFeatureSelection这种有监督的特征选择算法进行降维;第二步:通过提取蛋白质数据库中所有人类蛋白质的GO特征,利用GOSSTO获取GO(BP,MF,CC)特征空间三个相似度矩阵;第三步:通过blast方法在Swiss-Prot数据库中搜索同源蛋白,提取所述同源蛋白的GO特征,同时用相同的方法获取训练集中蛋白质的GO特征;第四步:将蛋白质GO特征的三个部分(BP,MF,CC)通过一元组,二元组,三元组划分为7个部分(BP,MF,CC),(BP&MF,BP&CC,MF&CC),(BP&MF&CC);第五步:通过蛋白质GO特征的相关性,分成七个部分来计算两个蛋白质的相关性,并通过参数优化,提取训练集中十个相关性高的蛋白质做有权值的KNN方法,获得该蛋白质在每个亚细胞位置上的概率值;第六步:通过rps-blast来获得Swiss-Prot数据库中所有人类蛋白质的保守域特征,并通过信息差计算特征之间的相关性,得到保守域特征相似度矩阵,然后通过rps-blast来获得目标蛋白质的保守域特征来计算两个蛋白质的相关性,并通过参数优化,提取训练集中十个相关性高的蛋白质做有权值的KNN方法,获得该蛋白质在每个亚细胞位置上的概率值;第七步:融合所获得的序列特征,GO七个部分的概率特征,保守域概率特征,使用BinaryRelevance策略搭建可以预测中心体,细胞质,细胞骨架,内质网,内体,分泌途径,高尔基体,溶酶体,线粒体,细胞核,过氧化物酶体和细胞膜这12个亚细胞位置的SVM分类器。2.一种人类蛋白质亚细胞位置预测方法,基于人类蛋白质序列预测蛋白质亚细胞位置,其特征在于,包括以下步骤:S101,利用人类蛋白质序列信息分别提取序列全长,N端前10到60,C端前10到100长度蛋白质序列片段的氨基酸组成成分特征,归一化后的PSSM矩阵特征,并使用CFS降维,其中PSSM矩阵归一化并在每部分转化为20维特征的公式为:其中Si,j表示出现在序列的第i个(1≤i≤L)位置上的氨基酸在进化过程中演变成第j种(1≤j≤20)氨基酸的概率评分,L表示蛋白质序列的长度,S0i,j表示了归一化后这个特异性打分矩阵的分数,N表示了氨基酸的数目,在公式(2)中N=20,其中表示的是对每列分数进行相加并求取平均后的值;

【专利技术属性】
技术研发人员:沈红斌周航
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1