一种人类蛋白质亚细胞位置预测方法技术

技术编号：15501134 阅读：141 留言：0更新日期：2017-06-03 22:38

本发明专利技术公开了一种人类蛋白质亚细胞位置预测的方法，是利用人类蛋白质的序列来预测该蛋白质的亚细胞位置，基于基因本体论(GO)特征和保守域相关性优化人类蛋白质亚细胞分类算法。首先通过蛋白质的序列获得该蛋白质的序列残基统计特征(氨基酸组成成分特征，归一化的特异性打分矩阵特征)，保守域特征和GO特征；其次，对序列残基统计特征使用CFS特征选择方法提取特征子集，对保守域特征和GO特征通过计算分别得到这些特征的相似性度量，使用带权值的KNN方法计算出概率信息，然后将获得的特征进行整合运用SVM分类器进行分类。

Human protein subcellular location prediction method

The invention discloses a method for predicting protein subcellular location of human, is to predict the subcellular location of the protein sequence of human proteins, based on Gene Ontology (GO) characteristics and conserved domain correlation optimization of human protein subcellular classification algorithm. First, the protein sequence for residue sequence statistical characteristics of the protein (amino acid composition, the normalized specific scoring matrix features), conserved domain features and GO features; secondly, the residue sequence statistical feature extraction method using CFS feature selection feature subset of conserved domain features and GO features by calculating respectively get these features similarity metric, weighted KNN method is used to calculate the probability of a feature information, then will obtain integration using SVM classifier.

全部详细技术资料下载

【技术实现步骤摘要】
一种人类蛋白质亚细胞位置预测方法
本专利技术属于生物信息
，特别涉及一种人类蛋白质亚细胞位置预测的方法。
技术介绍
了解蛋白质的亚细胞位置对于理解蛋白质的功能、蛋白质间的相互作用，以及药物的靶向治疗具有重要的意义。然而目前利用实验检验的方法来获取蛋白质的亚细胞位置需要很大的时间和成本。因此利用蛋白质亚细胞位置预测工具来对大量的蛋白质进行预测具有重要意义。根据我们的统计，在2016年二月份发布的SWISS-PROT蛋白质数据库上一共有550552条蛋白质，其中只有10.4％的蛋白质具有实验验证的亚细胞位置，剩下的未知亚细胞位置的蛋白质急需通过一种可靠的预测方法来预测。到目前为止，已经有很多能够预测蛋白质亚细胞位置的工具，常见的网络服务器包括BaCeLlo，YLoc，MultiLoc，GOASVM，WoLFPSORT，CellPLoc，HSLPred等等。这些预测工具给相关领域的生物学家带来了极大的便利。蛋白质的亚细胞位置信息经常被用在疾病的基因治疗，药物靶向治疗上。例如通过检查在肿瘤中蛋白质YAP的表达和亚细胞定位来研究Hippo/YAP途径在小儿肝细胞癌演变中的作用。所以，一个易于使用的高精度预测工具将非常有助于这些实验室进行临床研究。我们以前发布的网络服务器Hum-mPLoc2.0是专门为预测人类蛋白质定位而设计的。每年使用的次数已从2010年的2万次增加到2015年的8万多次。这表明为了提供更好的预测服务，基于新技术和更全面精准的注释数据库来进一步增强预测能力具有重要意义。通常，用于预测蛋白质亚细胞定位的计算方法可以分为两类，即基于同源性搜索的方...
一种人类蛋白质亚细胞位置预测方法

【技术保护点】
一种人类蛋白质亚细胞位置预测方法，基于人类蛋白质序列预测蛋白质亚细胞位置，其特征在于，包括以下步骤：第一步：利用人类蛋白质序列信息分别提取序列全长，序列N端，C端多个蛋白质序列片段的残基统计特征，其中包括氨基酸组成成分特征和利用蛋白质同源信息所获得的特异性打分矩阵特征并对该特征进行归一化处理，在综合这两个特征之后使用Correlation‑based Feature Selection这种有监督的特征选择算法进行降维；第二步：通过提取蛋白质数据库中所有人类蛋白质的GO特征，利用GOSSTO获取GO(BP,MF,CC)特征空间三个相似度矩阵；第三步：通过blast方法在Swiss‑Prot数据库中搜索同源蛋白，提取所述同源蛋白的GO特征，同时用相同的方法获取训练集中蛋白质的GO特征；第四步：将蛋白质GO特征的三个部分(BP,MF,CC)通过一元组，二元组，三元组划分为7个部分(BP,MF,CC),(BP&MF,BP&CC,MF&CC),(BP&MF&CC)；第五步：通过蛋白质GO特征的相关性，分成七个部分来计算两个蛋白质的相关性，并通过参数优化，提...

【技术特征摘要】
1.一种人类蛋白质亚细胞位置预测方法，基于人类蛋白质序列预测蛋白质亚细胞位置，其特征在于，包括以下步骤：第一步：利用人类蛋白质序列信息分别提取序列全长，序列N端，C端多个蛋白质序列片段的残基统计特征，其中包括氨基酸组成成分特征和利用蛋白质同源信息所获得的特异性打分矩阵特征并对该特征进行归一化处理，在综合这两个特征之后使用Correlation-basedFeatureSelection这种有监督的特征选择算法进行降维；第二步：通过提取蛋白质数据库中所有人类蛋白质的GO特征，利用GOSSTO获取GO(BP,MF,CC)特征空间三个相似度矩阵；第三步：通过blast方法在Swiss-Prot数据库中搜索同源蛋白，提取所述同源蛋白的GO特征，同时用相同的方法获取训练集中蛋白质的GO特征；第四步：将蛋白质GO特征的三个部分(BP,MF,CC)通过一元组，二元组，三元组划分为7个部分(BP,MF,CC),(BP&MF,BP&CC,MF&CC),(BP&MF&CC)；第五步：通过蛋白质GO特征的相关性，分成七个部分来计算两个蛋白质的相关性，并通过参数优化，提取训练集中十个相关性高的蛋白质做有权值的KNN方法，获得该蛋白质在每个亚细胞位置上的概率值；第六步：通过rps-blast来获得Swiss-Prot数据库中所有人类蛋白质的保守域特征，并通过信息差计算特征之间的相关性，得到保守域特征相似度矩阵，然后通过rps-blast来获得目标蛋白质的保守域特征来计算两个蛋白质的相关性，并通过参数优化，提取训练集中十个相关性高的蛋白质做有权值的KNN方法，获得该蛋白质在每个亚细胞位置上的概率值；第七步：融合所获得的序列特征，GO七个部分的概率特征，保守域概率特征，使用BinaryRelevance策略搭建可以预测中心体，细胞质，细胞骨架，内质网，内体，分泌途径，高尔基体，溶酶体，线粒体，细胞核，过氧化物酶体和细胞膜这12个亚细胞位置的SVM分类器。2.一种人类蛋白质亚细胞位置预测方法，基于人类蛋白质序列预测蛋白质亚细胞位置，其特征在于，包括以下步骤：S101，利用人类蛋白质序列信息分别提取序列全长，N端前10到60，C端前10到100长度蛋白质序列片段的氨基酸组成成分特征，归一化后的PSSM矩阵特征，并使用CFS降维，其中PSSM矩阵归一化并在每部分转化为20维特征的公式为：其中Si,j表示出现在序列的第i个(1≤i≤L)位置上的氨基酸在进化过程中演变成第j种(1≤j≤20)氨基酸的概率评分，L表示蛋白质序列的长度，S0i,j表示了归一化后这个特异性打分矩阵的分数，N表示了氨基酸的数目，在公式(2)中N＝20，其中表示的是对每列分数进行相加并求取平均后的值；

【专利技术属性】
技术研发人员：沈红斌，周航，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人