一种基于分层混合模型的信号肽及其切割位点的预测方法技术

技术编号:15823008 阅读:147 留言:0更新日期:2017-07-15 05:07
本发明专利技术公开了一种基于分层混合模型的信号肽及其切割位点的预测方法,首先在第一层应用基于氨基酸残基特征的SVM分类器识别蛋白质序列是否含有N端疏水性片段;然后在第二层应用基于氨基酸残基特征和功能性结构域特征对应的朴素贝叶斯和SVM分类器识别疏水性片段是信号肽还是N端跨膜螺旋;最后在第三层,先根据统计学习规则筛选候选切割位点并计算统计性信任分数,然后再通过Needleman‑Wunsch序列比对算法计算候选信号肽序列的相似性分数,对统计性信任分数和序列相似性分数积分确定预测的信号肽切割位点。

【技术实现步骤摘要】
一种基于分层混合模型的信号肽及其切割位点的预测方法
本专利技术涉及一种基于分层混合模型的信号肽及其切割位点的预测方法,是利用已知的蛋白质序列来预测该蛋白质是否包含N端信号肽,并预测其切割位点,特别是一种融合氨基酸残基和功能结构域,融合统计性信任分数和序列相似性分数,并自顶而下分层预测信号肽及其切割位点的算法。
技术介绍
1979年,G.Blobel和D.Sabatini基于实验观察首次提出了信号假说(Signalhypothesis)。G.Blobel和D.Sabatini认为在分泌蛋白质序列的N端有一段起信号引导作用的氨基酸片段,该片段可以引导蛋白质在各个膜间进行转移,并将蛋白质运输到目的位置。他们把这段起信号引导作用的氨基酸片段称为信号肽。在1999年,G.Blobel凭借这项成就获得了诺贝尔生理学或医学奖。经过多年的研究对信号肽的研究,人们对信号肽的认识进一步加深。信号肽是一段出现在蛋白质序列N端的氨基酸短序列,它在真核生物和原核生物中引导蛋白质在细胞中的转移和分泌。几乎所有的分泌蛋白质和许多跨膜蛋白质氨基酸序列的N端都包含信号肽。作为一个“邮编”,信号肽引导新生蛋白质运输到细本文档来自技高网...
一种基于分层混合模型的信号肽及其切割位点的预测方法

【技术保护点】
一种基于分层混合模型的信号肽及其切割位点的预测方法,其特征在于,包括如下步骤:1)首先在第一层应用基于氨基酸残基特征的SVM分类器识别蛋白质序列是否含有N端疏水性片段;2)若含有N端疏水性片段,则在第二层应用基于氨基酸残基特征和功能性结构域特征对应的朴素贝叶斯和SVM分类器识别N端疏水性片段是信号肽还是N端跨膜螺旋;3)若识别结果为信号肽,则先根据统计学习规则筛选候选切割位点并计算统计性信任分数,然后再通过Needleman‑Wunsch序列比对算法计算候选信号肽序列的相似性分数,对统计性信任分数和序列相似性分数积分确定预测的信号肽切割位点。

【技术特征摘要】
1.一种基于分层混合模型的信号肽及其切割位点的预测方法,其特征在于,包括如下步骤:1)首先在第一层应用基于氨基酸残基特征的SVM分类器识别蛋白质序列是否含有N端疏水性片段;2)若含有N端疏水性片段,则在第二层应用基于氨基酸残基特征和功能性结构域特征对应的朴素贝叶斯和SVM分类器识别N端疏水性片段是信号肽还是N端跨膜螺旋;3)若识别结果为信号肽,则先根据统计学习规则筛选候选切割位点并计算统计性信任分数,然后再通过Needleman-Wunsch序列比对算法计算候选信号肽序列的相似性分数,对统计性信任分数和序列相似性分数积分确定预测的信号肽切割位点。2.根据权利要求1所述的基于分层混合模型的信号肽及其切割位点的预测方法,其特征在于,所述步骤1)的具体方法为:a.利用蛋白质氨基酸序列提取PSSM矩阵信息,二级结构信息,可溶性信息和氨基酸物理化学信息,使用mRMR进行特征提取,生成氨基酸序列特征。b.从CDD(ConservedDomainDatabase)数据库中提取蛋白质序列的功能性结构域信息,并根据CDD提供的聚类信息...

【专利技术属性】
技术研发人员:沈红斌张以泽
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1