一种基于迭代搜索策略的蛋白质溶剂可及性预测方法技术

技术编号:27034217 阅读:24 留言:0更新日期:2021-01-12 11:17
一种基于迭代搜索策略的蛋白质溶剂可及性预测方法,首先,根据输入的待测定溶剂可及性的蛋白质序列信息,使用HHBlits工具生成对应的多序列联配信息,进而生成对应的位置特异性频率矩阵,同时,对PDB数据库中每条蛋白质序列也进行上述操作;其次,计算输入的蛋白质序列的位置特异性频率矩阵和PDB数据库中每条蛋白质的位置特异性频率矩阵的相似度;然后,从PDB数据库中获取与输入蛋白质相似度最高的多条蛋白质序列及结构信息,并将其作为模板蛋白质;再次,使用DSSP工具计算每条模板蛋白质的溶剂可及性信息;最后,根据模板蛋白质的溶剂可及性信息,预测输入蛋白质序列的溶剂可及性。本发明专利技术计算代价低、预测精度高。

【技术实现步骤摘要】
一种基于迭代搜索策略的蛋白质溶剂可及性预测方法
本专利技术涉及生物信息学、模式识别与计算机应用领域,具体而言涉及一种基于迭代搜索策略的蛋白质溶剂可及性预测方法。
技术介绍
在各项生命活动中,蛋白质的生物功能都起着至关重要的作用,而蛋白质的生物功能主要由其结构决定。预测蛋白质的溶剂可及性是蛋白质结构预测的关键步骤。因此,精确预测蛋白质的溶剂可及性,对于理解蛋白质功能、分析生物分子之间的相互关系和设计新药物等方面具有重要的指导意义。调研文献发现,已有很多用于预测蛋白质氨基酸的溶剂可及性方法被提出,如:Sann(Joo,K.;Lee,S.J.;Lee,J.Sann:Solventaccessibilitypredictionofproteinsbynearestneighbormethod.ProteinsStruct.Funct.Bioinform.2012,80,1791.即:Joo,K等.Sann:一种基于K近邻算法的预测蛋白质溶剂可及性的方法.蛋白质结构、功能、生物.2012,80,1791.)及SPIDER3(HeffernanRetal(2017)Capturingnon-localinteractionsbylongshorttermmemorybidirectionalrecurrentneuralnetworksforimprovingpredictionofproteinsecondarystructure,backboneangles,contactnumbersandsolventaccessibility.Bioinformatics(Oxford,England)33(18):2842-2849.即:HeffernanR等.利用长短时记忆双向递归神经网络捕获非局部相互作用,进而改善蛋白质二级结构、主链角、接触数和溶剂可及性的预测.生物信息学,33(18):2842-2849.)等。尽管已有的方法可以用于预测蛋白质的溶剂可及性,但是普遍使用大量训练数据集和机器学习算法,所以计算代价较大,同时由于训练集中的噪音信息和数据不平衡问题没有得到足够的关注,预测精度并不能保证是最优的且预测效率有待进一步提升。综上所述,现存的蛋白质溶剂可及性的预测方法在计算代价、预测精确性方面,距离实际应用的要求还有很大差距,迫切地需要改进。
技术实现思路
为了克服现有蛋白质溶剂可及性的预测方法在计算代价、预测精确性方面的不足,本专利技术提出一种计算代价低、预测精确性高的基于迭代搜索策略的蛋白质溶剂可及性预测方法。本专利技术解决其技术问题所采用的技术方案是:一种基于迭代搜索策略的蛋白质溶剂可及性预测方法,所述方法包括以下步骤:1)输入蛋白质残基个数为L的待进行溶剂可及性预测的蛋白质序列信息,记作S;2)对给定的蛋白质序列S,使用HHBlits工具生成对应的多序列联配信息,记作其中表示MSA中的第n条序列联配信息,N为MSA中的序列联配信息总数目,每条序列联配信息均含有L个元素,每个元素均属于元素集合R={R1,…,Rr,…,R21},集合R是由二十种常见氨基酸和补位空格元素组成的;3)对给定的多序列联配信息MSA,生成对应的位置特异性频率矩阵,记作其中表示中的第l个元素,当与Rr为相同元素类型时,否则4)对任意两条蛋白质序列SX与SY,给定它们的多序列联配信息MSAX与MSAY,使用如下步骤计算它们之间的相似度sim(SX,SY),并获得它们的序列比对信息ali,过程如下:4.1)根据MSAX与MSAY,使用步骤3)获得SX与SY对应的位置特异性频率矩阵与4.2)构造相似度矩阵其中4.3)根据相似度矩阵XY,使用Needleman-Wunsch动态规划算法获得SX与SY的序列比对信息ali,并计算SX与SY的其中,当ali(lX)≠-1时,ali(lX)为SY中与SX的第lX个残基比对上的残基索引值且否则,ali(lX)表示与SX的第lX个残基比对上的是补位空格元素且5)对PDB库中的每条蛋白质使用步骤2)生成对应的多序列联配信息组成多序列联配信息集合,记作其中I表示PDB库中蛋白质序列的总数目;6)根据输入序列S的多序列联配信息MSA与步骤5)中生成的集合,使用步骤4)计算MSA与集合中每个元素的相似度,并获取相似度最高的M个元素对应的PDB数据库中的蛋白质序列及序列比对信息,组成一个新的多序列联配信息MSAnew用于更新替换输入序列S的原始MSA,然后再执行步骤6),上述迭代过程直至输入序列S的MSA信息收敛时终止;7)对步骤6)获得的MSA中含有的每条PDB数据库蛋白质根据对应的三维结构信息,使用DSSP工具计算对应的溶剂可及性信息,组成溶剂可及性信息集合,记作其中为对应的溶剂可及性信息,表示中第l个残基的溶剂可及性信息;8)根据步骤7)获得的输入蛋白质序列S的溶剂可及性信息被预测为其中为S中第l个残基的溶剂可及性信息,当alim(l)≠-1时,alim(l)为MSA中第m条序列中与S的第l个残基比对上的残基索引值且否则,alim(l)表示与S的第l个残基比对上的是补位空格元素且本专利技术的技术构思为:一种基于迭代搜索策略的蛋白质溶剂可及性预测方法,首先,根据输入的待测定溶剂可及性的蛋白质序列信息,使用HHBlits工具生成对应的多序列联配信息,进而生成对应的位置特异性频率矩阵,同时,对PDB数据库中每条蛋白质序列也进行上述操作;其次,计算输入的蛋白质序列的位置特异性频率矩阵和PDB数据库中每条蛋白质的位置特异性频率矩阵的相似度;然后,从PDB数据库中获取与输入蛋白质相似度最高的多条蛋白质序列及结构信息,并将其作为模板蛋白质;再次,使用DSSP工具计算每条模板蛋白质的溶剂可及性信息;最后,根据模板蛋白质的溶剂可及性信息,预测输入蛋白质序列的溶剂可及性。本专利技术提供一种计算代价低、预测精度高的基于迭代搜索策略的蛋白质溶剂可及性预测方法。本专利技术的有益效果表现在:一方面,从蛋白质序列获得多序列联配信息,使用迭代搜索策略,获取了更多有用信息,为进一步提升蛋白质溶剂可及性的预测精度做好了准备;另一方面,从蛋白质的多序列联配信息出发,计算相似度、序列比对信息,提高了蛋白质溶剂可及性的预测效率与精度。附图说明图1为一种基于迭代搜索策略的蛋白质溶剂可及性预测方法的示意图。图2为使用一种基于迭代搜索策略的蛋白质溶剂可及性预测方法对蛋白质1ibaA进行溶剂可及性预测后的结果文件。具体实施方式下面结合附图对本专利技术作进一步描述。参照图1和图2,一种基于迭代搜索策略的蛋白质溶剂可及性预测方法,包括以下步骤:1)输入蛋白质残基个数为L的待进行溶剂可及性预测的蛋白质序列信息,记作S;2)对给定的蛋白质序列S,使用HHBlits工具生成对应的多序列联配信息,记作其中表示MSA中的第n条序列联配信息,N为MSA中的序列联配信息总数目,每条序列联配信息均含有L个元素,每个元素均属本文档来自技高网
...

【技术保护点】
1.一种基于迭代搜索策略的蛋白质溶剂可及性预测方法,其特征在于,所述预测方法包括以下步骤:/n1)输入蛋白质残基个数为L的待进行溶剂可及性预测的蛋白质序列信息,记作S;/n2)对给定的蛋白质序列S,使用HHBlits工具生成对应的多序列联配信息,记作

【技术特征摘要】
1.一种基于迭代搜索策略的蛋白质溶剂可及性预测方法,其特征在于,所述预测方法包括以下步骤:
1)输入蛋白质残基个数为L的待进行溶剂可及性预测的蛋白质序列信息,记作S;
2)对给定的蛋白质序列S,使用HHBlits工具生成对应的多序列联配信息,记作其中表示MSA中的第n条序列联配信息,N为MSA中的序列联配信息总数目,每条序列联配信息均含有L个元素,每个元素均属于元素集合R={R1,…,Rr,…,R21},集合R是由二十种常见氨基酸和补位空格元素组成的;
3)对给定的多序列联配信息MSA,生成对应的位置特异性频率矩阵,记作其中表示中的第l个元素,当与Rr为相同元素类型时,否则
4)对任意两条蛋白质序列SX与SY,给定它们的多序列联配信息MSAX与MSAY,使用如下步骤计算它们之间的相似度sim(SX,SY),并获得它们的序列比对信息ali,过程如下:
4.1)根据MSAX与MSAY,使用步骤3)获得SX与SY对应的位置特异性频率矩阵与
4.2)构造相似度矩阵其中
4.3)根据相似度矩阵XY,使用Needleman-Wunsch动态规划算法获得SX与SY的序列比对信息ali,并计算SX与SY的其中,当ali(lX)≠-1时,ali(...

【专利技术属性】
技术研发人员:胡俊樊学强董世建白岩松张贵军
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1