一种基于TM‑align的多域蛋白模板搜索方法技术

技术编号:16428155 阅读:373 留言:0更新日期:2017-10-21 23:22
一种基于TM‑align的多域蛋白模板搜索方法,首先,从蛋白质库中提取多域蛋白建立多域蛋白质库;然后,基于蛋白质结构比对工具TM‑align计算模板蛋白对于每个单域蛋白的局部比对得分,并取最高值为模板的局部得分;其次,选出局部得分最高的前500个模板进行全局评价,按照单域蛋白的比对顺序分多种情况进行评价,在评价过程中,模板中的各残基禁止重复比对,并且遵循查询蛋白中的各域的实际顺序比对,选出各种比对情况中全局比对得分最高值为模板的最终得分;最后,根据最终得分对进行排名,选择最终得分最高的模板为最终模板。本发明专利技术可以较快得到最佳模板,且可以获取域之间方向信息,模板质量较高。

A search method for multi domain protein TM template based on align

A search method, multi domain protein TM template based on align firstly, establish multi domain protein extraction multi domain protein library from protein library; then, the calculation for each local alignment template protein single domain protein score of protein structure comparison tool TM based on align, and the highest value for the local score template; secondly local, elected the 500 highest scoring template for global evaluation, according to the sequence alignment of single domain protein are evaluated in the evaluation process, the residues in the template against repeated comparison, and according to the actual sequence alignment query of the domain in the egg white, choose a variety of alignment in the global alignment score the highest value for the final score of the template; finally, according to the final score of the final ranking, select the highest scoring template for the final template. The method can obtain the best template quickly and obtain the direction information between the domains, and the quality of the template is higher.

【技术实现步骤摘要】
一种基于TM-align的多域蛋白模板搜索方法
本专利技术涉及一种生物学信息学、智能优化、计算机应用领域,尤其涉及的是一种基于TM-align的多域蛋白模板搜索方法。
技术介绍
大规模蛋白通常由多个结构和功能不同的单域蛋白组成,据统计,现有蛋白质库(ProteinDataBank,PDB)中有32.7%的蛋白至少包含两个单域蛋白,超过5个单域的蛋白数量较少,并且最大的蛋白包含20个单域。另外,一个蛋白是多域蛋白的概率随着其序列长度的增长而变大,统计显示,超过50%的序列长度大于275的蛋白至少包含两个单域蛋白,大部分多域蛋白包含150个左右的残基,很少有超过600个残基的,最大的多域蛋白序列长度为1317。从而可以看出,对于这些大规模的多域蛋白,通过实验测定的方法来预测其三维结构极其困难和费时。现有单域蛋白结构预测方法(如QUARK、I-TASSER和ROSETTA等)对于单域蛋白的结构预测精度已经达到了一定的高度,但是对于多域蛋白的结构预测确显得力不从心;而且,在这些单域蛋白结构预测方法中,能量函数的设计中考虑了单域蛋白内的因素,在多域蛋白结构预测中无法使用。目前,常用的多域蛋白预测方法有两类,即利用单域蛋白预测方法预测出个单域蛋白的结构,然后对单域和单域之间的连接区域进行采样或对多个域进行对接。在单域和单域对接过程中,通过模板的引导会提高预测精度。大部分模板搜索方法基于穿线方法,即从氨基酸序列出发利用溶剂可及性和二级结构信息等进行搜索。然而,多域蛋白的组装过程仅仅利用信息而不根据单域的三维结构信息搜索模板,导致无法获取域和域之间的方向信息,从而导致预测精度较低。因此,现有的多域蛋白模板搜索方法在获取域之间的方向信息方面存在着缺陷,需要改进。
技术实现思路
为了克服现有的多域蛋白模板搜索方法无法获取域和域之间的方向信息、模板质量较低的不足,本专利技术提供一种可以获取域之间的方向信息、模板质量较高的基于TM-align的多域蛋白模板搜索方法。本专利技术解决其技术问题所采用的技术方案是:一种基于TM-align的多域蛋白模板搜索方法,所述方法包括以下步骤:1)多域蛋白质库构建,过程如下:1.1)利用蛋白质域分割工具Domain-parser对蛋白质库PDB中的每一个蛋白进行分割;1.2)统计每个蛋白的域个数,并提取域个数大于2个蛋白构建多域蛋白质库;2)输入待预测的多域蛋白的各单域的三维结构;3)筛选出多域蛋白质库中序列长度大于待预测多域蛋白序列长度的所有模板蛋白;4)对筛选出的每一个模板蛋白进行局部评价,过程如下:4.1)采用蛋白质结构比对工具TM-align,依次计算每个单域蛋白和模板蛋白之间的比对得分,记录为TM-score1,TM-score2,…,TM-scoren,其中TM-scoren是第n个单域蛋白和模板蛋白之间的比对得分,n为单域蛋白的总个数;4.2)以步骤3.1)中单域蛋白比对最高的得分为该模板的局部评价得分Lscore,即Lscore=max(TM-score1,TM-score2,…,TM-scoren),其中max表示取最大值;5)根据每个蛋白的局部评价得分从高到低进行排名,并选出排名前N个的模板蛋白;6)对步骤4)中选出的每一个模板蛋白进行全局评价,过程如下:6.1)计算单域蛋白比对顺序的种数n!;6.2)根据每种比对顺序进行如下操作:6.2.1)采用TM-align计算排序第一的单域蛋白与模板蛋白之间的全局比对得分GTM-score1;6.2.2)将模板蛋白中第一个比对点和最后一个比对点之间的部分删除,计算剩余部分的序列长度,若大于其他没有比对的单域蛋白的序列长度之和,则继续6.2.3)6.2.3)若排序第二的单域蛋白在实际多域蛋白中的顺序在排序第一的蛋白之前,则执行6.2.4),否则执行6.2.5);6.2.4)采用TM-align计算排序第二的单域蛋白与第一个比对点之前的模板蛋白的全局比对得分GTM-score2;6.2.5)采用TM-align计算排序第二的单域蛋白与最后一个比对点之后的模板蛋白的全局比对得分GTM-score2;6.2.6)根据步骤6.2.1)-6.2.5)依次计算排序第三到第n的单域蛋白与模板的全局比对得分GTM-score3,GTM-score4,…,GTM-scoren;6.2.7)计算按照该顺序进行模板全局评价的全局比对得分其中wi为排序为第i的单域蛋白的权重,Li为排序为第i的单域蛋白的序列长度;6.3)取按照n!种顺序进行模板全局评价中全局比对得分最高值为该模板的最终得分;7)根据每个模板的最终得分从高到低进行排名,则排名第一的模板则为最优模板。本专利技术的技术构思为:首先,从蛋白质库中提取多域蛋白建立多域蛋白质库;然后,基于蛋白质结构比对工具TM-align计算模板蛋白对于每个单域蛋白的局部比对得分,并取最高值为模板的局部得分;其次,选出局部得分最高的前N(N取500)个模板进行全局评价,按照单域蛋白的比对顺序分多种情况进行评价,在评价过程中,模板中的各残基禁止重复比对,并且遵循查询蛋白中的各域的实际顺序比对,选出各种比对情况中全局比对得分最高值为模板的最终得分;最后,根据最终得分对进行排名,选择最终得分最高的模板为最终模板。本专利技术的有益效果表现在:一方面,基于TM-align,从单域蛋白的三维结构出发搜索模板,从而可以获取域之间的方向信息;另一方面,从局部到全局对模板进行评价,提高搜索效率。附图说明图1是基于TM-align的多域蛋白模板搜索方法的基本流程图。图2是基于TM-align的多域蛋白模板搜索方法对模板进行局部评价的示意图。图3是基于TM-align的多域蛋白模板搜索方法对模板进行全局评价的示意图。图4为序列长度为254的包含两个域的多域蛋白质2i53A的三维结构图。图5是多域蛋白质2i53A的最佳模板3rgfB的三维结构图。具体实施方式下面结合附图对本专利技术作进一步描述。参照图1~图3,一种基于TM-align的多域蛋白模板搜索方法,包括以下步骤:1)多域蛋白质库构建,过程如下:1.1)利用蛋白质域分割工具Domain-parser对蛋白质库PDB中的每一个蛋白进行分割;1.2)统计每个蛋白的域个数,并提取域个数大于2个蛋白构建多域蛋白质库;2)输入待预测的多域蛋白的各单域的三维结构;3)筛选出多域蛋白质库中序列长度大于待预测多域蛋白序列长度的所有模板蛋白;4)对筛选出的每一个模板蛋白进行局部评价,过程如下:4.1)采用蛋白质结构比对工具TM-align,依次计算每个单域蛋白和模板蛋白之间的比对得分,记录为TM-score1,TM-score2,…,TM-scoren,其中TM-scoren是第n个单域蛋白和模板蛋白之间的比对得分,n为单域蛋白的总个数;4.2)以步骤3.1)中单域蛋白比对最高的得分为该模板的局部评价得分Lscore,即Lscore=max(TM-score1,TM-score2,…,TM-scoren),其中max表示取最大值,如图2所示;5)根据每个蛋白的局部评价得分从高到低进行排名,并选出排名前N(N取500)个的模板蛋白;6)对步骤4)中选出的每一个模板蛋白进行全局评价,过程如下:6.1)计算单域蛋白比对顺本文档来自技高网
...
一种<a href="http://www.xjishu.com/zhuanli/55/201710382371.html" title="一种基于TM‑align的多域蛋白模板搜索方法原文来自X技术">基于TM‑align的多域蛋白模板搜索方法</a>

【技术保护点】
一种基于TM‑align的多域蛋白模板搜索方法,其特征在于:所述模板搜索方法包括以下步骤:1)多域蛋白质库构建,过程如下:1.1)利用蛋白质域分割工具Domain‑parser对蛋白质库PDB中的每一个蛋白进行分割;1.2)统计每个蛋白的域个数,并提取域个数大于2个蛋白构建多域蛋白质库;2)输入待预测的多域蛋白的各单域的三维结构;3)筛选出多域蛋白质库中序列长度大于待预测多域蛋白序列长度的所有模板蛋白;4)对筛选出的每一个模板蛋白进行局部评价,过程如下:4.1)采用蛋白质结构比对工具TM‑align,依次计算每个单域蛋白和模板蛋白之间的比对得分,记录为TM‑score1,TM‑score2,…,TM‑scoren,其中TM‑scoren是第n个单域蛋白和模板蛋白之间的比对得分,n为单域蛋白的总个数;4.2)以步骤3.1)中单域蛋白比对最高的得分为该模板的局部评价得分Lscore,即Lscore=max(TM‑score1,TM‑score2,…,TM‑scoren),其中max表示取最大值;5)根据每个蛋白的局部评价得分从高到低进行排名,并选出排名前N个的模板蛋白;6)对步骤4)中选出的每一个模板蛋白进行全局评价,过程如下:6.1)计算单域蛋白比对顺序的种数n!;6.2)根据每种比对顺序进行如下操作:6.2.1)采用TM‑align计算排序第一的单域蛋白与模板蛋白之间的全局比对得分GTM‑score1;6.2.2)将模板蛋白中第一个比对点和最后一个比对点之间的部分删除,计算剩余部分的序列长度,若大于其他没有比对的单域蛋白的序列长度之和,则继续6.2.3)6.2.3)若排序第二的单域蛋白在实际多域蛋白中的顺序在排序第一的蛋白之前,则执行6.2.4),否则执行6.2.5);6.2.4)采用TM‑align计算排序第二的单域蛋白与第一个比对点之前的模板蛋白的全局比对得分GTM‑score2;6.2.5)采用TM‑align计算排序第二的单域蛋白与最后一个比对点之后的模板蛋白的全局比对得分GTM‑score2;6.2.6)根据步骤6.2.1)‑6.2.5)依次计算排序第三到第n的单域蛋白与模板的全局比对得分GTM‑score3,GTM‑score4,…,GTM‑scoren;6.2.7)计算按照该顺序进行模板全局评价的全局比对得分...

【技术特征摘要】
1.一种基于TM-align的多域蛋白模板搜索方法,其特征在于:所述模板搜索方法包括以下步骤:1)多域蛋白质库构建,过程如下:1.1)利用蛋白质域分割工具Domain-parser对蛋白质库PDB中的每一个蛋白进行分割;1.2)统计每个蛋白的域个数,并提取域个数大于2个蛋白构建多域蛋白质库;2)输入待预测的多域蛋白的各单域的三维结构;3)筛选出多域蛋白质库中序列长度大于待预测多域蛋白序列长度的所有模板蛋白;4)对筛选出的每一个模板蛋白进行局部评价,过程如下:4.1)采用蛋白质结构比对工具TM-align,依次计算每个单域蛋白和模板蛋白之间的比对得分,记录为TM-score1,TM-score2,…,TM-scoren,其中TM-scoren是第n个单域蛋白和模板蛋白之间的比对得分,n为单域蛋白的总个数;4.2)以步骤3.1)中单域蛋白比对最高的得分为该模板的局部评价得分Lscore,即Lscore=max(TM-score1,TM-score2,…,TM-scoren),其中max表示取最大值;5)根据每个蛋白的局部评价得分从高到低进行排名,并选出排名前N个的模板蛋白;6)对步骤4)中选出的每一个模板蛋白进行全局评价,过程如下:6.1)计算单域蛋白比对顺序的种数n!;6.2)根...

【专利技术属性】
技术研发人员:张贵军周晓根王柳静郝小虎
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1