A search method, multi domain protein TM template based on align firstly, establish multi domain protein extraction multi domain protein library from protein library; then, the calculation for each local alignment template protein single domain protein score of protein structure comparison tool TM based on align, and the highest value for the local score template; secondly local, elected the 500 highest scoring template for global evaluation, according to the sequence alignment of single domain protein are evaluated in the evaluation process, the residues in the template against repeated comparison, and according to the actual sequence alignment query of the domain in the egg white, choose a variety of alignment in the global alignment score the highest value for the final score of the template; finally, according to the final score of the final ranking, select the highest scoring template for the final template. The method can obtain the best template quickly and obtain the direction information between the domains, and the quality of the template is higher.
【技术实现步骤摘要】
一种基于TM-align的多域蛋白模板搜索方法
本专利技术涉及一种生物学信息学、智能优化、计算机应用领域,尤其涉及的是一种基于TM-align的多域蛋白模板搜索方法。
技术介绍
大规模蛋白通常由多个结构和功能不同的单域蛋白组成,据统计,现有蛋白质库(ProteinDataBank,PDB)中有32.7%的蛋白至少包含两个单域蛋白,超过5个单域的蛋白数量较少,并且最大的蛋白包含20个单域。另外,一个蛋白是多域蛋白的概率随着其序列长度的增长而变大,统计显示,超过50%的序列长度大于275的蛋白至少包含两个单域蛋白,大部分多域蛋白包含150个左右的残基,很少有超过600个残基的,最大的多域蛋白序列长度为1317。从而可以看出,对于这些大规模的多域蛋白,通过实验测定的方法来预测其三维结构极其困难和费时。现有单域蛋白结构预测方法(如QUARK、I-TASSER和ROSETTA等)对于单域蛋白的结构预测精度已经达到了一定的高度,但是对于多域蛋白的结构预测确显得力不从心;而且,在这些单域蛋白结构预测方法中,能量函数的设计中考虑了单域蛋白内的因素,在多域蛋白结构预测中无法使用。目前,常用的多域蛋白预测方法有两类,即利用单域蛋白预测方法预测出个单域蛋白的结构,然后对单域和单域之间的连接区域进行采样或对多个域进行对接。在单域和单域对接过程中,通过模板的引导会提高预测精度。大部分模板搜索方法基于穿线方法,即从氨基酸序列出发利用溶剂可及性和二级结构信息等进行搜索。然而,多域蛋白的组装过程仅仅利用信息而不根据单域的三维结构信息搜索模板,导致无法获取域和域之间的方向信息,从而导致预测 ...
【技术保护点】
一种基于TM‑align的多域蛋白模板搜索方法,其特征在于:所述模板搜索方法包括以下步骤:1)多域蛋白质库构建,过程如下:1.1)利用蛋白质域分割工具Domain‑parser对蛋白质库PDB中的每一个蛋白进行分割;1.2)统计每个蛋白的域个数,并提取域个数大于2个蛋白构建多域蛋白质库;2)输入待预测的多域蛋白的各单域的三维结构;3)筛选出多域蛋白质库中序列长度大于待预测多域蛋白序列长度的所有模板蛋白;4)对筛选出的每一个模板蛋白进行局部评价,过程如下:4.1)采用蛋白质结构比对工具TM‑align,依次计算每个单域蛋白和模板蛋白之间的比对得分,记录为TM‑score1,TM‑score2,…,TM‑scoren,其中TM‑scoren是第n个单域蛋白和模板蛋白之间的比对得分,n为单域蛋白的总个数;4.2)以步骤3.1)中单域蛋白比对最高的得分为该模板的局部评价得分Lscore,即Lscore=max(TM‑score1,TM‑score2,…,TM‑scoren),其中max表示取最大值;5)根据每个蛋白的局部评价得分从高到低进行排名,并选出排名前N个的模板蛋白;6)对步骤4)中选出 ...
【技术特征摘要】
1.一种基于TM-align的多域蛋白模板搜索方法,其特征在于:所述模板搜索方法包括以下步骤:1)多域蛋白质库构建,过程如下:1.1)利用蛋白质域分割工具Domain-parser对蛋白质库PDB中的每一个蛋白进行分割;1.2)统计每个蛋白的域个数,并提取域个数大于2个蛋白构建多域蛋白质库;2)输入待预测的多域蛋白的各单域的三维结构;3)筛选出多域蛋白质库中序列长度大于待预测多域蛋白序列长度的所有模板蛋白;4)对筛选出的每一个模板蛋白进行局部评价,过程如下:4.1)采用蛋白质结构比对工具TM-align,依次计算每个单域蛋白和模板蛋白之间的比对得分,记录为TM-score1,TM-score2,…,TM-scoren,其中TM-scoren是第n个单域蛋白和模板蛋白之间的比对得分,n为单域蛋白的总个数;4.2)以步骤3.1)中单域蛋白比对最高的得分为该模板的局部评价得分Lscore,即Lscore=max(TM-score1,TM-score2,…,TM-scoren),其中max表示取最大值;5)根据每个蛋白的局部评价得分从高到低进行排名,并选出排名前N个的模板蛋白;6)对步骤4)中选出的每一个模板蛋白进行全局评价,过程如下:6.1)计算单域蛋白比对顺序的种数n!;6.2)根...
【专利技术属性】
技术研发人员:张贵军,周晓根,王柳静,郝小虎,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。