一种基于残基接触信息自学习的蛋白质结构预测方法技术

技术编号:20122743 阅读:38 留言:0更新日期:2019-01-16 12:56
一种基于残基接触信息自学习的蛋白质结构预测方法,首先,利用Robetta和RaptorX‑Contact得到片段库和接触图;其次,在种群进化第一阶段进行残基对距离分布的学习并建立信息熵指标反映种群的收敛程度,达到自主学习的目的;然后,在最后种群进化第二阶段,利用学习到的残基对距离分布信息建立评分函数,辅助能量函数进行构象空间搜索;最后,通过聚类得到最终预测结果。本发明专利技术提供一种蛋白质结构预测方法,一方面可以自主学习残基对距离信息,辅助能量函数进行构象空间优化;另一方面,构建信息熵指标,实现两阶段的动态切换。

A Self-learning Protein Structure Prediction Method Based on Residue Contact Information

A protein structure prediction method based on residue contact information self-learning is proposed. Firstly, fragment libraries and contact maps are obtained by Robetta and RaptorX Contact. Secondly, in the first stage of population evolution, residues are learned about distance distribution and information entropy index is established to reflect the convergence degree of population to achieve the goal of self-learning. Secondly, in the second stage of final population evolution, benefits are obtained. The distance distribution information is scored by the learned residues, and the energy function is used to search the conformation space. Finally, the final prediction results are obtained by clustering. The invention provides a protein structure prediction method. On the one hand, it can learn residues to optimize the conformation space of distance information and auxiliary energy function independently; on the other hand, it can construct information entropy index to realize two-stage dynamic switching.

【技术实现步骤摘要】
一种基于残基接触信息自学习的蛋白质结构预测方法
本专利技术涉及一种生物学信息学、智能优化、计算机应用领域,尤其涉及的是一种基于残基接触信息自学习的蛋白质结构预测方法。
技术介绍
蛋白质是由氨基酸以“脱水缩合”的方式组成的多肽链经过盘曲折叠形成的具有一定特定空间结构的生物大分子,从而在生物体中发挥某一特定功能。蛋白质的三维结构在药物设计、蛋白质工程和生物技术中具有重要意义。目前数以百万的蛋白质序列被解析出来,然而大部分的蛋白质结构未知。因此,蛋白质结构预测是一个重要的研究问题。蛋白质序列与结构之间的鸿沟主要原因是测序技术的快速发展和结构解析技术进步相对缓慢。蛋白质结构实验测定方法包括X射线晶体学、核磁共振光谱、和电子显微镜等,这些方法被广泛用于蛋白质结构测定。这些实验测定方法极其耗时,代价昂贵,而且容易发生错误。在理论和应用的双重驱动下,许多科学家利用计算机从氨基酸序列来预测蛋白质三维结构。根据Anfinsen原则,以计算机为工具,运用适当的算法,从氨基酸序列出发直接预测蛋白质的三维结构,成为当前生物信息学中一种主要的研究课题。而从头预测方法是针对没有全长同源模板的目标蛋白采用“从头”的方法建模。从现实意义来讲,该方法具有普遍性,对于序列相似度<20%或寡肽(<10个残基的小蛋白)来说,从头预测方法是唯一的选择。残基接触图是蛋白质三维结构的简约表达,并具有旋转平移不变性。结合机器学习,利用已有的大量基因组序列知识,分析共同进化残基序列,从而有效重构蛋白质三维结构。目前,预测的蛋白质接触图被成功应用于预测膜蛋白。接触图可以捕获远程残基对的作用力,尤其是β二级结构中的氢键作用。Rosetta在历届CASP赛事中表现突出,其提出Abinitio协议成为一种经典的基于片段组装的多阶段从头预测方法。此外,利用MonteCarlo算法对基于知识的能量函数进行优化,从而达到快速有效搜索构象空间的目的。然而该方法知识能量函数不能有效捕获残基间的远程作用力,并且在预测序列较长的目标蛋白时,固定代价下阶段切换容易导致“过采样”或者采样不充分影响预测精度的问题。因此,现有的多阶段蛋白质结构预测方法在多阶段采样和预测精度方面存在着缺陷,需要改进。
技术实现思路
为了克服现有的多阶段蛋白质结构预测方法在多阶段采样和预测精度方面的不足,本专利技术提供一种自主学习接触信息、预测精度高的基于残基接触信息自学习的蛋白质结构预测方法。本专利技术解决其技术问题所采用的技术方案是:一种基于残基接触信息自学习的蛋白质结构预测方法,所述方法包括以下步骤:1)给定输入序列信息,利用Robetta服务器获得该序列的片段库;2)利用RaptorX-Contact预测该序列的接触图,获得N个残基对的接触情况,并将接触图中的第k个残基对间的接触,接触是指Cα-Cα欧氏距离小于接触概率表示为Pk,k∈{1,...,N};3)初始化:种群规模NP,信息熵阈值α,种群第一阶段和第二阶段最大迭代次数分别为G1,G2,根据输入序列,执行RosettaAbinitio协议的第一与第二阶段NP次,产生初始构象种群P={C1,C2,...,CNP},其中CNP表示第NP个个体,记当前代数g=0;4)进入种群进化第一阶段,过程如下:4.1)利用能量函数Rosettascore3对种群所有个体进行评分,并由高到低排序;4.2)对前50%的个体分别进行片段组装,片段长度为9,并且根据Metropolis准则概率接收,g=g+1;5)计算当前种群的熵值,过程如下:5.1)残基对间距离离散化:根据第k个残基对的Cα-Cα欧氏距离dk,满足以为间隔将dk离散化为13个区域,每个区域对应相应的距离范围,规则如下:表示向下取整,B表示区域索引号,B∈{1,...,13};5.2)计算种群在第k个残基对落入第B块区域的比例qk,B;5.3)学习当前种群的残基对的距离分布:当g=0,令其中w是学习保守因子,0≤w≤1;5.4)根据当前种群的分布情况建立信息熵指标6)判断种群是否满足切换条件E<α或者g>G1,若满足,结束种群进化第一阶段,执行下一步;否则返回步骤4);7)记第一阶段最终学习得到的残基对距离分布为Lk,B,并记g=0;8)进入种群进化第二阶段,过程如下:8.1)以个体Ci,i∈{1,...,NP}为目标个体,对其进行片段组装,片段长度为3,得到测试个体Ci′;8.2)利用Rosettascore3评价Ci和Ci′,得到各自的能量值为E和E′;8.3)利用残基对距离分布Lk,B建立残基对距离评分函数,分别计算Ci和Ci′的k个残基对距离落入的区域,记为b1,b2,...,bm...,bk和b1′,b2′,...,bn′...,bk′,bm∈{1,2...,13},bn′∈{1,2...,13},m∈{1,2...,k},n∈{1,2...,k},该评分函数可以表示为:8.4)若满足E>E′,S>S′,则接受Ci′,令Ci=Ci′;8.5)否则随机选择能量函数或者残基对距离评分函数,并根据Metropolis标准选择;8.6)遍历当前种群所有个体,得到下一代种群,令g=g+1;8.7)判断是否满足终止条件g>G2,若满足,结束种群进化第二阶段,执行下一步;否则返回8.1);9)利用SPICKER(https://zhanglab.ccmb.med.umich.edu/SPICKER/)对第二阶段接受的构象进行聚类,将最大类的类心构象看作最终预测结果。本专利技术的技术构思为:首先,利用Robetta和RaptorX-Contact得到片段库和接触图;其次,在种群进化第一阶段进行残基对距离分布的学习并建立信息熵指标反映种群的收敛程度,达到自主学习的目的;然后,在最后种群进化第二阶段,利用学习到的残基对距离分布信息建立评分函数,辅助能量函数进行构象空间搜索;最后,通过聚类得到最终预测结果。本专利技术的有益效果表现在:一方面,同过建立信息熵指标,达到动态切换的目的;另一方面,通过学习残基对距离分布,建立评分函数,辅助能量函数有效进行构象空间搜索,提高最终预测精度。附图说明图1是基于残基接触信息自学习的蛋白质结构预测方法的基本流程图。图2是基于残基接触信息自学习的蛋白质结构预测方法中对蛋白质1M6TA进行结构预测过程中Metropolis标准接受构象的能量与天然态对比的RMSD分布。图3是基于残基接触信息自学习的蛋白质结构预测方法对蛋白质1M6TA进行结构预测得到的三维结构图。具体实施方式下面结合附图对本专利技术作进一步描述。参照图1~图3,一种基于残基接触信息自学习的蛋白质结构预测方法,包括以下步骤:1)给定输入序列信息,利用Robetta服务器获得该序列的片段库;2)利用RaptorX-Contact预测该序列的接触图,获得N个残基对的接触情况,并将接触图中的第k个残基对间的接触,接触是指Cα-Cα欧氏距离小于接触概率表示为Pk,k∈{1,...,N};3)初始化:种群规模NP,信息熵阈值α,种群第一阶段和第二阶段最大迭代次数分别为G1,G2,根据输入序列,执行RosettaAbinitio协议的第一与第二阶段NP次,产生初始构象种群P={C1,本文档来自技高网
...

【技术保护点】
1.一种基于残基接触信息自学习的蛋白质结构预测方法,其特征在于:所述蛋白质结构预测方法包括以下步骤:1)给定输入序列信息,利用Robetta服务器获得该序列的片段库;2)利用RaptorX‑Contact预测该序列的接触图,获得N个残基对的接触情况,并将接触图中的第k个残基对间的接触,接触是指Cα‑Cα欧氏距离小于

【技术特征摘要】
1.一种基于残基接触信息自学习的蛋白质结构预测方法,其特征在于:所述蛋白质结构预测方法包括以下步骤:1)给定输入序列信息,利用Robetta服务器获得该序列的片段库;2)利用RaptorX-Contact预测该序列的接触图,获得N个残基对的接触情况,并将接触图中的第k个残基对间的接触,接触是指Cα-Cα欧氏距离小于接触概率表示为Pk,k∈{1,...,N};3)初始化:种群规模NP,信息熵阈值α,种群第一阶段和第二阶段最大迭代次数分别为G1,G2,根据输入序列,执行RosettaAbinitio协议的第一与第二阶段NP次,产生初始构象种群P={C1,C2,...,CNP},其中CNP表示第NP个个体,记当前代数g=0;4)进入种群进化第一阶段,过程如下:4.1)利用能量函数Rosettascore3对种群所有个体进行评分,并由高到低排序;4.2)对前50%的个体分别进行片段组装,片段长度为9,并且根据Metropolis准则概率接收,g=g+1;5)计算当前种群的熵值,过程如下:5.1)残基对间距离离散化:根据第k个残基对的Cα-Cα欧氏距离dk,满足以为间隔将dk离散化为13个区域,每个区域对应相应的距离范围,具体规则如下:表示向下取整,B表示区域索引号,B∈{1,...,13};5.2)计算种群在第k个残基对落入第B块区域的比例qk,B;5.3)学习当前种群的残基对的距离分布:当g=0,令其中w是学习...

【专利技术属性】
技术研发人员:张贵军谢腾宇马来发周晓根王柳静郝小虎
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利