一种基于简约抽象凸估计的蛋白质构象空间优化方法技术

技术编号:19635385 阅读:31 留言:0更新日期:2018-12-01 16:03
一种基于简约抽象凸估计的蛋白质构象空间优化方法,首先,根据局部最优构象信息进行变异过程,生成较优的测试构象,从而提高采样效率;其次,通过学习过程来动态更新斜率控制因子,避免斜率控制因子影响能量下界估计值的精确性;然后,根据测试构象邻近构象个体的抽象凸下界估计支撑向量计算测试构象的能量下界估计值,减小计算复杂度;最后,根据能量下界估计值指导构象选择,从而避免不必要的能量函数评价次数,减小计算代价。本发明专利技术提供一种计算代价低、搜索效率高的基于简约抽象凸估计的蛋白质构象空间优化方法。

A protein conformation space optimization method based on reduced abstract convex estimation

A method of protein conformation space optimization based on concise abstract convex estimation is proposed. Firstly, according to the local optimal conformation information, the mutation process is carried out to generate a better test conformation, so as to improve the sampling efficiency. Secondly, the slope control factor is dynamically updated through the learning process to avoid the slope control factor affecting the energy lower bound estimation. The accuracy of the evaluation; then, the energy lower bound estimation of the test conformation is calculated based on the support vector of the abstract convex lower bound estimation of the individual adjacent to the test conformation, which reduces the computational complexity; finally, the conformation selection is guided by the energy lower bound estimation, thus avoiding unnecessary evaluation times of the energy function and reducing the computational cost. \u3002 The present invention provides a protein conformation space optimization method based on concise abstract convex estimation with low computational cost and high search efficiency.

【技术实现步骤摘要】
一种基于简约抽象凸估计的蛋白质构象空间优化方法
本专利技术涉及一种生物学信息学、智能优化、计算机应用领域,尤其涉及的是,一种基于简约抽象凸估计的蛋白质构象空间优化方法。
技术介绍
生物细胞中包含许多由20多种氨基酸所形成的长链折叠而成的蛋白质,蛋白质结构预测问题是当今计算生物学领域中的研究热点,不仅具有非常重要的理论机制,而且对新蛋白的设计、蛋白质之间相互作用建模、药物标靶蛋白的设计具有十分重要的指导意义。测定蛋白质三维结构的实验方法主要包括X射线晶体衍射和多维核磁共振(NMR)。X射线晶体衍射是目前测定蛋白质结构最有效的方法,所达到的精度是其它方法所不能比拟的,主要缺点是蛋白质晶体难以培养且晶体结构测定的周期较长;NMR方法可以直接测定蛋白质在溶液中的构象,但是对样品的需要量大、纯度要求高,目前只能测定小分子蛋白质。因此,如何以计算机为工具,运用适当的算法,从氨基酸序列出发直接预测蛋白质的三维结构,成为当前生物信息学中一种重要的研究课题。从头预测方法直接基于Anfinsen假说建立蛋白质物理或知识能量模型,然后设计适当优化算法求解最小能量构象。可以看出,从头预测方法必须考虑以下两个因素:(1)知识能量的构建;(2)构象空间搜索方法。第一个因素本质上属于分子力学问题,主要是为了能够计算得到每个蛋白质结构对应的能量值。第二个因素本质上属于全局优化问题,通过选择一种合适的优化方法,对构象空间进行快速搜索,得到能量最低构象。其中,蛋白质构象空间优化属于一类非常难解的NP-Hard问题。进化算法(EvolutionAlgorithm,EA)是研究蛋白质分子构象优化的一类重要方法,主要包括遗传算法(GeneticAlgorithms,GA)、差分进化算法(DifferentialEvolution,DE)及分布估计算法(EstimationofDistributionAlgorithm,EDA)。DE算法自1995年由Price和Storn提出以来,在蛋白质构象空间优化领域有了广泛的应用。Shehu研究小组基于DE算法,提出一系列有效的蛋白质构象空间优化方法,如多尺度混合进化算法HEA,多目标构象空间优化方法MOEA,基于数据驱动的蛋白质能量空间映射方法PCA-EA等。在DE算法的框架下,张贵军课题组提出了基于抽象凸内核空间引导的构象优化方法和基于片段结构谱知识引导的构象优化方法。然而,在上述优化方法中,需要对能量函数进行大量的评价,从而导致计算代价较大;其次,后期收敛速度较慢,从而导致构象搜索效率较低。因此,现有的构象空间优化方法在计算代价和搜索效率方面存在着缺陷,需要改进。
技术实现思路
为了克服现有的蛋白质构象空间优化方法在计算代价和搜索效率方面的不足,本专利技术提出一种计算代价低、搜索效率高的基于简约抽象凸估计的蛋白质构象空间优化方法。本专利技术解决其技术问题所采用的技术方案是:一种基于简约抽象凸估计的蛋白质构象空间优化方法,所述方法包括以下步骤:1)输入待测蛋白质的序列信息;2)根据序列信息从ROBETTA服务器(http://www.robetta.org/)上得到片段库;3)参数设置:设置种群规模NP,交叉概率CR,片段长度l,最大迭代次数Gmax,学习代数Glen,斜率控制因子M,并初始化迭代次数G=0;4)种群初始化:对各残基位对应的片段进行随机组装生成初始种群P={C1,C2,...,CNP},Ci,i={1,2,…,NP}为种群P中的第i个构象个体;5)对种群中的每个构象Ci,i∈{1,2,…,NP}作如下处理:5.1)从当前种群中随机选取四个互不相同的构象个体Ca、Cb、Cc和Cd,其中a≠b≠c≠d≠i;5.2)根据Rosettascore3能量函数计算Ca、Cb、Cc和Cd的能量,并选出一个能量最低的构象记作Clbest;5.3)分别从除了Clbest以外的其它三个构象中随机选取一个位置互不相同的片段替换构象Clbest对应位置的片段得到变异构象Cmutant;5.4)随机生成一个0和1之间的随机小数R,如果R<CR,则从构象Ci中随机选取一个片段替换变异构象Cmutant中对应位置的片段,从而生成测试构象Ctrial,否则直接将变异构象看作测试构象;5.5)以所有Cα原子坐标表示每个构象的位置,计算当前种群中每个构象个体与测试构象Ctrial之间的欧氏距离,选出与测试构象最近的构象个体Cnb;5.6)计算测试构象Cnb的抽象凸下界估计支撑向量l:其中,E(Cnb)为根据Rosettascore能量函数计算得到的构象Cnb的能量,t∈{1,2,...,3L}为构象Cnb位置坐标的第t维元素,为松弛变量,M为斜率控制因子;5.7)计算测试构象Ctrial的能量下界估计值其中lt为支撑向量l的第t维元素,为测试构象Ctrial位置坐标的第t维元素;5.8)根据Rosettascore3能量函数计算构象Ci能量值E(Ci);5.9)如果g<Glen,则进行如下操作:5.9.1)根据Rosettascore3能量函数计算测试构象Ctrial的能量值E(Ctrial);5.9.2)计算构象Ci的个体斜率控制因子Ki:5.9.3)如果Ki>M,则M=Ki;5.9.4)如果E(Ctrial)>E(Ci),则测试构象Ctrial替换构象Ci,否则构象Ci保持不变;5.10)如果g≥Glen,则进行如下操作:5.10.1)如果则构象Ci保持不变,否则进行步骤5.10.2);5.10.2)根据Rosettascore3能量函数计算测试构象Ctrial的能量值E(Ctrial),并根据步骤5.9.4)选择构象;6)g=g+1,如果g>Gmax,则输出能量最低的构象作为最终预测结构,否则返回步骤5)。本专利技术的技术构思为:首先,根据局部最优构象信息进行变异过程,生成较优的测试构象,从而提高采样效率;其次,通过学习过程来动态更新斜率控制因子,避免斜率控制因子影响能量下界估计值的精确性;然后,根据测试构象邻近构象个体的抽象凸下界估计支撑向量计算测试构象的能量下界估计值,减小计算复杂度;最后,根据能量下界估计值指导构象选择,从而避免不必要的能量函数评价次数,减小计算代价。本专利技术提供一种计算代价低、搜索效率高的基于简约抽象凸估计的蛋白质构象空间优化方法。本专利技术的有益效果表现在:一方面,根据局部最优构象信息指导变异过程,从而达到平衡种群多样性和采样效率的效果;另一方面,根据抽象凸能量下界估计信息指导构象选择,减少能量函数评价次数,从而降低计算代价。附图说明图1是基于简约抽象凸估计的蛋白质构象空间优化方法对蛋白质4ICB进行结构预测时的构象更新示意图。图2是基于简约抽象凸估计的蛋白质构象空间优化方法对蛋白质4ICB进行结构预测时得到的构象分布图。图3是基于简约抽象凸估计的蛋白质构象空间优化方法对蛋白质4ICB进行结构预测得到的三维结构图。具体实施方式下面结合附图对本专利技术作进一步描述。参照图1~图3,一种基于简约抽象凸估计的蛋白质构象空间优化方法,包括以下步骤:1)输入待测蛋白质的序列信息;2)根据序列信息从ROBETTA服务器(http://www.ro本文档来自技高网
...

【技术保护点】
1.一种基于简约抽象凸估计的蛋白质构象空间优化方法,其特征在于:所述优化方法包括以下步骤:1)输入待测蛋白质的序列信息;2)根据序列信息从ROBETTA服务器上得到片段库;3)参数设置:设置种群规模NP,交叉概率CR,片段长度l,最大迭代次数Gmax,学习代数Glen,斜率控制因子M,并初始化迭代次数G=0;4)种群初始化:对各残基位对应的片段进行随机组装生成初始种群P={C1,C2,...,CNP},Ci,i={1,2,…,NP}为种群P中的第i个构象个体;5)对种群中的每个构象Ci,i∈{1,2,…,NP}作如下处理:5.1)从当前种群中随机选取四个互不相同的构象个体Ca、Cb、Cc和Cd,其中a≠b≠c≠d≠i;5.2)根据Rosetta score3能量函数计算Ca、Cb、Cc和Cd的能量,并选出一个能量最低的构象记作Clbest;5.3)分别从除了Clbest以外的其它三个构象中随机选取一个位置互不相同的片段替换构象Clbest对应位置的片段得到变异构象Cmutant;5.4)随机生成一个0和1之间的随机小数R,如果R

【技术特征摘要】
1.一种基于简约抽象凸估计的蛋白质构象空间优化方法,其特征在于:所述优化方法包括以下步骤:1)输入待测蛋白质的序列信息;2)根据序列信息从ROBETTA服务器上得到片段库;3)参数设置:设置种群规模NP,交叉概率CR,片段长度l,最大迭代次数Gmax,学习代数Glen,斜率控制因子M,并初始化迭代次数G=0;4)种群初始化:对各残基位对应的片段进行随机组装生成初始种群P={C1,C2,...,CNP},Ci,i={1,2,…,NP}为种群P中的第i个构象个体;5)对种群中的每个构象Ci,i∈{1,2,…,NP}作如下处理:5.1)从当前种群中随机选取四个互不相同的构象个体Ca、Cb、Cc和Cd,其中a≠b≠c≠d≠i;5.2)根据Rosettascore3能量函数计算Ca、Cb、Cc和Cd的能量,并选出一个能量最低的构象记作Clbest;5.3)分别从除了Clbest以外的其它三个构象中随机选取一个位置互不相同的片段替换构象Clbest对应位置的片段得到变异构象Cmutant;5.4)随机生成一个0和1之间的随机小数R,如果R<CR,则从构象Ci中随机选取一个片段替换变异构象Cmutant中对应位置的片段,从而生成测试构象Ctrial,否则直接将变异构象看作测试构象;5.5)以所有Cα原子坐标表示每个构象的位置,计算当前种群中每个构象个体与测试构象Ctri...

【专利技术属性】
技术研发人员:周晓根张贵军彭春祥刘俊胡俊王柳静
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1