一种基于多种群系综变异策略的蛋白质结构预测方法技术

技术编号:20656119 阅读:28 留言:0更新日期:2019-03-23 07:38
一种基于多种群系综变异策略的蛋白质结构预测方法,在进化算法框架下,在进化算法框架下,首先,把种群平均分为四个子种群,并且通过各子种群中的构象协同合作,对每一个子种群分别设计不同的变异策略;其次根据Rosetta能量函数score3、距离误差系数以及蒙特卡洛概率接收准则对构象进行选择,来指导构象的更新过程,不仅能够缓解能量函数不精确的问题,而且可以引导算法采样得到能量更低且结构更合理的构象,同时提高采样效率。本发明专利技术提供一种采样效率和预测精度都较高的基于多种群系综变异策略的蛋白质结构预测方法。

A protein structure prediction method based on multi-population ensemble mutation strategy

A protein structure prediction method based on multi-population ensemble mutation strategy is proposed. In the framework of evolutionary algorithm and evolutionary algorithm, the population is divided into four sub-populations on average, and different mutation strategies are designed for each sub-population through conformation collaboration in each sub-population. Secondly, according to Rosetta energy function score3, distance error coefficient and Mongolia, different mutation strategies are designed for each sub-population. The TeCarlo probability acceptance criterion not only alleviates the problem of inaccurate energy function, but also guides the algorithm to sample the conformation with lower energy and more reasonable structure, and at the same time improves the sampling efficiency. The invention provides a protein structure prediction method based on multi-population ensemble mutation strategy with high sampling efficiency and prediction accuracy.

【技术实现步骤摘要】
一种基于多种群系综变异策略的蛋白质结构预测方法
本专利技术涉及生物信息学、计算机应用领域,尤其涉及的是一种基于多种群系综变异策略的蛋白质结构预测方法。
技术介绍
计算机硬件和软件技术的快速发展,为从头预测方法的发展提供了结实的基础平台条件。蛋白质结构从头预测方法取得的进展和突破,进一步促进了计算机科学、进化计算的学科研究人员的广泛参与,使其成为近年来蛋白质结构预测领域中最为活跃的一个多学科研究课题。2012年《Science》杂志发表的一篇综述文章中,美国科学院院士Dill教授回顾了50年来从头预测领域取得的进展,并指出在寻求这一问题答案的过程中,极大推动了超级计算机、新材料和药物发现的发展,帮助人们理解生命的基本过程。从头预测方法目前还面临着诸多困难和挑战。从头预测方法直接基于蛋白质物理或知识能量模型,利用优化算法在构象空间搜索全局最低能量构象解。构象空间优化方法是目前制约蛋白质结构从头预测精度最关键的因素之一。优化算法应用于从头预测采样过程必须首先解决一下三个方面的问题:(1)能量的复杂性。(2)能量模型的高维特性。(3)能量模型的不精确性。目前,我们还远远无法构建起能引导目标序列朝正确方向折叠的足够精确力场,导致数学上的最优解并不一定对应于目标蛋白的天然结构;此外,模型的不精确性也会导致无法对优化算法性能进行客观地分析。蛋白质构象空间优化的本质复杂性,使其成为蛋白质结构从头预测领域中一个极具挑战性的研究课题。为了能够利用计算机在巨大的采样空间中发现唯一的蛋白质天然结构,就必须设计高效的构象空间优化算法将其转化为可实际操作的计算问题。差分进化算法(DE)由于其结构简单,易于实现,鲁棒性强和收敛速度快等优点已被成功应用于蛋白结构预测。然而,随着氨基酸序列的增长,蛋白质分子体系自由度也增大,利用传统群体算法采样获得大规模蛋白质构象空间的全局最优解成为一项挑战性的工作;其次,粗粒度模型虽然减小了构象搜索空间,但是也导致了相互作用力之间的信息丢失,从而直接影响预测精度。因此,现有的蛋白质结构预测方法采样效率和预测精度方面存在不足,需要改进。
技术实现思路
为了克服现有的蛋白质结构预测方法采样效率低、种群多样性差、预测精度较低的不足,本专利技术在基本差分进化算法框架下,引入多种群变异策略来指导构象空间优化,提出一种采样效率高、预测精度高的基于多种群系综变异策略的蛋白质结构预测方法。本专利技术解决其技术问题所采用的技术方案是:一种基于多种群系综变异策略的蛋白质结构预测方法,所述预测方法包括以下步骤:1)给定目标蛋白的序列信息;2)根据目标蛋白序列从ROBETTA服务器(http://www.robetta.org/)上得到片段库文件,其中包括3片段库文件和9片段库文件;3)根据序列信息从QUARK服务器(https://zhanglab.ccmb.med.umich.edu/QUARK/)上得到距离谱文件;4)设置参数:种群大小NP,算法的最大迭代代数G,交叉因子CR,温度因子β,置迭代代数g=0;5)种群初始化:随机片段组装生成NP个初始构象Ci,i={1,2,…,NP},把NP个个体平均分成四个子种群,即和其中,j={1,2,…,NP/4},k={NP/4+1,…,NP/2},m={NP/2+1,…,NP3/4},n={3NP/4+1,…,NP};6)对第一个子种群中的个体进行如下操作:6.1)将设为目标个体在第一个子种群中随机选出一个构象个体从剩下的三个子种群中随机选择两个子种群,再分别从这两个子种群中随机取出两个个体Ca,Cb,分别从Ca、Cb中随机选择一个位置不同的9片段,分别替换到对应的位置的片段生成变异构象对进行一次片段组装生成构象6.2)随机生成一个0和1之间的均匀分布小数R,若R>CR,则从上随机选择一个9片段替换到对应位置;否则保持不变,把这一操作的到的构象记为测试构象6.3)用Rosettascore3能量函数分别计算与的能量:和6.4)若则构象替换接收次数count1加1,并转到步骤6.8),否则,继续执行步骤6.5);6.5)根据距离谱中的残基对分别计算和的残基间距离和然后分别根据公式(1)、(2)计算和的距离误差系数Dtrial和Dtarget,其中,T表示距离谱中残基对的数量,和分别表示和构象中第t对残基对应Cα原子之间的距离,dN表示距离谱第N个距离区间中距离谱的平均值,PDN表示距离谱长度在区间N内的数量,距离谱中距离范围为(0,9),距离间隔为0.5,即距离区间为(0,0.5],(0.5,1],…,(8.5,9);6.6)若Dtrial<Dtarget,则构象替换构象接收次数count1加1,否则进行步骤6.7);6.7)计算目标构象和测试构象的距离误差系数差▽D=Dtarget-Dtrial,按照概率以蒙特卡洛准则接受构象其中β为温度因子;6.8)j=j+1,迭代运行步骤6.1)~6.8),至j=NP/4为止;7)对第二个子种群中每一个构象进行操作,操作如下:7.1)将构象记作目标个体从第二个子种群中选择一个能量最低的构象从其它三个子群中随机选择其中两个种群,并从它们中的分别随机选择两个构象Cc、Cd,分别对Cc、Cd不同位置随机选择一个9片段,替换给对应的位置,生成对进行一次片段组装生成构象7.2)根据6.2)~6.7)对应的步骤对和进行操作,其中,测试构象被接收的次数记为count2;7.3)k=k+1,迭代运行步骤7.1)~7.2),至k=NP/2为止;8)对第三组子种群中每个构象进行操作,操作如下:8.1)将构象记为目标个体对第三组子种群按能量从小到大进行排序,在前一半的构象中随机选择一个个体然后从其它三个子种群中随机选择两个子种群,再从这两个子种群中分别随机选择构象Ce和Cf,分别对Ce、Cf不同位置随机选择一个9片段,替换给Cpbest对应的位置,生成对进行一次片段组装生成构象8.2)根据6.2)~6.7)对应的步骤对构象和进行操作,其中,测试构象被接收的次数记为count3;8.3)m=m+1,迭代运行步骤8.1)~8.2),至k=NP3/4为止;9)对第四组子种群中的所有构象进行Rosetta片段组装操作;10)迭代运行步骤6)~9),每隔20代统计count1、count2、count3的大小,选择count1、count2、count3中的最大值所对应的种群变异策略的方式对第四个子种群进行变异,根据步骤6.2)~6.8)进行操作,并把count1、count2、count3置零;11)g=g+1,迭代运行步骤6)~10),至g>G为止;12)输出结果。本专利技术的技术构思为:在进化算法框架下,首先,把种群平均分为四个子种群,并且通过各子种群中的构象协同合作,对每一个子种群分别设计不同的变异策略;其次根据Rosetta能量函数score3、距离误差系数以及蒙特卡洛概率接收准则对构象进行选择,来指导构象的更新过程,,不仅能够缓解能量函数不精确的问题,而且可以引导算法采样得到能量更低且结构更合理的构象,同时提高采样效率。本专利技术提供一种采样效率和预测精度都较高的基于多种群系综变异策略的蛋白质结构预测方法。本专利技术的有益效果为:通过多种群之间的合作指导本文档来自技高网
...

【技术保护点】
1.一种基于多种群系综变异策略的蛋白质结构预测方法,其特征在于:所述方法包括以下步骤:1)给定目标蛋白的序列信息;2)根据目标蛋白序列从ROBETTA服务器上得到片段库文件,其中包括3片段库文件和9片段库文件;3)根据序列信息从QUARK服务器上得到距离谱文件;4)设置参数:种群大小NP,算法的最大迭代代数G,交叉因子CR,温度因子β,置迭代代数g=0;5)种群初始化:随机片段组装生成NP个初始构象Ci,i={1,2,…,NP},把NP个个体平均分成四个子种群,即

【技术特征摘要】
1.一种基于多种群系综变异策略的蛋白质结构预测方法,其特征在于:所述方法包括以下步骤:1)给定目标蛋白的序列信息;2)根据目标蛋白序列从ROBETTA服务器上得到片段库文件,其中包括3片段库文件和9片段库文件;3)根据序列信息从QUARK服务器上得到距离谱文件;4)设置参数:种群大小NP,算法的最大迭代代数G,交叉因子CR,温度因子β,置迭代代数g=0;5)种群初始化:随机片段组装生成NP个初始构象Ci,i={1,2,…,NP},把NP个个体平均分成四个子种群,即和其中,j={1,2,…,NP/4},k={NP/4+1,…,NP/2},m={NP/2+1,…,NP3/4},n={3NP/4+1,…,NP};6)对第一个子种群中的个体进行如下操作:6.1)将设为目标个体在第一个子种群中随机选出一个构象个体从剩下的三个子种群中随机选择两个子种群,再分别从这两个子种群中随机取出两个个体Ca,Cb,分别从Ca、Cb中随机选择一个位置不同的9片段,分别替换到对应的位置的片段生成变异构象对进行一次片段组装生成构象6.2)随机生成一个0和1之间的均匀分布小数R,若R>CR,则从上随机选择一个9片段替换到对应位置;否则保持不变,把这一操作的到的构象记为测试构象6.3)用Rosettascore3能量函数分别计算与的能量:和6.4)若则构象替换接收次数count1加1,并转到步骤6.8),否则,继续执行步骤6.5);6.5)根据距离谱中的残基对分别计算和的残基间距离和然后分别根据公式(1)、(2)计算和的距离误差系数Dtrial和Dtarget,其中,T表示距离谱中残基对的数量,和分别表示和构象中第t对残基对应Cα原子之间的距离,dN表示距离谱第N个距离区间中距离谱的平均值,PDN表示距离谱长度在区间N内的数量,距离谱中距离范围为(0,9),距离间隔为0.5,即距离区间为(0,0.5],(0.5,1],…,(8.5,9);6.6)若Dtrial<D...

【专利技术属性】
技术研发人员:张贵军彭春祥周晓根刘俊王柳静胡俊
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1