一种多级个体筛选进化蛋白质结构预测方法技术

技术编号:20162459 阅读:19 留言:0更新日期:2019-01-19 00:15
一种多级个体筛选进化蛋白质结构预测方法,包括以下步骤:参数设置并初始化种群;基于进化算法框架,采用Rosetta score3能量函数作为优化目标,使用片段组装技术作为的变异策略,增加同代种群多样性,多级个体筛选方法用于进一步增加不同代种群间的多样性,并采用Monte Carlo算法对每个个体做局部增强得到当前的局部最优解,最终可以获得全局最优结构。本发明专利技术提供了一种有效的蛋白质结构从头预测方法。

【技术实现步骤摘要】
一种多级个体筛选进化蛋白质结构预测方法
本专利技术涉及生物信息学、计算机应用领域,尤其涉及的是一种多级个体筛选进化蛋白质结构预测方法。
技术介绍
人类基因组序列图的成功绘制,意味着人类基因组计划的所有预定目标全部实现,也标志着人类基因组计划的胜利完成和后基因组时代的来临。在后基因组时代,研究工作的重心从基因测序转向了基因组功能的识别:根据蛋白质分子的氨基酸序列预测其空间结构。这将使人们更系统的理解生物信息从DNA到具有生物活性蛋白质的遗传信息传递过程,使中心法则得到更为详尽的阐明,进而对生命过程中的各种现象有进一步的深刻认识,最终推动生命科学的向前发展。蛋白质结构预测除了其自身的理论意义外,还具有很重要的实际应用意义。人们希望通过研究蛋白质的空间结构来了解其内在机理,这样不仅可以对疾病进行有效的预测和控制,还可以按照人们的设想设计出符合特定需求的非天然蛋白质。蛋白质构象优化问题现在面临最大的挑战是对极其复杂的蛋白质能量函数曲面进行搜索。蛋白质能量模型考虑了分子体系成键作用以及范德华力、静电、氢键、疏水等非成键作用,致使其形成的能量曲面极其粗糙,构象对应局部极小解数目随序列长度的增加呈指数增长。而蛋白质构象预测算法能够找到蛋白质稳定结构的机理是,大量的蛋白质亚稳定结构构成了低能量区域,所以能否找到蛋白质全局最稳定结构的关键是算法能够找到大量的蛋白质亚稳定结构,即增加算法的种群多样性。因此,针对更加精确的蛋白质力场模型,选取有效的构象空间优化算法,使新的蛋白质结构预测算法更具有普遍性和高效性成为生物信息学中蛋白质结构预测的焦点问题。因此,我们需要发展有效的蛋白质结构从头预测方法。
技术实现思路
针对上述问题,本专利技术提出了一种多级个体筛选进化蛋白质结构预测方法。基于进化算法框架,采用Rosettascore3能量函数作为优化目标,使用片段组装技术作为的变异策略,增加同代种群多样性,多级个体筛选方法用于进一步增加不同代种群间的多样性,并采用MonteCarlo算法对每个个体做局部增强得到当前的局部最优解,最终可以获得全局最优结构。本专利技术解决其技术问题所采用的技术方案是:一种多级个体筛选进化蛋白质结构预测方法,所述优化方法包括以下步骤:1)参数设置:种群大小popSize,蛋白质序列长度Length,算法的迭代次数Generation,蛋白质片段的长度L1,L2;2)初始化种群:对给定的蛋白质序列,从对应片段库中随机选取片段长度为L1,L2的片段分别进行Length-L1,Length-L2次片段组装,产生包含popSize个个体的种群Pint;3)在达到设定的终止条件前,执行以下操作:3.1)对种群Pint中每个个体Pi做以下操作,其中i∈{1,2,3,…,popSize}是种群中个体索引值,过程如下:3.1.1)对Pi做片段长度为L1的片段组装,生成变异个体PL1:a:令Pi.phi(j)←Phi(j);b:令Pi.psi(j)←Psi(j);c:令Pi.omega(j)←Omega(j);其中,j为片段组装序列插入位置,j∈{1,…,Length-L1-1},phi,psi,omega分别表示构象的三个二面角Φ,Ψ,ω;Phi(j),Psi(j),Omega(j)表示片段库中对应位置的二面角,符号←表示将片段库中的二面角替换到个体Pi对应位置;3.1.2)对Pi做片段长度为L2的片段组装,生成变异个体PL2:a:令Pi.phi(j)←Phi(j);b:令Pi.psi(j)←Psi(j);c:令Pi.omega(j)←Omega(j);其中,j为片段组装序列插入位置,j∈{1,…,Length-L2-1},phi,psi,omega分别表示构象的三个二面角Φ,Ψ,ω;Phi(j),Psi(j),Omega(j)表示片段库中对应位置的二面角,符号←表示将片段库中的二面角替换到个体Pi对应位置;3.1.3)根据对Pi,PL1,PL2执行两两交叉操作,其中k∈{1,…,Length-1},符号表示个体PA与PB交换对应位置k的二面角Φ,Ψ,ω,PA分别为Pi,PL1,PL2,PB分别为Pi,PL1,PL2,且PA≠PB;交叉操作之后生成6个新的个体分别为PiL1,PiL2,PL1L2,PL2L1,PL2i,PL1i。3.1.4)根据Rosettascore3能量函数对Pi,PL1,PL2,PiL1,PiL2,PL1L2,PL2L1,PL2i,PL1i进行能量评价,并依据能量值由低到高排序。3.1.5)选择能量最低的前两个个体和能量中值对应的个体,进入候选子群Psub。3.2)当种群中所有个体都执行完成步骤3.1)之后,对候选子群中的所有个体按能量值由低到高排序,选择能量最低的前2/3*popSize个个体,以及能量值排序居中的1/3*popSize个个体进入下一代种群执行进化过程。4)判断是算法迭代是否执行Generation次,如若未达到,则转至步骤3)继续循环执行算法,至达到终止条件。本专利技术的有益效果为:采用Rosettscore3能量函数作为优化目标,使用片段组装技术作为的变异策略,增加同代种群多样性,多级个体筛选方法用于进一步增加不同代种群间的多样性,并采用MonteCarlo算法对每个个体做局部增强得到当前的局部最优解,最终可以获得全局最优结构。附图说明图1是蛋白质1GYZ预测结构和实验室测定结构最接近的构象三维示意图。具体实施方式下面结合附图对本专利技术作进一步描述。参照图1,一种多级个体筛选进化蛋白质结构预测方法,包括以下步骤:1)参数设置:种群大小popSize,蛋白质序列长度Length,算法的迭代次数Generation,蛋白质片段的长度L1,L2;2)初始化种群:对给定的蛋白质序列,从对应片段库中随机选取片段长度为L1,L2的片段分别进行Length-L1,Length-L2次片段组装,产生包含popSize个个体的种群Pint;3)在达到设定的终止条件前,执行以下操作:3.1)对种群Pint中每个个体Pi做以下操作,其中i∈{1,2,3,…,popSize}是种群中个体索引值,过程如下:3.1.1)对Pi做片段长度为L1的片段组装,生成变异个体PL1:a:令Pi.phi(j)←Phi(j);b:令Pi.psi(j)←Psi(j);c:令Pi.omega(j)←Omega(j);其中,j为片段组装序列插入位置,j∈{1,…,Length-L1-1},phi,psi,omega分别表示构象的三个二面角Φ,Ψ,ω;Phi(j),Psi(j),Omega(j)表示片段库中对应位置的二面角,符号←表示将片段库中的二面角替换到个体Pi对应位置;3.1.2)对Pi做片段长度为L2的片段组装,生成变异个体PL2:a:令Pi.phi(j)←Phi(j);b:令Pi.psi(j)←Psi(j);c:令Pi.omega(j)←Omega(j);其中,j为片段组装序列插入位置,j∈{1,…,Length-L2-1},phi,psi,omega分别表示构象的三个二面角Φ,Ψ,ω;Phi(j),Psi(j),Omega(j)表示片段库中对应位置的二面角,符号←表示将片段库中的二面角替换到个体Pi对应位置;3.1.3本文档来自技高网
...

【技术保护点】
1.一种多级个体筛选进化蛋白质结构预测方法,其特征在于:所述预测方法包括以下步骤:1)参数设置:种群大小popSize,蛋白质序列长度Length,算法的迭代次数Generation,蛋白质片段的长度L1,L2;2)初始化种群:对给定的蛋白质序列,从对应片段库中随机选取片段长度为L1,L2的片段分别进行Length‑L1,Length‑L2次片段组装,产生包含popSize个个体的种群Pint;3)在达到设定的终止条件前,执行以下操作:3.1)对种群Pint中每个个体Pi做以下操作,其中i∈{1,2,3,…,popSize}是种群中个体索引值,过程如下:3.1.1)对Pi做片段长度为L1的片段组装,生成变异个体PL1:a:令Pi.phi(j)←Phi(j);b:令Pi.psi(j)←Psi(j);c:令Pi.omega(j)←Omega(j);其中,j为片段组装序列插入位置,j∈{1,…,Length‑L1‑1},phi,psi,omega分别表示构象的三个二面角Φ,Ψ,ω;Phi(j),Psi(j),Omega(j)表示片段库中对应位置的二面角,符号←表示将片段库中的二面角替换到个体Pi对应位置;3.1.2)对Pi做片段长度为L2的片段组装,生成变异个体PL2:a:令Pi.phi(j)←Phi(j);b:令Pi.psi(j)←Psi(j);c:令Pi.omega(j)←Omega(j);其中,j为片段组装序列插入位置,j∈{1,…,Length‑L2‑1},phi,psi,omega分别表示构象的三个二面角Φ,Ψ,ω;Phi(j),Psi(j),Omega(j)表示片段库中对应位置的二面角,符号←表示将片段库中的二面角替换到个体Pi对应位置;3.1.3)根据...

【技术特征摘要】
1.一种多级个体筛选进化蛋白质结构预测方法,其特征在于:所述预测方法包括以下步骤:1)参数设置:种群大小popSize,蛋白质序列长度Length,算法的迭代次数Generation,蛋白质片段的长度L1,L2;2)初始化种群:对给定的蛋白质序列,从对应片段库中随机选取片段长度为L1,L2的片段分别进行Length-L1,Length-L2次片段组装,产生包含popSize个个体的种群Pint;3)在达到设定的终止条件前,执行以下操作:3.1)对种群Pint中每个个体Pi做以下操作,其中i∈{1,2,3,…,popSize}是种群中个体索引值,过程如下:3.1.1)对Pi做片段长度为L1的片段组装,生成变异个体PL1:a:令Pi.phi(j)←Phi(j);b:令Pi.psi(j)←Psi(j);c:令Pi.omega(j)←Omega(j);其中,j为片段组装序列插入位置,j∈{1,…,Length-L1-1},phi,psi,omega分别表示构象的三个二面角Φ,Ψ,ω;Phi(j),Psi(j),Omega(j)表示片段库中对应位置的二面角,符号←表示将片段库中的二面角替换到个体Pi对应位置;3.1.2)对Pi做片段长度为L2的片段组装,生成变异个体PL2:a:令Pi.phi(j)←Phi(j);b:令Pi.psi(j)←Psi(j);c:令Pi.omega(j)...

【专利技术属性】
技术研发人员:张贵军郝小虎马来发周晓根王柳静胡俊
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1