一种基于复合结构特征的多模态蛋白质构象空间优化方法技术

技术编号:16874306 阅读:36 留言:0更新日期:2017-12-23 12:07
一种基于复合结构特征的多模态蛋白质构象空间优化方法,包括以下步骤:基于进化算法框架,以RosettaScore3为优化目标函数,统计得到种群个体的个体距离谱,个体二级结构谱,个体二面角谱三种结构特征,通过多模态策略提高算法采样的多样性,根据结构特征选择子代个体,可以有效的弥补能量模型不精确的缺陷,通过进化迭代,可以得到精度较高的预测结构。本发明专利技术采样效率较高、复杂度较低、预测精度较高。

A multi-modal protein conformation spatial optimization method based on composite structure characteristics

A method based on multi modal protein conformational space optimization method of composite structure, which comprises the following steps: evolutionary algorithm framework based on RosettaScore3 as the optimization objective function, the statistical population individual distance spectrum, individual two level structure spectrum, individual dihedral angle spectrum of three types of structural features, improve the diversity algorithm by multi modal sampling strategy according to the selection, offspring structure characteristics, can effectively make up the defect energy model is not accurate, through iterative evolution, structure prediction with high accuracy can be obtained. The invention has high sampling efficiency, low complexity and high prediction precision.

【技术实现步骤摘要】
一种基于复合结构特征的多模态蛋白质构象空间优化方法
本专利技术涉及生物信息学、计算机应用领域,尤其涉及的是一种基于复合结构特征的多模态蛋白质构象空间优化方法。
技术介绍
生物信息学是生命科学和计算机科学交叉领域的一个研究热点。目前,根据Anfinsen假设,直接从氨基酸序列出发,基于势能模型,采用全局优化方法,搜索分子系统的最小能量状态,从而高通量、廉价地预测肽链的天然构象,已经成为生物信息学最重要的研究课题之一。对于序列相似度低或多肽(<10个残基的小蛋白)来说,从头预测方法是唯一的选择。从头预测方法必须考虑以下两个因素:(1)蛋白质结构能量函数;(2)构象空间搜索方法。第一个因素本质上属于分子力学问题,主要是为了能够计算得到每个蛋白质结构对应的能量值。目前已经存在一些较为有效的结构能量函数,如:简单网格模型HP及更实际的经验力场模型MM3,AMBER,CHARMM,GROMOS,DISCOVER,ECEPP/3等;第二个因素本质上属于全局优化问题,通过选择一种合适的优化方法,对构象空间进行快速搜索,得到与某一全局最小能量对应的构象。其中,蛋白质构象空间优化属于一类非常难解的NP-Hard问题。2005年,D.Baker在Science中指出,构象空间优化方法是制约蛋白质从头预测方法预测精度的一个瓶颈因素。因此,现有的构象空间优化方法存在采样效率、复杂度及预测精度方面存在不足,需要改进。
技术实现思路
为了克服现有的蛋白质构象优化方法的采样效率较低、复杂度较高、预测精度较低的不足,本专利技术提出一种采样效率较高、复杂度较低、预测精度较高的基于复合结构特征的多模态蛋白质构象空间优化方法。本专利技术解决其技术问题所采用的技术方案是:一种基于复合结构特征的多模态蛋白质构象空间优化方法,所述构象空间优化方法包括以下步骤:1)给定待预测蛋白质的氨基酸序列信息,根据给定氨基酸序列信息,利用QUARK服务器获取基于统计的二级结构谱PSS,二面角谱PDA,距离谱PD;2)参数初始化:种群规模PN,模态数目NM,最大迭代次数Gmax,序列长度SL,交叉长度Nmu;3)种群初始化:根据给定输入氨基酸序列,对PN个个体依次进行SL次片段组装,根据每个个体的三维结构信息统计得到对应的的个体二级结构谱PrSS,个体二面角谱PrDA,个体距离谱PrD,设置每个个体为一个初始模态,并且该个体为该模态的态心;4)开始迭代,当前迭代次数i=1,过程如下:4.1)如果前模态数目>NM,则执行模态形成过程,否则转到步骤4.2),过程如下:4.1.1)随机选择种群中的一个个体作为目标个体Pt;4.1.2)对Pt做NF次片段组装,得到变异个体Pm;4.1.3)生成一个随机数R1,R1∈[1,SL-Nmu],其中Nmu是交叉长度;4.1.4)对Pm和Pt做交叉操作:交换Pm和Pt的第R1到R1+Nmu个残基二面角,生成交叉个体Pc1和Pc2;4.1.5)采用RosettaScore3能量函数对Pt、Pm、Pc1、Pc2进行能量评价,得到其对应的能量分值Et,Em,Ec1,Ec2;4.1.6)如果Em,Ec1,Ec2全部大于Et,则采用能量概率模型选择接收其中一个个体,过程如下:4.1.6.1)分别计算Pm、Pc1、Pc2的能量接收概率:4.1.6.2)生成一个随机数R2,分别计算pm,pc1,pc2与R2的差值,选择差值最小的对应的个体作为子代个体Pc,并取代目标个体Pt;4.1.7)否则,选择Em,Ec1,Ec2中最小的值对应的个体作为子代个体Pc,并取代目标个体Pt;4.1.8)根据每个个体的三维结构信息统计得到Pc的PrSS,PrDA,PrD;4.1.9)通过计算Pc与各个模态态心个体距离谱之间的汉明距离HD,确定Pc应该归属于某一个模态:取HD值最小对应的模态为Pc所归属的模态,如果有2个以上模态HD值同时取得最小值,则计算Pc与这些模态态心个体二面角谱之间的汉明距离HDA,取HDA值最小对应的模态为Pc所归属的模态,如果有2个以上模态HDA值同时确定最小值,则计算Pc与这些模态态心个体二级结构谱之间的汉明距离HSS,取HSS值最小对应的模态为Pc所归属的模态,取当前模态内所有个体的质心作为当前模态的态心;4.1.10)当前迭代次数i=i+1;4.1.11)返回步骤4.1);4.2)如果当前迭代次数i<Gmax,则执行模态搜索过程,否则转到步骤5),过程如下:4.2.1)随机选择NM个模态中的一个模态;4.2.2)从选中的模态中随机选择一个个体作为目标个体Pt;4.2.3)对Pt做NF次片段组装,得到变异个体Pm;4.2.4)生成一个随机数R1',R1'∈[1,SL-Nmu],其中Nmu是交叉长度;4.2.5)对Pm和Pt做交叉操作:交换Pm和Pt的第R1'到R1'+Nmu个残基二面角,生成交叉个体Pc1和Pc2;4.2.6)采用RosettaScore3能量函数对个体Pt、Pm、Pc1、Pc2进行能量评价,得到其对应的能量分值Et,Em,Ec1,Ec2;4.2.7)选择Em,Ec1,Ec2中的最小值Emin对应的个体作为候选子代个体Pch;4.2.8)如果Emin>Et,则按照特征概率模型选择子代个体,过程如下:4.2.8.1)分别计算个体Pm、Pc1、Pc2对应的特征接收概率其中ΔHDAm,ΔHSSm,ΔHDm分别表示个体Pm的PrD与PD之间的汉明距离,ΔHDAc1,ΔHSSc1,ΔHDc1分别表示个体Pc1的PrDA与PDA之间的汉明距离,ΔHDAc2,ΔHSSc2,ΔHDc2、Pc2分别表示个体Pc2的PrSS与PSS之间的汉明距离,ΔHDAc1,ΔHSSc1,ΔHDc1和ΔHDAc2,ΔHSSc2,ΔHDc2中上角标c1,c2为个体Pc1、Pc2的标记;4.2.8.2)选择Pm、Pc1、Pc2中最大值所对应的个体作为子代个体Pc,并取代目标个体Pt;4.2.9)如果Em,Ec1,Ec2中的最小值Emin<Et,则选择Pch为子代个体Pc,并取代目标个体Pt;4.2.10)根据每个个体的三维结构信息统计得到Pc的PrSS,PrDA,PrD;4.2.11)通过计算Pc与各个模态态心个体距离谱之间的汉明距离HD,确定Pc应该归属于某一个模态:取HD值最小对应的模态为Pc所归属的模态,如果有2个以上模态HD值同时最小,则计算Pc与这些模态态心个体二面角谱之间的汉明距离HDA,取HDA值最小对应的模态为Pc所归属的模态,如果有2个以上模态HDA值同时最小,则计算Pc与这些模态态心个体二级结构谱之间的汉明距离HSS,取HSS值最小对应的模态为Pc所归属的模态,取当前模态内所有个体的质心作为当前模态的态心;4.2.12)当前迭代次数i=i+1;4.2.13)返回步骤4.2);5)迭代结束,输出预测结构;本专利技术的技术构思为:基于进化算法框架,以RosettaScore3为优化目标函数,统计得到种群个体的个体距离谱,个体二级结构谱,个体二面角谱三种结构特征,通过多模态策略提高算法采样的多样性,根据结构特征选择子代个体,可以有效的弥补能量模型不精确的缺陷,通过进化迭代,可以得本文档来自技高网...
一种基于复合结构特征的多模态蛋白质构象空间优化方法

【技术保护点】
一种基于复合结构特征的多模态蛋白质构象空间优化方法,其特征在于,包括以下步骤:1)给定待预测蛋白质的氨基酸序列信息,根据给定氨基酸序列信息,利用QUARK服务器获取基于统计的二级结构谱PSS,二面角谱PDA,距离谱PD;2)参数初始化:种群规模PN,模态数目NM,最大迭代次数Gmax,序列长度SL,交叉长度Nmu;3)种群初始化:根据给定输入氨基酸序列,对PN个个体依次进行SL次片段组装,根据每个个体的三维结构信息统计得到对应的的个体二级结构谱PrSS,个体二面角谱PrDA,个体距离谱PrD,设置每个个体为一个初始模态,并且该个体为该模态的态心;4)开始迭代,当前迭代次数i=1,过程如下:4.1)如果前模态数目>NM,则执行模态形成过程,否则转到步骤4.2),过程如下:4.1.1)随机选择种群中的一个个体作为目标个体Pt;4.1.2)对Pt做NF次片段组装,得到变异个体Pm;4.1.3)生成一个随机数R1,R1∈[1,SL‑Nmu],其中Nmu是交叉长度;4.1.4)对Pm和Pt做交叉操作:交换Pm和Pt的第R1到R1+Nmu个残基二面角,生成交叉个体Pc1和Pc2;4.1.5)采用RosettaScore3能量函数对Pt、Pm、Pc1、Pc2进行能量评价,得到其对应的能量分值Et,Em,Ec1,Ec2;4.1.6)如果Em,Ec1,Ec2全部大于Et,则采用能量概率模型选择接收其中一个个体,过程如下:4.1.6.1)分别计算Pm、Pc1、Pc2的能量接收概率:...

【技术特征摘要】
1.一种基于复合结构特征的多模态蛋白质构象空间优化方法,其特征在于,包括以下步骤:1)给定待预测蛋白质的氨基酸序列信息,根据给定氨基酸序列信息,利用QUARK服务器获取基于统计的二级结构谱PSS,二面角谱PDA,距离谱PD;2)参数初始化:种群规模PN,模态数目NM,最大迭代次数Gmax,序列长度SL,交叉长度Nmu;3)种群初始化:根据给定输入氨基酸序列,对PN个个体依次进行SL次片段组装,根据每个个体的三维结构信息统计得到对应的的个体二级结构谱PrSS,个体二面角谱PrDA,个体距离谱PrD,设置每个个体为一个初始模态,并且该个体为该模态的态心;4)开始迭代,当前迭代次数i=1,过程如下:4.1)如果前模态数目>NM,则执行模态形成过程,否则转到步骤4.2),过程如下:4.1.1)随机选择种群中的一个个体作为目标个体Pt;4.1.2)对Pt做NF次片段组装,得到变异个体Pm;4.1.3)生成一个随机数R1,R1∈[1,SL-Nmu],其中Nmu是交叉长度;4.1.4)对Pm和Pt做交叉操作:交换Pm和Pt的第R1到R1+Nmu个残基二面角,生成交叉个体Pc1和Pc2;4.1.5)采用RosettaScore3能量函数对Pt、Pm、Pc1、Pc2进行能量评价,得到其对应的能量分值Et,Em,Ec1,Ec2;4.1.6)如果Em,Ec1,Ec2全部大于Et,则采用能量概率模型选择接收其中一个个体,过程如下:4.1.6.1)分别计算Pm、Pc1、Pc2的能量接收概率:4.1.6.2)生成一个随机数R2,分别计算pm,pc1,pc2与R2的差值,选择差值最小的对应的个体作为子代个体Pc,并取代目标个体Pt;4.1.7)否则,选择Em,Ec1,Ec2中最小的值对应的个体作为子代个体Pc,并取代目标个体Pt;4.1.8)根据每个个体的三维结构信息统计得到Pc的PrSS,PrDA,PrD;4.1.9)通过计算Pc与各个模态态心个体距离谱之间的汉明距离HD,确定Pc应该归属于某一个模态:取HD值最小对应的模态为Pc所归属的模态,如果有2个以上模态HD值同时取得最小值,则计算Pc与这些模态态心个体二面角谱之间的汉明距离HDA,取HDA值最小对应的模态为Pc所归属的模态,如果有2个以上模态HDA值同时确定最小值,则计算Pc与这些模态态心个体二级结构谱之间的汉明距离HSS,取HSS值最小对应的模态为Pc所归属的模态,取当前模态内所有个体的质心作为当前模态的态心;4.1.10)当前迭代次数i=i+1;4....

【专利技术属性】
技术研发人员:张贵军郝小虎谢腾宇周晓根
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1