A method based on multi modal protein conformational space optimization method of composite structure, which comprises the following steps: evolutionary algorithm framework based on RosettaScore3 as the optimization objective function, the statistical population individual distance spectrum, individual two level structure spectrum, individual dihedral angle spectrum of three types of structural features, improve the diversity algorithm by multi modal sampling strategy according to the selection, offspring structure characteristics, can effectively make up the defect energy model is not accurate, through iterative evolution, structure prediction with high accuracy can be obtained. The invention has high sampling efficiency, low complexity and high prediction precision.
【技术实现步骤摘要】
一种基于复合结构特征的多模态蛋白质构象空间优化方法
本专利技术涉及生物信息学、计算机应用领域,尤其涉及的是一种基于复合结构特征的多模态蛋白质构象空间优化方法。
技术介绍
生物信息学是生命科学和计算机科学交叉领域的一个研究热点。目前,根据Anfinsen假设,直接从氨基酸序列出发,基于势能模型,采用全局优化方法,搜索分子系统的最小能量状态,从而高通量、廉价地预测肽链的天然构象,已经成为生物信息学最重要的研究课题之一。对于序列相似度低或多肽(<10个残基的小蛋白)来说,从头预测方法是唯一的选择。从头预测方法必须考虑以下两个因素:(1)蛋白质结构能量函数;(2)构象空间搜索方法。第一个因素本质上属于分子力学问题,主要是为了能够计算得到每个蛋白质结构对应的能量值。目前已经存在一些较为有效的结构能量函数,如:简单网格模型HP及更实际的经验力场模型MM3,AMBER,CHARMM,GROMOS,DISCOVER,ECEPP/3等;第二个因素本质上属于全局优化问题,通过选择一种合适的优化方法,对构象空间进行快速搜索,得到与某一全局最小能量对应的构象。其中,蛋白质构象空间优化属于一类非常难解的NP-Hard问题。2005年,D.Baker在Science中指出,构象空间优化方法是制约蛋白质从头预测方法预测精度的一个瓶颈因素。因此,现有的构象空间优化方法存在采样效率、复杂度及预测精度方面存在不足,需要改进。
技术实现思路
为了克服现有的蛋白质构象优化方法的采样效率较低、复杂度较高、预测精度较低的不足,本专利技术提出一种采样效率较高、复杂度较低、预测精度较高的基于复 ...
【技术保护点】
一种基于复合结构特征的多模态蛋白质构象空间优化方法,其特征在于,包括以下步骤:1)给定待预测蛋白质的氨基酸序列信息,根据给定氨基酸序列信息,利用QUARK服务器获取基于统计的二级结构谱PSS,二面角谱PDA,距离谱PD;2)参数初始化:种群规模PN,模态数目NM,最大迭代次数Gmax,序列长度SL,交叉长度Nmu;3)种群初始化:根据给定输入氨基酸序列,对PN个个体依次进行SL次片段组装,根据每个个体的三维结构信息统计得到对应的的个体二级结构谱PrSS,个体二面角谱PrDA,个体距离谱PrD,设置每个个体为一个初始模态,并且该个体为该模态的态心;4)开始迭代,当前迭代次数i=1,过程如下:4.1)如果前模态数目>NM,则执行模态形成过程,否则转到步骤4.2),过程如下:4.1.1)随机选择种群中的一个个体作为目标个体Pt;4.1.2)对Pt做NF次片段组装,得到变异个体Pm;4.1.3)生成一个随机数R1,R1∈[1,SL‑Nmu],其中Nmu是交叉长度;4.1.4)对Pm和Pt做交叉操作:交换Pm和Pt的第R1到R1+Nmu个残基二面角,生成交叉个体Pc1和Pc2;4.1.5) ...
【技术特征摘要】
1.一种基于复合结构特征的多模态蛋白质构象空间优化方法,其特征在于,包括以下步骤:1)给定待预测蛋白质的氨基酸序列信息,根据给定氨基酸序列信息,利用QUARK服务器获取基于统计的二级结构谱PSS,二面角谱PDA,距离谱PD;2)参数初始化:种群规模PN,模态数目NM,最大迭代次数Gmax,序列长度SL,交叉长度Nmu;3)种群初始化:根据给定输入氨基酸序列,对PN个个体依次进行SL次片段组装,根据每个个体的三维结构信息统计得到对应的的个体二级结构谱PrSS,个体二面角谱PrDA,个体距离谱PrD,设置每个个体为一个初始模态,并且该个体为该模态的态心;4)开始迭代,当前迭代次数i=1,过程如下:4.1)如果前模态数目>NM,则执行模态形成过程,否则转到步骤4.2),过程如下:4.1.1)随机选择种群中的一个个体作为目标个体Pt;4.1.2)对Pt做NF次片段组装,得到变异个体Pm;4.1.3)生成一个随机数R1,R1∈[1,SL-Nmu],其中Nmu是交叉长度;4.1.4)对Pm和Pt做交叉操作:交换Pm和Pt的第R1到R1+Nmu个残基二面角,生成交叉个体Pc1和Pc2;4.1.5)采用RosettaScore3能量函数对Pt、Pm、Pc1、Pc2进行能量评价,得到其对应的能量分值Et,Em,Ec1,Ec2;4.1.6)如果Em,Ec1,Ec2全部大于Et,则采用能量概率模型选择接收其中一个个体,过程如下:4.1.6.1)分别计算Pm、Pc1、Pc2的能量接收概率:4.1.6.2)生成一个随机数R2,分别计算pm,pc1,pc2与R2的差值,选择差值最小的对应的个体作为子代个体Pc,并取代目标个体Pt;4.1.7)否则,选择Em,Ec1,Ec2中最小的值对应的个体作为子代个体Pc,并取代目标个体Pt;4.1.8)根据每个个体的三维结构信息统计得到Pc的PrSS,PrDA,PrD;4.1.9)通过计算Pc与各个模态态心个体距离谱之间的汉明距离HD,确定Pc应该归属于某一个模态:取HD值最小对应的模态为Pc所归属的模态,如果有2个以上模态HD值同时取得最小值,则计算Pc与这些模态态心个体二面角谱之间的汉明距离HDA,取HDA值最小对应的模态为Pc所归属的模态,如果有2个以上模态HDA值同时确定最小值,则计算Pc与这些模态态心个体二级结构谱之间的汉明距离HSS,取HSS值最小对应的模态为Pc所归属的模态,取当前模态内所有个体的质心作为当前模态的态心;4.1.10)当前迭代次数i=i+1;4....
【专利技术属性】
技术研发人员:张贵军,郝小虎,谢腾宇,周晓根,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。