一种基于动态片段长度的群体蛋白质结构预测方法技术

技术编号:20007250 阅读:39 留言:0更新日期:2019-01-05 18:45
一种基于动态片段长度的群体蛋白质结构预测方法,针对每个目标构象,从当前种群中随机选择一半构象个体建立子种群,并根据能量值对种群进行排序,并排名靠前的构象中随机选择一个构象来指导变异;在变异过程中,设计多个片段长度,并根据每个片段长度的在前期的成功率计算其被选择的概率,然后根据轮盘赌的方式基于选择概率选择一个片段长度进行片段交换,实现变异过程。本发明专利技术提供一种预测精度和搜索效率均较高的基于动态片段长度的群体蛋白质结构预测方法。

A Population Protein Structure Prediction Method Based on Dynamic Fragment Length

A population protein structure prediction method based on dynamic fragment length is proposed. For each target conformation, half of the conformation individuals are randomly selected from the current population to establish a sub-population, and the population is sorted according to the energy value, and one conformation is randomly selected from the top conformation to guide the mutation. In the process of mutation, multiple fragment lengths are designed and each fragment length is used to guide the mutation. In the early stage, the probability of being selected is calculated, and then a segment length is selected based on the selection probability to exchange segments according to roulette gambling, so as to realize the mutation process. The present invention provides a population protein structure prediction method based on dynamic fragment length with high prediction accuracy and search efficiency.

【技术实现步骤摘要】
一种基于动态片段长度的群体蛋白质结构预测方法
本专利技术涉及一种生物学信息学、智能优化、计算机应用领域,尤其涉及的是一种基于动态片段长度的群体蛋白质结构预测方法。
技术介绍
1965年,Nirenberg和Khorana等发现三联体遗传密码(即第一遗传密码),DNA以三个核苷酸为一组的密码子转译为蛋白质氨基酸序列(即蛋白质一级结构);而蛋白质只有折叠成特定的三维结构(即蛋白质三级结构)才能产生其特定的生物学功能。相对于第一遗传密码,蛋白质序列一级结构与其三级结构之间的对应关系(即第二遗传密码或称折叠密码)仍为未解之谜。为了解决蛋白质折叠这一“世纪之问”,越来越多的具有不同学科背景的研究者参与其中,特别是针对蛋白质折叠过程的终点—蛋白质结构预测,受到了科学界广泛的关注和研究。相对蛋白质折叠而言,蛋白质结构预测具有更强的实用性,只有获得蛋白质的三维结构,才能真正实现基因诊断,并最终达到基因治疗的目的。目前,测定蛋白质三维结构的实验方法包括X射线晶体衍射、多维核磁共振(NMR)和冷冻电镜等。X射线晶体衍射是目前测定蛋白质结构最有效的方法,所达到的精度是其它方法所不能比拟的,主要缺点是蛋白质晶体难以培养且晶体结构测定的周期较长;NMR方法可以直接测定蛋白质在溶液中的构象,但是对样品的需要量大、纯度要求高,目前只能测定小分子蛋白质。其次,这些实验测定方法价格昂贵,测定一个蛋白质的三维结构需要几十万美元,然而,测定一个蛋白质的一级氨基酸序列仅需1000美元左右,从而导致蛋白质序列和三维结构测定之间的鸿沟越来越大。因此,如何以计算机为工具,运用适当的算法,从氨基酸序列出发直接预测蛋白质的三维结构,成为当前生物信息学中一种重要的研究课题。从头预测方法为目前最有效的蛋白质结构预测方法。根据热力学假说,能量最低的构象被认为是最接近天然态的构象。因此,在从头预测方法中,使用能量函数来评价每个构象的质量,并采用优化方法来搜索能量最低的构象。为了降低优化算法的复杂度,并且提高预测精度,从头预测方法从已有蛋白库中选择与查询序列相似的蛋白,并针对每个残基位建立对应的片段库。在搜索过程中,通过从对应的片段库中选择片段进行组装生成新构象,并通过不同构象之间的片段交换进行变异。然而,在变异过程中,所交换的片段长度的确定是一个挑战性的工作,片段长度过长会导致破坏较优构象,片段长度太短又会降低算法搜索速度,从而影响搜索速度和预测精度。因此,现有的蛋白质结构预测方法在预测精度和搜索效率方面存在着缺陷,需要改进。
技术实现思路
为了克服现有蛋白质结构预测方法的预测精度和搜索效率较低的不足,本专利技术提出一种预测精度和搜索效率均较高的基于动态片段长度的群体蛋白质结构预测方法。本专利技术解决其技术问题所采用的技术方案是:一种基于动态片段长度的群体蛋白质结构预测方法,所述方法包括以下步骤:1)输入待测蛋白质的序列信息,并从ROBETTA服务器(http://www.robetta.org/)上得到片段库;2)参数设置:设置种群规模NP,交叉概率CR,温度因子KT,最大迭代次数Gmax,片段长度集l={l1,l2,...,lM},每个片段长度的选择概率pm,m=1,2,...,M,并初始化迭代次数g=0,其中M为片段长度集的规模;3)从各残基位对应的片段库中随机选择片段组装生成初始构象种群Pinitial={C1,C2,...,CNP},其中,Ci,i={1,2,…,NP}为种群P中的第i个构象个体;4)根据RosettaScore3计算当前种群中每个构象个体的能量值;5)对种群中的每个构象Ci,i∈{1,2,…,NP}执行如下操作:5.1)将构象Ci看作目标构象,从当前种群中随机选出NP/2个构象组建子种群,然后根据能量从低到高对该子种群进行排序;5.2)从排序后的子种群的前NP/5个构象中,随机选择一个与Ci不同的构象,记作Clbest;5.3)从当前种群中随机选择三个互不相同且与Ci和Clbest均不同的构象Ca、Cb和Cc;5.4)利用轮盘赌算法,根据每个片段长度的选择概率,从片段长度集中选取一个片段长度lm;5.5)分别从Ca、Cb和Cc中随机选择一个残基位不同的长度为lm的片段替换构象Clbest中对应位置的片段,生成变异构象Cmutant;5.6)随机生成一个0和1之间的小数R,如果R<CR,则从构象Ci中随机选取一个长度为lm的片段替换变异构象Cmutant中对应位置的片段,并进行一次随机片段组装,从而生成测试构象Ctrial;否则直接将变异构象进行一次随机片段组装生成测试构象Ctrial;5.7)根据Rosettascore3能量函数计算测试构象Ctrial的能量值;5.8)如果Ctrial的能量值小于Ci的能量值,则Ctrial替换Ci;否则根据玻尔兹曼概率接受Ctrial,其中ΔE为Ctrial的能量值与Ci的能量值误差的绝对值;5.9)如果Ctrial在步骤5.8)中被接受,则第m个片段长度在第g代中的成功次数6)g=g+1,如果g>20,则根据公式(1)更新每个片段长度的选择概率pm,m=1,2,...,M;7)如果g>Gmax,则输出能量最低的构象作为最终预测结构,否则返回步骤5)。本专利技术的技术构思为:针对每个目标构象,从当前种群中随机选择一半构象个体建立子种群,并根据能量值对种群进行排序,并排名靠前的构象中随机选择一个构象来指导变异;在变异过程中,设计多个片段长度,并根据每个片段长度的在前期的成功率计算其被选择的概率,然后根据轮盘赌的方式基于选择概率选择一个片段长度进行片段交换,实现变异过程。本专利技术提供一种预测精度和搜索效率均较高的基于蛋白质结构预测方法。本专利技术的有益效果表现在:一方面,通过局部最优构象来指导变异,不仅能够保持构象的多样性,而且能够加快搜索速度;另一方面,根据动态片段长度来进行片段交换,加快不同蛋白之间的交互过程,提高搜索效率。附图说明图1是基于动态片段长度的群体蛋白质结构预测方法对蛋白质1GYZ进行结构预测时的构象更新示意图。图2是基于动态片段长度的群体蛋白质结构预测方法对蛋白质1GYZ进行结构预测时得到的构象分布图。图3是基于动态片段长度的群体蛋白质结构预测方法对蛋白质1GYZ进行结构预测得到的三维结构图。具体实施方式下面结合附图对本专利技术作进一步描述。参照图1~图3,一种基于动态片段长度的群体蛋白质结构预测方法,包括以下步骤:1)输入待测蛋白质的序列信息,并从ROBETTA服务器(http://www.robetta.org/)上得到片段库;2)参数设置:设置种群规模NP,交叉概率CR,温度因子KT,最大迭代次数Gmax,片段长度集l={l1,l2,...,lM},每个片段长度的选择概率pm,m=1,2,...,M,并初始化迭代次数g=0,其中M为片段长度集的规模;3)从各残基位对应的片段库中随机选择片段组装生成初始构象种群Pinitial={C1,C2,...,CNP},其中,Ci,i={1,2,…,NP}为种群P中的第i个构象个体;4)根据RosettaScore3计算当前种群中每个构象个体的能量值;5)对种群中的每个构象Ci,i∈{1,2,…,NP}执行如下本文档来自技高网
...

【技术保护点】
1.一种基于动态片段长度的群体蛋白质结构预测方法,其特征在于:所述方法包括以下步骤:1)输入待测蛋白质的序列信息,并从ROBETTA服务器上得到片段库;2)参数设置:设置种群规模NP,交叉概率CR,温度因子KT,最大迭代次数Gmax,片段长度集l={l1,l2,...,lM},每个片段长度的选择概率pm,m=1,2,...,M,并初始化迭代次数g=0,其中M为片段长度集的规模;3)从各残基位对应的片段库中随机选择片段组装生成初始构象种群Pinitial={C1,C2,...,CNP},其中,Ci,i={1,2,…,NP}为种群P中的第i个构象个体;4)根据Rosetta Score3计算当前种群中每个构象个体的能量值;5)对种群中的每个构象Ci,i∈{1,2,…,NP}执行如下操作:5.1)将构象Ci看作目标构象,从当前种群中随机选出NP/2个构象组建子种群,然后根据能量从低到高对该子种群进行排序;5.2)从排序后的子种群的前NP/5个构象中,随机选择一个与Ci不同的构象,记作Clbest;5.3)从当前种群中随机选择三个互不相同且与Ci和Clbest均不同的构象Ca、Cb和Cc;5.4)利用轮盘赌算法,根据每个片段长度的选择概率,从片段长度集中选取一个片段长度lm;5.5)分别从Ca、Cb和Cc中随机选择一个残基位不同的长度为lm的片段替换构象Clbest中对应位置的片段,生成变异构象Cmutant;5.6)随机生成一个0和1之间的小数R,如果R...

【技术特征摘要】
1.一种基于动态片段长度的群体蛋白质结构预测方法,其特征在于:所述方法包括以下步骤:1)输入待测蛋白质的序列信息,并从ROBETTA服务器上得到片段库;2)参数设置:设置种群规模NP,交叉概率CR,温度因子KT,最大迭代次数Gmax,片段长度集l={l1,l2,...,lM},每个片段长度的选择概率pm,m=1,2,...,M,并初始化迭代次数g=0,其中M为片段长度集的规模;3)从各残基位对应的片段库中随机选择片段组装生成初始构象种群Pinitial={C1,C2,...,CNP},其中,Ci,i={1,2,…,NP}为种群P中的第i个构象个体;4)根据RosettaScore3计算当前种群中每个构象个体的能量值;5)对种群中的每个构象Ci,i∈{1,2,…,NP}执行如下操作:5.1)将构象Ci看作目标构象,从当前种群中随机选出NP/2个构象组建子种群,然后根据能量从低到高对该子种群进行排序;5.2)从排序后的子种群的前NP/5个构象中,随机选择一个与Ci不同的构象,记作Clbest;5.3)从当前种群中随机选择三个互不相同且与Ci和Clbest均不同的构象Ca、Cb和Cc;5.4)利用轮盘赌算法...

【专利技术属性】
技术研发人员:周晓根张贵军彭春祥胡俊刘俊
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1