一种构象空间动态步长搜索方法技术

技术编号:10742477 阅读:108 留言:0更新日期:2014-12-10 15:41
一种构象空间动态步长搜索方法,包括以下步骤:对构象空间按照能量和温度分层,在每一层中再细分得到“构象室”,完成构象空间的初始化;随机扰动氨基酸序列得到一个初始构象,通过Rosetta Score3计算得到其能量值,存入相应能量层的构象室中,完成构象初始化;对所分能量层分配权重,在不同能量层赋予不同的片段组装(FA)步长和Monte Carlo扰动(MC)步长,同时设置温度参数列表,完成系统参数初始化;按权重依次随机选中能量层、构象室、构象,进行构象扩展,按照相应的Metropolis准则来判断是否接收当前构象,完成构象系综更新;迭代的进行上一步骤,直至到达设置的迭代次数。本发明专利技术提供了一种有效的构象空间增强采样方法。

【技术实现步骤摘要】
一种构象空间动态步长搜索方法
本专利技术涉及生物信息学、计算机应用领域,尤其涉及的是一种构象空间动态步长搜索方法。
技术介绍
蛋白质分子在生物细胞化学反应过程中起着至关重要的作用。它们的结构模型和生物活性状态对我们理解和治愈多种疾病有重要的意义。蛋白质只有折叠成特定的三维结构才能产生其特有的生物学功能。因此,要了解蛋白质的功能,就必须获得其三维空间结构。蛋白质三级结构预测是生物信息学的一个重要任务。目前,蛋白质结构预测方法大致可以分为两类,基于模板的方法和不基于模板的方法。其中,不基于模板的从头预测(Ab-inito)方法应用最为广泛。它适用于同源性小于25%的大多数蛋白质,仅从序列产生全新结构,对蛋白质分子设计及蛋白质折叠的研究等具有重要意义。当前有以下几种比较成功的从头预测方法:张阳与JeffreySkolnick合作的TASSER(Threading/Assembly/Refinement)方法、DavidBaker及团队设计的Rosetta方法、Shehu等设计的FeLTr方法等。但是到目前还没有一种十分完善的方法来预测蛋白质的三维结构,即使获得了很好的预测结果,但也只是针对某些蛋白质而言的,目前主要的技术瓶颈在于两个方面,第一方面在于采样方法,现有技术对构象空间采样能力不强,另一方面在于构象更新方法,现有技术对构象的更新精度仍然不足。因此,现有的构象空间搜索方法存在不足,需要改进。
技术实现思路
针对上述问题,我们提出在低能量引导的树搜索框架下,利用动态步长搜索蛋白质构象空间的方法,增强了构象跳出局部极小点的能力,进而增强对构象空间中近天然态构象搜索的能力。本专利技术解决其技术问题所采用的技术方案是:一种构象空间动态步长搜索方法,所述搜索方法包括以下步骤:1)构象空间初始化:对构象空间按照能量和温度分层,在每一层中再细分得到“构象室”,完成构象空间的初始化,过程如下:1.1)对构象空间按照能量分层,划分成一维网格,能量值以δE为间隔,从最低能量到最高能量分层,表示为[Emin,Emax];1.2)对构象空间按照温度分层,划分成一维网格,由起始温度逐步非等间隔的到最低温度,表示为[Tmax,Tmin];1.3)在每一个能量层,按照三维几何投影将每层划分成若干“构象室”,称之为cell;2)构象初始化:随机扰动氨基酸序列得到一个初始构象,通过RosettaScore3计算得到其能量值,存入相应能量层的构象室中,完成构象初始化,过程如下:2.1)输入一个氨基酸序列;2.2)由蛋白质结构数据库(PDB库)生成的片段库中任意选取片段,对氨基酸序列进行扰动,得到初始构象;2.3)调用RosettaScore3能量函数,计算得到的初始构象的能量值;2.4)依据能量值选定该构象所在的能量层;2.5)由超速形状识别(USR)判别将该构象置入指定cell;3)系统参数初始化:对所分能量层分配权重,在不同能量层赋予不同的片段组装(FA)步长和MonteCarlo扰动(MC)步长,同时设置温度参数列表,设定迭代次数,完成系统参数初始化,过程如下:3.1)对能量层分配权重,权重值由以下公式给出:其中l表示能量层,表示该层平均能量的平方,ω(l)表示权重值;3.2)设置动态片段组装(FA)步长,由以下公式给出:其中N为序列长度,M为常数;3.3)设置动态MonteCarlo扰动(MC)步长,由以下公式给出:其中N为序列长度,Q为常数,由以上公式反向分配步长值;3.4)初始温度值根据区间分半搜索方法来确定,从而非等间隔的建立温度列表[Tmax,Tmin];3.5)设置迭代次数;4)构象系综更新:按照权重依次随机选中能量层、构象室、构象,进行构象扩展,采用相应的Metropolis准则来判断是否接收当前构象,完成构象系综更新,过程如下:4.1)按照能量权重值依概率随机的反向选能量层l;4.2)按照概率1/[(1+nsel)confs]选定“构象室”cell,其中,nsel表示当前cell被选择的频次,confs表示当前cell中构象的数目;4.3)选定cell后,随机选择一个构象,用于下一步的扩展;4.4)对选定构象进行片段组装,生成新的构象;4.5)对构象进行MonteCarlo扰动,用设定的相应温度参数,依玻尔兹曼概率e-β·ΔE接受新生成的构象,其中ΔE为当前构象与上一步产生的构象之间的能量差,β为温度因子,β=-1/kBT,kB为玻尔兹曼常数,T为温度参数;4.5)如果当前新生成的构象被接受,则将其存入构象系综;5)迭代的运行步骤4),直至达到设置的迭代次数。本专利技术的技术构思为:基于蛋白质结构从头预测FeLTr算法,在低能量引导的树搜索框架下,采用动态步长搜索蛋白质构象空间,依据所分能量层的权重在不同能量层赋予不同的片段组装(FA)步长和MonteCarlo扰动(MC)步长,在构象空间能量较高的区域,使用大的FA步长和较小的MC步长,迫使算法更快的向低能量区域搜索,随着构象搜索逐步向低能量区域靠近,改变FA、MC步长,在能量较低的区域使用较小的FA步长和较大的MC步长,避免对天然态构象的采样不足导致算法有效性降低。同时在构象空间对温度分层,在不同的温度层采用相应的Metropolis准则来判断是否接收当前构象,以增强构象跳出局部极小点的能力,进而增强了对构象空间中近天然态构象采样的能力。附图说明图1是动态步长搜索过程示意图。图2是构象系综更新示意图。图3是蛋白质1VII构象系综中构象更新示意图。图4是蛋白质1VII预测结构和实验室测定结构最接近的构象三维示意图。具体实施方式下面结合附图对本专利技术作进一步描述。参照图1~图4,一种构象空间动态步长搜索方法,包括以下步骤:1)构象空间初始化:对构象空间按照能量和温度分层,在每一层中再细分得到“构象室”,完成构象空间的初始化,过程如下:1.1)对构象空间按照能量分层,划分成一维网格,能量值以δE为间隔,从最低能量到最高能量分层,表示为[Emin,Emax];1.2)对构象空间按照温度分层,划分成一维网格,由起始温度逐步非等间隔的到最低温度,表示为[Tmax,Tmin];1.3)在每一个能量层,按照三维几何投影将每层划分成若干“构象室”,称之为cell;2)构象初始化:随机扰动氨基酸序列得到一个初始构象,通过RosettaScore3计算得到其能量值,存入相应能量层的构象室中,完成构象初始化,过程如下:2.1)输入一个氨基酸序列;2.2)由PDB库生成的片段库中任意选取片段,对氨基酸序列进行扰动,得到初始构象;2.3)调用RosettaScore3能量函数,计算得到的初始构象的能量值;2.4)依据能量值选定该构象所在的能量层;2.5)由USR判别将该构象置入指定cell;3)系统参数初始化:对所分能量层分配权重,在不同能量层赋予不同的片段组装(FA)步长和MonteCarlo扰动(MC)步长,同时设置温度参数列表,设定迭代次数,完成系统参数初始化,过程如下:3.1)对能量层分配权重,权重值由以下公式给出:其中l表示能量层,表示该层平均能量的平方,ω(l)表示权重值;3.2)设置动态片段组装(FA)步长,由以下公式给出:其中N为序列长度,M为常数;3.3)设置动态MonteC本文档来自技高网...
一种构象空间动态步长搜索方法

【技术保护点】
一种构象空间动态步长搜索方法,其特征在于:所述构象空间搜索方法包括以下步骤:1)构象空间初始化:对构象空间按照能量和温度分层,在每一层中再细分得到“构象室”,完成构象空间的初始化,过程如下:1.1)对构象空间按照能量分层,划分成一维网格,能量值以δE为间隔,从最低能量到最高能量分层,表示为GE∈[Emin,Emax];1.2)对构象空间按照温度分层,划分成一维网格,由起始温度逐步非等间隔的到最低温度,表示为[Tmax,Tmin];1.3)在每一个能量层,按照三维几何投影将每层划分成若干“构象室”,称之为cell;2)构象初始化:随机扰动氨基酸序列得到一个初始构象,通过Rosetta Score3计算得到其能量值,存入相应能量层的构象室中,完成构象初始化,过程如下:2.1)输入一个氨基酸序列;2.2)由蛋白质结构数据库生成的片段库中任意选取片段,对氨基酸序列进行扰动,得到初始构象;2.3)调用Rosetta Score3能量函数,计算得到的初始构象的能量值;2.4)依据能量值选定该构象所在的能量层;2.5)由超速形状识别判别将该构象置入指定cell;3)系统参数初始化:对所分能量层分配权重,在不同能量层赋予不同的片段组装步长和Monte Carlo扰动步长,同时设置温度参数列表,设定迭代次数,完成系统参数初始化,过程如下:3.1)对能量层分配权重,权重值由以下公式给出:其中l表示能量层,表示该层平均能量的平方,ω(l)表示权重值;3.2)设置动态片段组装步长,由以下公式给出:其中N为序列长度,M为常数;3.3)设置动态Monte Carlo扰动步长,由以下公式给出:其中N为序列长度,Q为常数,由以上公式反向分配步长值;3.4)初始温度值根据区间分半搜索方法来确定,从而非等间隔的建立温度列表[Tmax,Tmin];3.5)设置迭代次数;4)构象系综更新:按照权重依次随机选中能量层、构象室、构象,进行构象扩展,采用相应的Metropolis准则来判断是否接收当前构象,完成构象系综更新,过程如下:4.1)按照能量权重值依概率ω(l′)随机的反向选能量层l;4.2)按照概率1/[(1+nsel)confs]选定“构象室”cell,其中,nsel表示当前cell被选择的频次,confs表示当前cell中构象的数目;4.3)选定cell后,随机选择一个构象,用于下一步的扩展;4.4)对选定构象进行片段组装,生成新的构象;4.5)对构象进行Monte Carlo扰动,用设定的相应温度参数,依玻尔兹曼概率e‑β·ΔE接受新生成的构象,其中ΔE为当前构象与上一步产生的构象之间的能量差,β为温度因子,β=‑1/kBT,kB为玻尔兹曼常数,T为温度参数;4.5)如果当前新生成的构象被接受,则将其存入构象系综;5)迭代的运行步骤4),直至达到设置的迭代次数。...

【技术特征摘要】
1.一种构象空间动态步长搜索方法,其特征在于:所述构象空间动态步长搜索方法包括以下步骤:1)构象空间初始化:对构象空间按照能量和温度分层,在每一层中再细分得到“构象室”,完成构象空间的初始化,过程如下:1.1)对构象空间按照能量分层,划分成一维网格,能量值以δE为间隔,从最低能量到最高能量分层,表示为GE∈[Emin,Emax];1.2)对构象空间按照温度分层,划分成一维网格,由起始温度逐步非等间隔的到最低温度,表示为[Tmax,Tmin];1.3)在每一个能量层,按照三维几何投影将每层划分成若干“构象室”,称之为cell;2)构象初始化:随机扰动氨基酸序列得到一个初始构象,通过RosettaScore3计算得到其能量值,存入相应能量层的构象室中,完成构象初始化,过程如下:2.1)输入一个氨基酸序列;2.2)由蛋白质结构数据库生成的片段库中任意选取片段,对氨基酸序列进行扰动,得到初始构象;2.3)调用RosettaScore3能量函数,计算得到的初始构象的能量值;2.4)依据能量值选定该构象所在的能量层;2.5)由超速形状识别判别将该构象置入指定cell;3)系统参数初始化:对所分能量层分配权重,在不同能量层赋予不同的片段组装步长和MonteCarlo扰动步长,同时设置温度参数列表,设定迭代次数,完成系统参数初始化,过程如下:3.1)对能量层分配权重,权重值由以下...

【专利技术属性】
技术研发人员:张贵军郝小虎秦传庆周晓根程正华陈铭明洁
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1