一种基于距离约束副本交换的蛋白质结构预测方法技术

技术编号:13771711 阅读:85 留言:0更新日期:2016-09-29 17:05
一种基于距离约束副本交换的蛋白质结构预测方法,首先在每个温度层通过对查询序列进行随机的折叠和变换生成一个初始种群;在种群更新中,以Rosetta Score3为优化目标函数,基于Anfinsen提出的蛋白质天然态结构时自由能最低的结构,在每一个温度层中依次将种群中的每个个体作为目标个体,然后随机选取和目标个体不一样的两个个体进行变异、交叉产生变异个体,再将另一个个体随机选取一段与变异个体进行交换产生测试个体,再将测试个体与目标个体进行能量值比较,对于能量升高的测试个体引入距离谱的知识,将相邻的温度层的对应个体进行副本交换。本发明专利技术构象空间采样能力较好、预测精度高。

【技术实现步骤摘要】

本专利技术涉及生物信息学、计算机应用领域,尤其涉及的是一种基于距离约束副本交换的蛋白质结构预测方法
技术介绍
蛋白质分子在生物细胞化学反应过程中起着至关重要的作用。它们的结构模型和生物活性状态对我们理解和治愈多种疾病有重要的意义。蛋白质只有折叠成特定的三维结构才能产生其特有的生物学功能。因此,要了解蛋白质的功能,就必须获得其三维空间结构。蛋白质三级结构预测是生物信息学的一个重要任务。蛋白质构象优化问题现在面临最大的挑战是对极其复杂的蛋白质能量函数曲面进行搜索。蛋白质能量模型考虑了分子体系成键作用以及范德华力、静电、氢键、疏水等非成键作用,致使其形成的能量曲面极其粗糙,构象对应局部极小解数目随序列长度的增加呈指数增长。而蛋白质构象预测算法能够找到蛋白质稳定结构的机理是,大量的蛋白质亚稳定结构构成了低能量区域,所以能否找到蛋白质全局最稳定结构的关键是算法能够找到大量的蛋白质亚稳定结构,即增加算法的种群多样性。因此,针对更加精确的蛋白质力场模型,选取有效的构象空间优化算法,使新的蛋白质结构预测算法更具有普遍性和高效性成为生物信息学中蛋白质结构预测的焦点问题。目前,蛋白质结构预测方法大致可以分为两类,基于模板的方法和不基于模板的方法。其中,不基于模板的从头预测(Ab-inito)方法应用最为广泛。它适用于同源性小于25%的大多数蛋白质,仅从序列产生全新结构,对蛋白质分子设计及蛋白质折叠的研究等具有重要意义。当前有以下几种比较成功的从头预测方法:张阳与Jeffrey Skolnick合作的TASSER(Threading/Assembly/Refinement)方法、David Baker及团队设计的Rosetta方法、Shehu等设计的FeLTr方法等。但是到目前还没有一种十分完善的方法来预测蛋白质的三维结构,即使获得了很好的预测结果,但也只是针对某些蛋白质而言的,目前主要的技术瓶颈在于两个方面,第一方面在于采样方法,现有技术对构象空间采样能力不强,另一方面在于构象更新方法,现有技术对构象的更新精度仍然不足。因此,现有的构象空间优化方法存在采样效率、复杂度及预测精度方面存在不足,需要改进。
技术实现思路
为了克服现有群体构象空间优化方法的构象空间搜索维数较高、收敛速度较慢、预测精度较低的不足,本专利技术提出一种构象空间采样能力较好、预测精度高的基于距离约束副本交换的蛋白质结构预测方法。本专利技术解决其技术问题所采用的技术方案是:一种基于距离约束副本交换的蛋白质结构预测方法,所述优化方法包括以下步骤:1)给定输入序列信息;2)根据序列信息从QUARK服务器上获取距离谱文件DP,rpk为距离谱中记录下的残基对,Dk为该残基对之间的距离,其中k∈(1,N),N为距离谱中残基对数量;3)初始化:设置群体规模popSize,交叉概率CR,8个温度层T,能量函数选用Rosetta Score3,首先在每个温度层通过对查询序列随机的折叠和变换,生成一个规模为popSize的初始种群,初始群体为PT={xi|i∈I本文档来自技高网
...

【技术保护点】
一种基于距离约束副本交换的蛋白质结构预测方法,其特征在于:所述预测方法包括以下步骤:1)给定输入序列信息;2)根据序列信息从QUARK服务器上获取距离谱文件DP,rpk为距离谱中记录下的残基对,Dk为该残基对之间的距离,其中k∈(1,N),N为距离谱中残基对数量;3)初始化:设置群体规模popSize,交叉概率CR,8个温度层T,能量函数选用Rosetta Score3,首先在每个温度层通过对查询序列随机的折叠和变换,生成一个规模为popSize的初始种群,初始群体为PT={xi|i∈I},计算能量函数值fT(xi),i∈I,并设其中i为种群个体编号,I为种群个体编号集合,I={1,2,...,popSize},为对应温度层能量函数值中的最小值,T为温度层;4)开始迭代,依次对每个温度层种群中的每个个体进行以下操作:4.1)设i=1,其中i∈{1,2,3,…,NP};令Ptarget=Pi,其中i为序号,Ptarget表示目标个体;4.2)随机生成正整数rand1,rand2,rand3∈{1,2,3,......NP},且rand1≠rand2≠rand3≠i;再生成4个随机整数randrange1,randrange2,randrange3,randrange4;其中randrange1≠randrange2,randrange3≠randrange4∈{1,2,…,Length},Length为序列长度;4.3)针对个体Prand1做变异操作;4.3.1)令a=min(randrange1,randrange2),b=max(randrange1,randrange2),k∈[a,b];令c=min(randrange3,randrange4),d=max(randrange3,randrange4),p∈[c,d];其中min表示取两个数的最小值,max表示取两个数的最大值;4.3.2)用Prand2上位置a到位置b的片段的氨基酸所对应的二面角phi、psi、omega替换Prand1的相同位置所对应的二面角phi、psi、omega;再使用Prand3上位置c到位置d的片段的氨基酸所对应的二面角phi、psi、omega替换Prand1上相同位置所对应的二面角phi、psi、omega,再将所得Prand1进行片段组装得到变异个体Pmutant;4.4)针对变异个体Pmutant做交叉操作;4.4.1)生成随机数rand4,rand5,其中rand4∈(0,1),rand5∈(1,Length);4.4.2)若随机数rand4<=CR,则使用目标个体Ptarget的片段rand5替换变异个体Pmutant中对应的片段生成测试个体Ptrail,否则Ptrail直接等于变异个体Pmutant;4.5)针对每个温度层中的目标个体Ptarget和测试个体Ptrail进行选择操作;4.5.1)计算Ptarget和Ptrail的能量:E(Ptarget)和E(Ptrail);4.5.2)若E(Ptarget)>E(Ptrail)则用Ptrail替换Ptarget,并且进入4.6);否则继续执行4.5.3);4.5.3)计算目标个体Ptarget和测试个体Ptrail在残基对rpi的距离相对于距离谱中Di之间的距离差▽targetDi和▽trailDi;4.5.4)判断▽targetDi和▽trailDi的值,若大于6,则令其等于6,从而去除一些距离差值较大的异常数值;4.5.5)计算距离谱中所有位置的目标个体和测试个体的距离差值总和▿Dtarget=Σi=1N▿targetDi,▿Dtrail=Σi=1N▿trailDi;]]>4.5.6)若▽Dtrail>▽Dtarget,则进入5);4.5.7)若▽Dtrail<▽Dtarget,则产生一个(0,1)之间的随机数rand6,若rand6小于0.2,则用Ptrail替换Ptarget,否则进行5);5)在每个温度层都进行变异、交叉和选择更新完种群后,将相邻的温度层的对应个体进行副本交换:5.1)首先选择种群中第i个个体,i∈I(i=1,2,…,popSize);5.2)选择两个相邻的温度层Tj和Tj+1,j=1,2,…,7;5.3)产生一个随机数randx∈(0,1),和判别数judgejudge=e(1(K×(Tj+I))-1K×Tj)×(f(xTj+1i)-f(xTji)))---(1)]]>其中,(i=1,2,···,popSize)为种群个体的能量值,K为玻尔兹曼常数,Tj(j=1,2,…,7)为第j个温度层的开尔文温度,j为索引编号,e为自然常数;5.4)若...

【技术特征摘要】
1.一种基于距离约束副本交换的蛋白质结构预测方法,其特征在于:所述预测方法包括以下步骤:1)给定输入序列信息;2)根据序列信息从QUARK服务器上获取距离谱文件DP,rpk为距离谱中记录下的残基对,Dk为该残基对之间的距离,其中k∈(1,N),N为...

【专利技术属性】
技术研发人员:张贵军俞旭锋周晓根郝小虎王柳静张丹
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1