一种基于多轨迹和残基接触信息的蛋白质结构预测方法技术

技术编号:20122750 阅读:26 留言:0更新日期:2019-01-16 12:56
一种基于多轨迹和残基接触信息的蛋白质结构预测方法,首先,对目标构象和随机选取的两个构象分别启动采用不同能量函数的Monte Carlo轨迹进行搜索;在所有的轨迹搜索结束后,采用统一的能量函数对组装后的三个构象进行打分;其次,分别计算出每个构象的特征向量与初始特征向量的距离误差;最后,按照一定的权重计算出能量与距离误差的总分,根据总分的大小选出潜在构象,并且用潜在构象替换目标构象。本发明专利技术提出一种预测精度高、计算代价低的基于多轨迹和残基接触信息的蛋白质结构预测方法。

A protein structure prediction method based on multi-trajectory and residue contact information

A protein structure prediction method based on multi-trajectory and residue contact information is proposed. Firstly, Monte Carlo trajectories with different energy functions are searched for the target conformation and randomly selected two conformations respectively. After all trajectories are searched, the assembled three conformations are scored by a unified energy function. Secondly, the characteristics of each conformation are calculated separately. The distance error between the eigenvector and the initial eigenvector; finally, the total score of the energy and distance error is calculated according to a certain weight, and the potential conformation is selected according to the size of the total score, and the target conformation is replaced by the potential conformation. The invention provides a protein structure prediction method based on multi-trajectory and residue contact information with high prediction accuracy and low calculation cost.

【技术实现步骤摘要】
一种基于多轨迹和残基接触信息的蛋白质结构预测方法
本专利技术涉及一种生物学信息学、人工智能优化、计算机应用领域,尤其涉及的是一种基于多轨迹和残基接触信息的蛋白质结构预测方法。
技术介绍
蛋白质是一种由氨基酸以脱水缩合的形式组成肽链,再经过折叠形成具有一定空间结构的有机化合物,从而发挥特定的生物功能及活性机理。诺贝尔奖获得者ChristianB.发现氨基酸序列决定蛋白质的天然结构,接着又提出热力学假说,即稳定的天然蛋白质具有全局最低自由能。该假说为采用计算机技术预测蛋白质三维结构提供了理论基础。其中,从头预测蛋白质结构方法不需要已知的蛋白质结构模板,从氨基酸序列出发,通过在构象空间中不断地进行构象搜索,反复尝试各种可能的构象,最终找到目标序列的对应的蛋白质三维结构。该方法主要依靠两个关键因素:首先,拥有较为精确的能量函数,准确地找到具有全局最低自由能的稳定构象;其次,使用高效采样算法,使得构象采样过程中可以快速搜索到稳定的构象。目前从头预测蛋白质结构的主要瓶颈主要集中于两点:第一,随着氨基酸序列的增加,构象空间急剧上升,现有的采样技术难以处理如此巨大的采样空间;第二,能量函数不够不精确,无法准确地描述构象的自由能,使得算法的准确性大大降低;第三,在采样过程中按照一定的机制从单一的初始状态向最低能量的状态逼近,很可能出现早熟现象。因此,现有的构象空间优化方法在预测精度和采样效率方面存在着缺陷,需要改进。
技术实现思路
为了克服现有的蛋白质结构预测构象空间优化方法存在采样效率较低、预测精度较低的不足,本专利技术提出一种预测精度高、计算代价低的的基于多轨迹和残基接触信息的蛋白质结构预测方法。本专利技术解决其技术问题所采用的技术方案是:一种基于多轨迹和残基接触信息的蛋白质结构预测方法,所述方法包括以下步骤:1)给定输入序列信息;2)初始化参数:设置初始构象集的规模NP,最大迭代数Gmax,初始构象迭代次数iter,采样计数器CN,搜索轨迹最大次数CNmax,温度常数T,氨基酸序列中两个残基间的距离阈值num,其中num≥24且num∈R+,权重系数w1和w2;3)残基间的远程作用:在氨基酸序列中,如果两个残基间的距离大于num,并且两个残基的Cα原子之间的距离小于则这对残基具有远程作用;4)根据RaptorX-Contact预测的关联图选取目标蛋白中具有远程作用的所有残基对C={c1,c2,…ctotal},同时标记残基对cn的接触值dn,并构成初始特征向量D={d1,d2…,dtotal},其中total代表具有远程作用的残基对总数;5)初始化构象集:启动NP条MonteCarlo轨迹,采用Rosetta的能量函数Score0对每个构象进行打分,每条轨迹搜索iter次,即生成NP个初始构象xi,i=1,...,NP构成初始构象集;6)对每个目标构象xi,i=1,...,NP进行如下操作:6.1)每次迭代中随机选取两个个构象xj,j∈{1,2,...,NP且j≠i}和xk,k∈{1,2,...,NP且k≠j≠i}:6.2)轨迹1中设定构象xi为操作构象,打分函数采用Rosetta的能量函数Score1;6.3)对目标构象进行片段组装,计数器CN开始计数,利用能量函数计算组装前后的能量值E和E′,根据公式ΔE=E′-E计算出组装前后的能量变化值;6.4)是否接收该片段的插入主要根据公式P(ΔE)=min{1,e-ΔE/T}>rand判断,其中rand∈[0,1]的随机数;判断CN≤CNmax是否满足,如果满足则依次执行步骤6.3)和6.4);如果不满足则计数器CN清零,停止片段组装;6.5)输出搜索后的构象xi′;6.6)轨迹2中选择构象xj为操作构象,打分函数采用Rosetta能量函数Score2;6.7)对构象xj依次执行6.3)和6.4);6.8)输出搜索后的构象x′j;6.9)轨迹3中选择构象xk为操作构象,打分函数采用Rosetta的能量函数Score5;6.10)对构象xk依次执行6.3)和6.4);6.11)输出搜索后的构象x′k;6.12)根据构象xi′,x′j,xk′的能量和距离误差选出潜在构象,过程如下:6.12.1)依次判断构象xi′的氨基酸对cn之间是否存在相互作用,如果存在相互作用,则残基的接触值dn′=1,否则残基间的接触值dn′=0,并构成特征向量D′={d1′,d2′,…,dn′um};6.12.2)计算构象xi′的特征向量D′={d1′,d2′,…,dn′}与初始特征向量D={d1,d2…,dnum}的距离误差6.12.3)与步骤6.12.1)和6.12.2)同理计算出构象x′j相应的距离误差sim2;6.12.4)与步骤6.12.1)和6.12.2)同理计算出构象x′k相应的距离误差sim3;6.12.5)根据Rosetta的能量函数Score3分别计算得到构象xi′,x′j,xk′的能量值分别为en1,en2,en3;6.12.6)根据公式E1=w1·sim1+w2·en1计算构象xi′的总得分;6.12.7)根据公式E2=w1·sim2+w2·en2计算构象x′j的总得分;6.12.8)根据公式E3=w1·sim3+w2·en3计算构象x′k的总得分;6.12.9)比较E1,E2,E3的大小,选出优势构象,即总得分最小的构象为潜在构象;6.13)用潜在构象替换目标构象,即更新初始构象集;7)判断是否达到最大迭代数Gmax,若达到最大迭代数,则结束迭代,否则转至步骤6)。本专利技术的技术构思为:首先,对目标构象和随机选取的两个构象分别启动采用不同能量函数的MonteCarlo轨迹进行搜索。在所有的轨迹搜索结束后,采用统一的能量函数对组装后的三个构象进行打分;其次,分别计算出每个构象的特征向量与初始特征向量的距离误差;最后,按照一定的权重计算出能量与距离误差的总分,根据总分的大小选出潜在构象,并且用潜在构象替换目标构象。本专利技术的有益效果表现在:首先,在每条轨迹中采用不同的能量函数,可以综合利用不同能量函数的优势,一定程度上降低了由于能量函数不精确导致的误差;除此以外,利用势能函数和特征距离误差共同指导构象的搜索,进一步提高了预测精度。附图说明图1是基于多轨迹和残基接触信息的蛋白质结构预测方法的基本流程图。图2是基于多轨迹和残基接触信息的蛋白质结构预测方法对蛋白质4ICB进行结构预测时的构象更新示意图。图3是基于多轨迹和残基接触信息的蛋白质结构预测方法对蛋白质4ICB进行结构预测得到的三维结构图。下面结合附图对本专利技术作进一步描述。参照图1~图3,一种基于多轨迹和残基接触信息的蛋白质结构预测方法,所述方法包括以下步骤:1)给定输入序列信息;2)初始化参数:设置初始构象集的规模NP,最大迭代数Gmax,初始构象迭代次数iter,采样计数器CN,搜索轨迹最大次数CNmax,温度常数T,氨基酸序列中两个残基间的距离阈值num,其中num≥24且num∈R+,权重系数w1和w2;3)残基间的远程作用:在氨基酸序列中,如果两个残基间的距离大于num,并且两个残基的Cα原子之间的距离小于则这对残基具有远程作用;4)根据RaptorX-Contact预测的关联图选取目标蛋白中具有远程作用的所有残基对C本文档来自技高网...

【技术保护点】
1.一种基于多轨迹和残基接触信息的蛋白质结构预测方法,其特征在于:所述方法包括以下步骤:1)给定输入序列信息;2)初始化参数:设置初始构象集的规模NP,最大迭代数Gmax,初始构象迭代次数iter,采样计数器CN,搜索轨迹最大次数CNmax,温度常数T,氨基酸序列中两个残基间的距离阈值num,其中num≥24且num∈R+,权重系数w1和w2;3)残基间的远程作用:在氨基酸序列中,如果两个残基间的距离大于num,并且两个残基的Cα原子之间的距离小于

【技术特征摘要】
1.一种基于多轨迹和残基接触信息的蛋白质结构预测方法,其特征在于:所述方法包括以下步骤:1)给定输入序列信息;2)初始化参数:设置初始构象集的规模NP,最大迭代数Gmax,初始构象迭代次数iter,采样计数器CN,搜索轨迹最大次数CNmax,温度常数T,氨基酸序列中两个残基间的距离阈值num,其中num≥24且num∈R+,权重系数w1和w2;3)残基间的远程作用:在氨基酸序列中,如果两个残基间的距离大于num,并且两个残基的Cα原子之间的距离小于则这对残基具有远程作用;4)根据RaptorX-Contact预测的关联图选取目标蛋白中具有远程作用的所有残基对C={c1,c2,…ctotal},同时标记残基对cn的接触值dn,并构成初始特征向量D={d1,d2…,dtotal},其中total代表具有远程作用的残基对总数;5)初始化构象集:启动NP条MonteCarlo轨迹,采用Rosetta的能量函数Score0对每个构象进行打分,每条轨迹搜索iter次,即生成NP个初始构象xi,i=1,...,NP构成初始构象集;6)对每个目标构象xi,i=1,...,NP进行如下操作:6.1)每次迭代中随机选取两个个构象xj,j∈{1,2,...,NP且j≠i}和xk,k∈{1,2,...,NP且k≠j≠i}:6.2)轨迹1中设定构象xi为操作构象,打分函数采用Rosetta的能量函数Score1;6.3)对目标构象进行片段组装,计数器CN开始计数,利用能量函数计算组装前后的能量值E和E′,根据公式ΔE=E′-E计算出组装前后的能量变化值;6.4)是否接收该片段的插入主要根据公式P(ΔE)=min{1,e-ΔE/T}>rand判断,其中rand∈[0,1]的随机数;判断CN≤CNmax是否满足,如果满足则依次执行步骤6.3)和6.4);如果不满足则计数器CN清...

【专利技术属性】
技术研发人员:张贵军王小奇马来发周晓根王柳静
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1