A protein structure prediction method based on multi-trajectory and residue contact information is proposed. Firstly, Monte Carlo trajectories with different energy functions are searched for the target conformation and randomly selected two conformations respectively. After all trajectories are searched, the assembled three conformations are scored by a unified energy function. Secondly, the characteristics of each conformation are calculated separately. The distance error between the eigenvector and the initial eigenvector; finally, the total score of the energy and distance error is calculated according to a certain weight, and the potential conformation is selected according to the size of the total score, and the target conformation is replaced by the potential conformation. The invention provides a protein structure prediction method based on multi-trajectory and residue contact information with high prediction accuracy and low calculation cost.
【技术实现步骤摘要】
一种基于多轨迹和残基接触信息的蛋白质结构预测方法
本专利技术涉及一种生物学信息学、人工智能优化、计算机应用领域,尤其涉及的是一种基于多轨迹和残基接触信息的蛋白质结构预测方法。
技术介绍
蛋白质是一种由氨基酸以脱水缩合的形式组成肽链,再经过折叠形成具有一定空间结构的有机化合物,从而发挥特定的生物功能及活性机理。诺贝尔奖获得者ChristianB.发现氨基酸序列决定蛋白质的天然结构,接着又提出热力学假说,即稳定的天然蛋白质具有全局最低自由能。该假说为采用计算机技术预测蛋白质三维结构提供了理论基础。其中,从头预测蛋白质结构方法不需要已知的蛋白质结构模板,从氨基酸序列出发,通过在构象空间中不断地进行构象搜索,反复尝试各种可能的构象,最终找到目标序列的对应的蛋白质三维结构。该方法主要依靠两个关键因素:首先,拥有较为精确的能量函数,准确地找到具有全局最低自由能的稳定构象;其次,使用高效采样算法,使得构象采样过程中可以快速搜索到稳定的构象。目前从头预测蛋白质结构的主要瓶颈主要集中于两点:第一,随着氨基酸序列的增加,构象空间急剧上升,现有的采样技术难以处理如此巨大的采样空间;第二,能量函数不够不精确,无法准确地描述构象的自由能,使得算法的准确性大大降低;第三,在采样过程中按照一定的机制从单一的初始状态向最低能量的状态逼近,很可能出现早熟现象。因此,现有的构象空间优化方法在预测精度和采样效率方面存在着缺陷,需要改进。
技术实现思路
为了克服现有的蛋白质结构预测构象空间优化方法存在采样效率较低、预测精度较低的不足,本专利技术提出一种预测精度高、计算代价低的的基于多轨迹和残基接触信 ...
【技术保护点】
1.一种基于多轨迹和残基接触信息的蛋白质结构预测方法,其特征在于:所述方法包括以下步骤:1)给定输入序列信息;2)初始化参数:设置初始构象集的规模NP,最大迭代数Gmax,初始构象迭代次数iter,采样计数器CN,搜索轨迹最大次数CNmax,温度常数T,氨基酸序列中两个残基间的距离阈值num,其中num≥24且num∈R+,权重系数w1和w2;3)残基间的远程作用:在氨基酸序列中,如果两个残基间的距离大于num,并且两个残基的Cα原子之间的距离小于
【技术特征摘要】
1.一种基于多轨迹和残基接触信息的蛋白质结构预测方法,其特征在于:所述方法包括以下步骤:1)给定输入序列信息;2)初始化参数:设置初始构象集的规模NP,最大迭代数Gmax,初始构象迭代次数iter,采样计数器CN,搜索轨迹最大次数CNmax,温度常数T,氨基酸序列中两个残基间的距离阈值num,其中num≥24且num∈R+,权重系数w1和w2;3)残基间的远程作用:在氨基酸序列中,如果两个残基间的距离大于num,并且两个残基的Cα原子之间的距离小于则这对残基具有远程作用;4)根据RaptorX-Contact预测的关联图选取目标蛋白中具有远程作用的所有残基对C={c1,c2,…ctotal},同时标记残基对cn的接触值dn,并构成初始特征向量D={d1,d2…,dtotal},其中total代表具有远程作用的残基对总数;5)初始化构象集:启动NP条MonteCarlo轨迹,采用Rosetta的能量函数Score0对每个构象进行打分,每条轨迹搜索iter次,即生成NP个初始构象xi,i=1,...,NP构成初始构象集;6)对每个目标构象xi,i=1,...,NP进行如下操作:6.1)每次迭代中随机选取两个个构象xj,j∈{1,2,...,NP且j≠i}和xk,k∈{1,2,...,NP且k≠j≠i}:6.2)轨迹1中设定构象xi为操作构象,打分函数采用Rosetta的能量函数Score1;6.3)对目标构象进行片段组装,计数器CN开始计数,利用能量函数计算组装前后的能量值E和E′,根据公式ΔE=E′-E计算出组装前后的能量变化值;6.4)是否接收该片段的插入主要根据公式P(ΔE)=min{1,e-ΔE/T}>rand判断,其中rand∈[0,1]的随机数;判断CN≤CNmax是否满足,如果满足则依次执行步骤6.3)和6.4);如果不满足则计数器CN清...
【专利技术属性】
技术研发人员:张贵军,王小奇,马来发,周晓根,王柳静,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。