一种基于残基距离增强搜索的蛋白质结构预测方法技术

技术编号:29997043 阅读:24 留言:0更新日期:2021-09-11 04:39
一种基于残基距离增强搜索的蛋白质结构预测方法,在模因算法基本框架下,首先,种群初始化;其次,对种群中每个构象的loop区域进行交叉变异以增加种群多样性;然后,利用Rosetta的Minmover协议对构象进行局部增强,并根据能量和残基

【技术实现步骤摘要】
一种基于残基距离增强搜索的蛋白质结构预测方法


[0001]本专利技术涉及生物信息学、计算机应用领域,尤其涉及的是一种基于残基距离 增强搜索的蛋白质结构预测方法。

技术介绍

[0002]蛋白质是活细胞的基本元素,具有一系列的生物功能,参与基因调控、代谢 调控、给予机体运动与支持、参与血液中运输氧、储存铁的功能。任何蛋白质的 三维结构都是其独特功能特性的主要决定因素之一。因此,确定蛋白质结构是了 解生命重要组成部分功能的基本步骤。
[0003]目前,蛋白质结构数据库中所存储的蛋白质三维结构主要通过X射线晶体衍 射、核磁共振成像技术和冷冻电镜技术得到,然而这些实验方法不仅成本不菲, 且有各自的局限性。因此,根据Anfinsen的热力学假说,可以直接从氨基酸序列 出发,基于势能模型,采用全局优化方法,搜索分子系统的最小能量状态,从而 快速、廉价地预测蛋白质的天然结构,这已成为生物信息学最重要的研究课题之 一。对于同源性小于25%的大多数蛋白质来说,从头预测方法是唯一的选择。从 头预测方法不依赖于任何已知结构,而是以第一性原理构建蛋白质折叠力场,再 通过相应的构象搜索方法搜寻目标蛋白的天然结构。因此,从头预测方法必须考 虑以下两个因素:(1)能量函数的准确性;(2)构象空间搜索方法的有效性。 第一个因素本质上属于分子力学问题,用于计算每个蛋白质结构对应的能量值; 第二个因素本质上属于全局优化问题,通过选择一种合适的优化方法,对构象空 间进行快速搜索,得到与某一全局最小能量对应的构象。当前有以下几种比较成 功的从头预测方法:QUARK、Rosetta、Profesy、FeLTr等。但是到目前为止还 没有一种十分完善的方法来预测蛋白质的三维结构。目前主要的技术瓶颈在于两 个方面:第一方面在于现有技术对构象空间的采样能力不强;另一方面在于能量 函数不精确,导致能量最低的构象不一定对应于天然结构。
[0004]因此,现有的蛋白质结构预测方法存在能量函数不准确、采样效率低、预测 精度不足等问题,需要改进。

技术实现思路

[0005]为了克服现有的蛋白质结构预测方法在采样效率、预测精度等方面的不足, 本专利技术提供一种基于残基距离增强搜索的蛋白质结构预测方法,在模因算法框架 下,利用loop区域遗传算子和残基

残基距离分布分别进行全局探索和局部增强, 从而增加种群多样性,缓解能量函数不精确带来的影响,改善整体预测精度。
[0006]本专利技术解决其技术问题所采用的技术方案是:
[0007]一种基于残基距离增强搜索的蛋白质结构预测方法,所述方法包括以下步骤:
[0008]1)输入目标蛋白质的氨基酸序列;
[0009]2)根据目标蛋白质的氨基酸序列分别从ROBETTA服务器(http://
www.robetta.org/) 以及trRosetta服务器(https://yanglab.nankai.edu.cn/trRosetta/)上获取3片段、 9片段的片段库文件和残基

残基距离分布文件;
[0010]3)设置参数:种群大小NP,最大迭代次数G,交叉概率p
c
,变异概率p
m
,随 机选择概率p
s

[0011]4)种群初始化:利用Rosetta ClassicAbinitio协议的第一阶段生成规模为NP的种 群C={C1,C2,

,C
NP
};
[0012]5)设置迭代次数g=1,g∈{1,2,...,G};
[0013]6)对种群C中的每个个体C
i
,i∈{1,2,...,NP},执行Rosetta ClassicAbinitio协议 第二阶段的片段组装操作,生成构象构成种群
[0014]7)对种群C
*
中的每个个体i∈{1,2,...,NP}进行遗传操作,过程如下:
[0015]7.1)配对:将种群中的个体随机两两配对,每对构象记作其中,i≠j 且i,j∈{1,2,...,NP};
[0016]7.2)交叉:随机选择每对构象的一个loop区域,以概率p
c
交换该区 域的二面角值,产生两个子代个体和
[0017]7.3)变异:在每个子代个体i∈{1,2,...,NP}的每个插入窗口以概率p
m
进 行随机片段插入得到构象C',构成种群C'={C
′1,C
′2,...,C

i
};
[0018]8)对种群C'中的每个个体C',i∈{1,2,...,NP}执行Rosetta Minmover协议,得到 能量最低构象C”,构成种群C”={C
″1,C
″2,...,C

i
};
[0019]9)将种群C
*
和种群C”合并构成一个包含2
×
NP个构象的新种群
[0020]10)对种群C
new
中的每个个体k∈{1,2,...,2NP}进行基于随机排序的生存选 择,过程如下:
[0021]10.1)利用Rosetta score3能量函数计算个体的能量值
[0022]10.2)按如下公式计算个体的残基

残基距离分布势能:
[0023][0024]其中,L为氨基酸序列的长度,为构象的第i对残基间的距 离,d
i
为预测的第i对残基间的距离,p
i
为预测的第i对残基间的距离为d
i
的概率;
[0025]10.3)随机选择种群C
new
中的两个个体和其中,i≠j且 i,j∈{1,2,...,2NP},若且则选择若且则随 机产生一个随机数r,若r>p
s
,则去除反之,去除直至种 群中剩下NP个个体,令种群C=种群C
new

[0026]11)g=g+1,若g≤G,转至步骤6);否则,输出最后一代种群,并选择其中 残基

残基距离分布势能最低的构象作为预测结果。
[0027]本专利技术的技术构思为:在模因算法基本框架下,首先,种群初始化;其次, 对种群
中每个构象的loop区域进行交叉变异以增加种群多样性;然后,利用 Rosetta的Minmover协议对构象进行局部增强,并根据能量和残基

残基距离分布 势能对种群进行生存选择,从而更新种群;最后,输出最终一代种群。基于残基 距离增强搜索的蛋白质结构预测方法不仅能够缓解能量函数不精确的问题,而且 可以增加构象多样性,在提高采样效率的同时,提升了预测精度。
[0028]本专利技术的有益效果为:在模因算法框架中加入了基于残基

残基距离分布信 息,缓解了仅以单一能量函数评价构象的缺陷,增加了种群多样性,从而提高了 整体本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于残基距离增强搜索的蛋白质结构预测方法,其特征在于,所述方法包括以下步骤:1)输入目标蛋白质的氨基酸序列;2)根据目标蛋白质序列分别从ROBETTA服务器以及trRosetta服务器上获取3片段、9片段的片段库文件和残基

残基距离分布文件;3)设置参数:种群大小NP,最大迭代次数G,交叉概率p
c
,变异概率p
m
,随机选择概率p
s
;4)种群初始化:利用Rosetta ClassicAbinitio协议的第一阶段生成规模为NP的种群C={C1,C2,

,C
NP
};5)设置迭代次数g=1,g∈{1,2,...,G};6)记C
i
为种群中第i个个体,i∈{1,2,...,NP},对每个个体C
i
,执行Rosetta ClassicAbinitio协议第二阶段的片段组装操作,生成构象7)对种群中的每个个体C
i*
,i∈{1,2,...,NP}进行遗传操作,过程如下:7.1)配对:将种群中的个体随机两两配对,每对构象记作{C
i*
,C
j*
},其中,i≠j且i,j∈{1,2,...,NP};7.2)交叉:随机选择每对构象{C
i*
,C
j*
}的一个loop区域,以概率p
c
交换该区域的二面角值,产生两个子代个体7.3)变异:在每个子代个体的每个插入窗口以概率p
m
进行随机...

【专利技术属性】
技术研发人员:张贵军鄢琪夏瑜豪刘俊周晓根
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1