一种基于距离相似度的蛋白质构象空间搜索方法技术

技术编号:17138955 阅读:25 留言:0更新日期:2018-01-27 14:47
一种基于距离相似度的蛋白质构象空间搜索方法,在遗传算法的基本框架下,对每个目标个体完成交叉和变异操作;计算出目标个体残基间的空间距离值,并由这些空间距离值构成目标特征向量;然后,求出目标个体的特征向量与先验知识中目标蛋白的初始特征向量的Manhattan距离;同理,计算得到变异个体对应的变异特征向量以及对应的Manhattan距离;最后,根据Manhattan距离值和能量值选出优势个体,更新种群。本发明专利技术提出一种预测精度高、计算代价低的基于距离相似度的蛋白质构象空间搜索方法。

A spatial search method for protein conformation based on distance similarity

A search method based on the similarity of protein conformational space distance, the basic framework of genetic algorithm, for each target individual crossover and mutation operations; calculate individual inter residue spatial distance values, and these values constitute the feature vector space distance; then, calculate the initial feature vector of target protein feature vector with the prior knowledge of the target individual in Manhattan distance; similarly, the calculated variation corresponding to the variation feature vector and the corresponding Manhattan distance; finally, according to the Manhattan distance value and energy value of selected individual advantage, updates the population. The invention proposes a protein conformation space search method based on distance similarity, which has high prediction precision and low computational cost.

【技术实现步骤摘要】
一种基于距离相似度的蛋白质构象空间搜索方法
本专利技术涉及一种生物学信息学、智能优化、计算机应用领域,尤其涉及的是,一种基于距离相似度的蛋白质构象空间搜索方法。
技术介绍
蛋白质是生命体的重要组成部分和生命活动的主要执行者。据估计,生命体的细胞中大约15-20%是蛋白质,是含量最高的有机物。蛋白质是由氨基酸以肽键相连而成的一条蛋白质序列,这些伸展链只有在折叠成特定的结构之后方能行使特定的生物学功能,因此了解蛋白质的三维结构是研究其生物功能及活性机理的基础。然而至今为止,人们仍不清楚蛋白质究竟如何由其一维序列折叠形成具有特定生物功能的三维结构。相对于翻译过程中的三联体遗传密码,蛋白质序列与其空间结构的对应关系常被称之为第二遗传密码。目前蛋白质结构数据库PDB中所存储的蛋白质三维结构主要通过X射线晶体衍射、核磁共振成像和三维电镜重构技术得到。尽管上述三种研究方法已经比较成熟,但这些实验方法代价太高,且有各自的应用局限。因此在理论探索和应用需求的双重推动下,根据Anfinsen法则,以序列为起点利用计算机技术设计适当的算法发展起来的蛋白质三级结构预测方法中,同源建模和穿线方法可以统称为基于模板的结构预测方法。不同于同源建模以及穿线方法,从头预测方法不依赖于任何已知结构,而是以第一性原理构建蛋白质折叠力场,再通过相应的构象搜索优化方法搜寻目标蛋白的天然结构。蛋白质构象空间优化的本质复杂性,使其成为蛋白质从头预测领域中一个极具挑战性的研究课题。目前主要的技术瓶颈在于两个方面,第一方面在于采样方法,现有技术对构象空间采样能力不强,另一方面由于能量函数不精确,所以在获得能量最优的构象时,并不能挑选出好的构象。因此,现有的构象空间优化方法在预测精度和采样效率方面存在着缺陷,需要改进。
技术实现思路
为了克服现有的蛋白质结构预测构象空间优化方法存在采样效率较低、预测精度较低的不足,本专利技术提出一种采样效率较高、预测精度高的基于距离相似度的蛋白质构象空间搜索方法。本专利技术解决其技术问题所采用的技术方案是:一种基于距离相似度的蛋白质构象空间搜索方法,所述方法包括以下步骤:1)给定输入序列信息;2)参数初始化:设置种群规模Pop_size,最大迭代次数Gmax,交叉因子CR,初始种群搜索轨迹长度iteration,交叉片段长度fragment,变异计数器counter,变异计数器的最大计数值counter_max,每个个体xi,i∈{1,2,...,Pop_size}的能量计算选用RosettaScore3函数即E(xi),温度常数T,序列间隔num,先验知识中目标蛋白残基间的空间距离构成的初始特征向量V={v1,1+num,…,vk,k+num},k∈[1,length-num],其中vk,k+num是第k个残基相应的α原子和第k+num个残基相应的α原子之间的欧式距离,length为序列长度,选择概率Ps;3)初始化种群:启动Pop_size条MonteCarlo轨迹,每条轨迹搜索iteration次,即生成Pop_size个初始个体;4)对每个目标个体xi,i=1,.2..,Pop_size进行如下操作:4.1)随机选取个体xj,j∈{1,2,...,Pop_size}且j≠i,随机生成rand∈[0,1],若,rand≤CR则对个体xi和xj进行如下操作:4.1.1)随机生成整数begin∈[1,length-fragment]作为交叉起始点,进而得到交叉区间[begin,end],其中begin+fragment=end为交叉终止点;4.1.2)在交叉区间[begin,end]内依次交换交个体xi和xj相应的扭转角度,生成新个体x′i,x′j;否则x′i=xi,x′j=xj,转至步骤4.2);4.2)对个体x′i,x′j进行如下的变异操作生成变异个体x″i,x″j:4.2.1)对个体x′i进行片段组装,利用RosettaScore3函数E(xi)分别计算组装前后的能量值Ei和E′j;4.2.2)利用MonteCarlo机制即根据公式P(ΔE)=min{1,e-ΔE/T}>random判断是否接收该片段的插入,其中random∈[0,1]的随机数,ΔE是个体x′i的在组装前后的能量变化值即ΔE=E′j-Ei;4.2.3)如果接受则转至步骤4.2.5),否则转至4.2.4);4.2.4)变异计数器counter开始计数;若counter≤counter_max则依次执行步骤4.2.1)、4.2.2)和4.2.3)直到成功变异生成个体x″i为止;否则执行步骤4.2.1)生成变异个体x″i;最后,计数器counter清零;4.2.5)对个体x′j依次执行步骤4.2.1)、4.2.2)和4.2.3),生成变异个体x″j;4.3)根据目标个体xi和变异个体x″i、x″j的能量和距离相似度进行选择,选出优势个体并更新种群,过程如下:4.3.1)依次计算出目标个体xi的第k个残基相应的α原子和第k+num个残基相应的α原子之间的欧式距离进而得出目标特征向量4.3.2)计算目标个体xi的距离相似度其中4.3.3)对个体x″i执行步骤4.3.1)得出个体x″i对应的变异特征向量并根据计算出个体x″i相应的距离相似度sim_mutation_1;4.3.4)对个体x″j依次执行步骤4.3.1)得出个体x″j对应的特变异征向量并根据计算出个体x″j对应的距离相似度sim_mutation_2;4.3.5)根据RosettaScore3函数分别计算出目标个体xi和个体x″i、x″j的能量值分别为energy_object,energy_mutation_1,energy_mutation_2;4.3.6)在个体xi和个体x″i、x″j中,如果某一个体Y∈{xi,x″i,x″j}的能量值和距离相似度均小于其他两个个体的能量值和距离相似度,则该个体为优势个体;如果某一个体Y′∈{xi,x″i,x″j}能量值小于其他两个个体的能量值,则随机生成rand_pro1∈(0,1),如果rand_pro1≤Ps则将该个体设为优势个体;同理,如果某一个体Y″∈{xi,x″i,x″j}的对应相似度是最小的,则随机生成rand_pro2∈(0,1),如果rand_pro2≤Ps则将该个体设为优势个体;最后,优势个体替代目标个体,更新种群;5)判断是否达到最大迭代代数Gmax,若达到,则输出结果,否则转至步骤4)。本专利技术的技术构思为:在遗传算法的基本框架下,对每个目标个体完成交叉和变异操作;计算出目标个体残基间的空间距离值,并由这些空间距离值构成目标特征向量;然后,求出目标个体的特征向量与先验知识中目标蛋白的初始特征向量的Manhattan距离;同理,计算得到变异个体对应的变异特征向量以及对应的Manhattan距离;最后,根据Manhattan距离值和能量值选出优势个体,更新种群。本专利技术的有益效果表现在:一方面通过加入残基间的空间距离信息指导种群更新,降低了由于能量函数不精确带来的误差,进而大大提高了预测精度;另一方面,在遗传算法的框架下,通过个体间的信息交互,有效地加快了收敛速度。附图说明图1是基于距离相似度的蛋白质构象空间搜索方法的基本流程图。图2是基于本文档来自技高网
...
一种基于距离相似度的蛋白质构象空间搜索方法

【技术保护点】
一种基于距离相似度的蛋白质构象空间搜索方法,其特征在于:所述构象空间搜索方法包括以下步骤:1)给定输入序列信息;2)参数初始化:设置种群规模Pop_size,最大迭代次数Gmax,交叉因子CR,初始种群搜索轨迹长度iteration,交叉片段长度fragment,变异计数器counter,变异计数器的最大计数值counter_max,每个个体xi,i∈{1,2,...,Pop_size}的能量计算选用Rosetta Score3函数即E(xi),温度常数T,序列间隔num,先验知识中目标蛋白残基间的空间距离构成的初始特征向量V={v1,1+num,…,vk,k+num},k∈[1,length‑num],其中vk,k+num是第k个残基相应的α原子和第k+num个残基相应的α原子之间的欧式距离,length为序列长度,选择概率Ps;3)初始化种群:启动Pop_size条Monte Carlo轨迹,每条轨迹搜索iteration次,即生成Pop_size个初始个体;4)对每个目标个体xi,i=1,.2..,Pop_size进行如下操作:4.1)随机选取个体xj,j∈{1,2,...,Pop_size}且j≠i,随机生成rand∈[0,1],若rand≤CR,则对个体xi和xj进行如下操作:4.1.1)随机生成整数begin∈[1,length‑fragment]作为交叉起始点,进而得到交叉区间[begin,end],其中begin+fragment=end为交叉终止点;4.1.2)在交叉区间[begin,end]内依次交换交个体xi和xj相应的扭转角度,生成新个体x′i,x′j;否则x′i=xi,x′j=xj,转至步骤4.2)4.2)对个体x′i,x′j进行如下的变异操作生成变异个体x″i,x″j:4.2.1)对个体x′i进行片段组装,利用Rosetta Score3函数E(xi)分别计算组装前后的能量值Ei和E′j;4.2.2)利用Monte Carlo机制即根据公式P(ΔE)=min{1,e...

【技术特征摘要】
1.一种基于距离相似度的蛋白质构象空间搜索方法,其特征在于:所述构象空间搜索方法包括以下步骤:1)给定输入序列信息;2)参数初始化:设置种群规模Pop_size,最大迭代次数Gmax,交叉因子CR,初始种群搜索轨迹长度iteration,交叉片段长度fragment,变异计数器counter,变异计数器的最大计数值counter_max,每个个体xi,i∈{1,2,...,Pop_size}的能量计算选用RosettaScore3函数即E(xi),温度常数T,序列间隔num,先验知识中目标蛋白残基间的空间距离构成的初始特征向量V={v1,1+num,…,vk,k+num},k∈[1,length-num],其中vk,k+num是第k个残基相应的α原子和第k+num个残基相应的α原子之间的欧式距离,length为序列长度,选择概率Ps;3)初始化种群:启动Pop_size条MonteCarlo轨迹,每条轨迹搜索iteration次,即生成Pop_size个初始个体;4)对每个目标个体xi,i=1,.2..,Pop_size进行如下操作:4.1)随机选取个体xj,j∈{1,2,...,Pop_size}且j≠i,随机生成rand∈[0,1],若rand≤CR,则对个体xi和xj进行如下操作:4.1.1)随机生成整数begin∈[1,length-fragment]作为交叉起始点,进而得到交叉区间[begin,end],其中begin+fragment=end为交叉终止点;4.1.2)在交叉区间[begin,end]内依次交换交个体xi和xj相应的扭转角度,生成新个体x′i,x′j;否则x′i=xi,x′j=xj,转至步骤4.2)4.2)对个体x′i,x′j进行如下的变异操作生成变异个体x″i,x″j:4.2.1)对个体x′i进行片段组装,利用RosettaScore3函数E(xi)分别计算组装前后的能量值Ei和E′j;4.2.2)利用MonteCarlo机制即根据公式P(ΔE)=min{1,e-ΔE/T}>random判断是否接收该片段的插入,其中random∈[0,1]的随机数,ΔE是个体x′i的在组装前后的能量变化值即ΔE=E′j-Ei;4.2.3)如果接受则转至步...

【专利技术属性】
技术研发人员:张贵军王小奇周晓根王柳静郝小虎马来发
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1