一种基于距离相似度的蛋白质构象空间搜索方法技术

技术编号：17138955 阅读：25 留言：0更新日期：2018-01-27 14:47

一种基于距离相似度的蛋白质构象空间搜索方法，在遗传算法的基本框架下，对每个目标个体完成交叉和变异操作；计算出目标个体残基间的空间距离值，并由这些空间距离值构成目标特征向量；然后，求出目标个体的特征向量与先验知识中目标蛋白的初始特征向量的Manhattan距离；同理，计算得到变异个体对应的变异特征向量以及对应的Manhattan距离；最后，根据Manhattan距离值和能量值选出优势个体，更新种群。本发明专利技术提出一种预测精度高、计算代价低的基于距离相似度的蛋白质构象空间搜索方法。

A spatial search method for protein conformation based on distance similarity

A search method based on the similarity of protein conformational space distance, the basic framework of genetic algorithm, for each target individual crossover and mutation operations; calculate individual inter residue spatial distance values, and these values constitute the feature vector space distance; then, calculate the initial feature vector of target protein feature vector with the prior knowledge of the target individual in Manhattan distance; similarly, the calculated variation corresponding to the variation feature vector and the corresponding Manhattan distance; finally, according to the Manhattan distance value and energy value of selected individual advantage, updates the population. The invention proposes a protein conformation space search method based on distance similarity, which has high prediction precision and low computational cost.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于距离相似度的蛋白质构象空间搜索方法
本专利技术涉及一种生物学信息学、智能优化、计算机应用领域，尤其涉及的是，一种基于距离相似度的蛋白质构象空间搜索方法。
技术介绍
蛋白质是生命体的重要组成部分和生命活动的主要执行者。据估计，生命体的细胞中大约15-20％是蛋白质，是含量最高的有机物。蛋白质是由氨基酸以肽键相连而成的一条蛋白质序列，这些伸展链只有在折叠成特定的结构之后方能行使特定的生物学功能，因此了解蛋白质的三维结构是研究其生物功能及活性机理的基础。然而至今为止，人们仍不清楚蛋白质究竟如何由其一维序列折叠形成具有特定生物功能的三维结构。相对于翻译过程中的三联体遗传密码，蛋白质序列与其空间结构的对应关系常被称之为第二遗传密码。目前蛋白质结构数据库PDB中所存储的蛋白质三维结构主要通过X射线晶体衍射、核磁共振成像和三维电镜重构技术得到。尽管上述三种研究方法已经比较成熟，但这些实验方法代价太高，且有各自的应用局限。因此在理论探索和应用需求的双重推动下，根据Anfinsen法则，以序列为起点利用计算机技术设计适当的算法发展起来的蛋白质三级结构预测方法中，同源建模和穿线方法可以统称为基于模板的结构预测方法。不同于同源建模以及穿线方法，从头预测方法不依赖于任何已知结构，而是以第一性原理构建蛋白质折叠力场，再通过相应的构象搜索优化方法搜寻目标蛋白的天然结构。蛋白质构象空间优化的本质复杂性，使其成为蛋白质从头预测领域中一个极具挑战性的研究课题。目前主要的技术瓶颈在于两个方面，第一方面在于采样方法，现有技术对构象空间采样能力不强，另一方面由于能量函数不精确，所以在获得...
一种基于距离相似度的蛋白质构象空间搜索方法

【技术保护点】
一种基于距离相似度的蛋白质构象空间搜索方法，其特征在于：所述构象空间搜索方法包括以下步骤：1)给定输入序列信息；2)参数初始化：设置种群规模Pop_size，最大迭代次数Gmax，交叉因子CR，初始种群搜索轨迹长度iteration，交叉片段长度fragment，变异计数器counter，变异计数器的最大计数值counter_max，每个个体xi,i∈{1,2,...,Pop_size}的能量计算选用Rosetta Score3函数即E(xi)，温度常数T，序列间隔num，先验知识中目标蛋白残基间的空间距离构成的初始特征向量V＝{v1,1+num,…,vk,k+num},k∈[1,length‑num]，其中vk,k+num是第k个残基相应的α原子和第k+num个残基相应的α原子之间的欧式距离，length为序列长度，选择概率Ps；3)初始化种群：启动Pop_size条Monte Carlo轨迹，每条轨迹搜索iteration次，即生成Pop_size个初始个体；4)对每个目标个体xi,i＝1,.2..,Pop_size进行如下操作：4.1)随机选取个体xj,j∈{1,2,...,Po...

【技术特征摘要】
1.一种基于距离相似度的蛋白质构象空间搜索方法，其特征在于：所述构象空间搜索方法包括以下步骤：1)给定输入序列信息；2)参数初始化：设置种群规模Pop_size，最大迭代次数Gmax，交叉因子CR，初始种群搜索轨迹长度iteration，交叉片段长度fragment，变异计数器counter，变异计数器的最大计数值counter_max，每个个体xi,i∈{1,2,...,Pop_size}的能量计算选用RosettaScore3函数即E(xi)，温度常数T，序列间隔num，先验知识中目标蛋白残基间的空间距离构成的初始特征向量V＝{v1,1+num,…,vk,k+num},k∈[1,length-num]，其中vk,k+num是第k个残基相应的α原子和第k+num个残基相应的α原子之间的欧式距离，length为序列长度，选择概率Ps；3)初始化种群：启动Pop_size条MonteCarlo轨迹，每条轨迹搜索iteration次，即生成Pop_size个初始个体；4)对每个目标个体xi,i＝1,.2..,Pop_size进行如下操作：4.1)随机选取个体xj,j∈{1,2,...,Pop_size}且j≠i，随机生成rand∈[0,1]，若rand≤CR，则对个体xi和xj进行如下操作：4.1.1)随机生成整数begin∈[1,length-fragment]作为交叉起始点，进而得到交叉区间[begin,end]，其中begin+fragment＝end为交叉终止点；4.1.2)在交叉区间[begin,end]内依次交换交个体xi和xj相应的扭转角度，生成新个体x′i,x′j；否则x′i＝xi,x′j＝xj，转至步骤4.2)4.2)对个体x′i,x′j进行如下的变异操作生成变异个体x″i,x″j：4.2.1)对个体x′i进行片段组装，利用RosettaScore3函数E(xi)分别计算组装前后的能量值Ei和E′j；4.2.2)利用MonteCarlo机制即根据公式P(ΔE)＝min{1,e-ΔE/T}＞random判断是否接收该片段的插入，其中random∈[0,1]的随机数，ΔE是个体x′i的在组装前后的能量变化值即ΔE＝E′j-Ei；4.2.3)如果接受则转至步...

【专利技术属性】
技术研发人员：张贵军，王小奇，周晓根，王柳静，郝小虎，马来发，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人