一种基于距离分布估计的蛋白质预测方法技术

技术编号：20428619 阅读：53 留言：0更新日期：2019-02-23 09:43

一种基于距离分布估计的蛋白质预测方法，首先，基于过程的构象解知识以及统计学习来预测距离分布，并将其用来指导构象搜索；其次，在遗传算法的基本框架下，对每个目标个体完成基于片段组装的变异，并根据距离分布的知识和能量函数对目标个体和变异个体分别进行评价，选出适应度较高的个体进入下一代种群。本发明专利技术提出一种预测精度高、计算代价低的基于距离分布估计的蛋白质预测方法。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于距离分布估计的蛋白质预测方法
本专利技术涉及一种生物学信息学、智能优化、计算机应用领域，尤其涉及的是一种基于距离分布估计的蛋白质预测方法。
技术介绍
蛋白质是由氨基酸脱水缩合形成的生物大分子，它参与生物体内的绝大多数化学反应，对人类的健康起着决定性作用。准确掌握蛋白质的结构和功能对疾病研究和生物制药都有重要意义。在计算生物学领域，通过计算机手段根据氨基酸序列预测蛋白质三维结构。这类方法不仅可以利用计算机的并行算法减少三维结构的预测时间，而且预测过程简单成本低廉，因此这类方法相比于实验方法更能得到广泛应用。由于蛋白质结构本身的复杂性，到目前为止蛋白质三维结构的预测仍是一个有待进一步解决的难题。从头预测方法直接基于蛋白质物理或知识能量模型，利用优化算法在构象空间搜索全局最低能量构象解，但是由于能量函数不精确，导致数学上的最优解并不一定对应于目标蛋白的天然态结构，从而阻碍了高性能算法在蛋白质结构从头预测领域中的应用。因此，分子动力学模拟、蒙特卡罗算法以及进化算法等方法虽然在解决一些小蛋白方面取得了显著的成果，但随着序列的增长，则这些方法采样效率低，预测精度低。最新研究表明，利用残基与残基间的距离信息不仅可以预测构蛋白质三维结构骨架，还可以作为挑选蛋白质候选结构的评分项。因此，预测残基对的距离就成为了进一步提高蛋白质三维结构预测精度一个非常重要手段。可是目前基于机器学习的残基对距离预测方法使用的大多都是传统机器学习模型，这些模型往往不能很好的建模蛋白质序列。如何提高残基间的距离的预测，并利用残基间的距离信息引导蛋白质构象的搜索，是生物信息领域中的关键。因此...

【技术保护点】
1.一种基于距离分布估计的蛋白质预测方法，其特征在于：所述方法包括以下步骤：1)给定输入序列信息；2)能量函数E(x)采用Rosetta的打分函数score3；3)参数初始化：设置种群规模Psize，学习阶段迭代次数G1，搜索阶段最大的迭代次数Gmax，连续拒绝数Cmax，窗口长度l，距离间隔为r，参数t，结构相似度阈值Rcut，初始温度常数KT；4)基于过程的构象知识构建距离分布，过程如下：4.1)启动Psize条轨迹，每条轨迹采样G1次；在采样中对每个个体进行片段组装，并利用Monte Carlo机制判断是否接收该片段的插入，记录接收的总次数Num，并且将每一次接收后的构象保存到构象集X＝{xi|i∈N+且i＜Num}；4.2)对构象集X中所有的构象进行聚类选出潜在的构象，具体操作如下：4.2.1)在当前构象集X中，选出能量最低的构象x,x∈X，将x从X中移到构象集X′；4.2.2)依次计算构象集X中的每一个构象xi与x基于Cα原子的均方根偏差R；如果R≤Rcut，则将xi从X中移到构象集X′；4.2.3)统计构象集X′中含有的构象个数Num′，如果Num′＞t·Num，则转至步骤...

【技术特征摘要】
1.一种基于距离分布估计的蛋白质预测方法，其特征在于：所述方法包括以下步骤：1)给定输入序列信息；2)能量函数E(x)采用Rosetta的打分函数score3；3)参数初始化：设置种群规模Psize，学习阶段迭代次数G1，搜索阶段最大的迭代次数Gmax，连续拒绝数Cmax，窗口长度l，距离间隔为r，参数t，结构相似度阈值Rcut，初始温度常数KT；4)基于过程的构象知识构建距离分布，过程如下：4.1)启动Psize条轨迹，每条轨迹采样G1次；在采样中对每个个体进行片段组装，并利用MonteCarlo机制判断是否接收该片段的插入，记录接收的总次数Num，并且将每一次接收后的构象保存到构象集X＝{xi|i∈N+且i＜Num}；4.2)对构象集X中所有的构象进行聚类选出潜在的构象，具体操作如下：4.2.1)在当前构象集X中，选出能量最低的构象x,x∈X，将x从X中移到构象集X′；4.2.2)依次计算构象集X中的每一个构象xi与x基于Cα原子的均方根偏差R；如果R≤Rcut，则将xi从X中移到构象集X′；4.2.3)统计构象集X′中含有的构象个数Num′，如果Num′＞t·Num，则转至步骤4.3.4)，否则转至步骤4.3.1)；4.2.4)利用构象集X′中所有构象x′,x′∈X′的结构信息，以滑动窗口的形式遍历计算每个残基对的空间距离d′mn，其中n＝m+l；4.2.5)以r为间隔进行划分，统计构象集X′中d′mn落入各个距离区间[a,b]的构象个数即a＜d′mn≤b，则其中b＝a+r且a＞0,b＜3.78l。如果构象集X′中没有d′mn落入区间[a,b]，则4.2.6)目标个体所有组成目标个体的距离分布；5)对构象集X′中所有的构象根据能量进行排...

【专利技术属性】
技术研发人员：张贵军，王小奇，马来发，周晓根，胡俊，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人