A protein structure prediction method based on residue contact information self-learning is proposed. Firstly, fragment libraries and contact maps are obtained by Robetta and RaptorX Contact. Secondly, in the first stage of population evolution, residues are learned about distance distribution and information entropy index is established to reflect the convergence degree of population to achieve the goal of self-learning. Secondly, in the second stage of final population evolution, benefits are obtained. The distance distribution information is scored by the learned residues, and the energy function is used to search the conformation space. Finally, the final prediction results are obtained by clustering. The invention provides a protein structure prediction method. On the one hand, it can learn residues to optimize the conformation space of distance information and auxiliary energy function independently; on the other hand, it can construct information entropy index to realize two-stage dynamic switching.
【技术实现步骤摘要】
一种基于残基接触信息自学习的蛋白质结构预测方法
本专利技术涉及一种生物学信息学、智能优化、计算机应用领域,尤其涉及的是一种基于残基接触信息自学习的蛋白质结构预测方法。
技术介绍
蛋白质是由氨基酸以“脱水缩合”的方式组成的多肽链经过盘曲折叠形成的具有一定特定空间结构的生物大分子,从而在生物体中发挥某一特定功能。蛋白质的三维结构在药物设计、蛋白质工程和生物技术中具有重要意义。目前数以百万的蛋白质序列被解析出来,然而大部分的蛋白质结构未知。因此,蛋白质结构预测是一个重要的研究问题。蛋白质序列与结构之间的鸿沟主要原因是测序技术的快速发展和结构解析技术进步相对缓慢。蛋白质结构实验测定方法包括X射线晶体学、核磁共振光谱、和电子显微镜等,这些方法被广泛用于蛋白质结构测定。这些实验测定方法极其耗时,代价昂贵,而且容易发生错误。在理论和应用的双重驱动下,许多科学家利用计算机从氨基酸序列来预测蛋白质三维结构。根据Anfinsen原则,以计算机为工具,运用适当的算法,从氨基酸序列出发直接预测蛋白质的三维结构,成为当前生物信息学中一种主要的研究课题。而从头预测方法是针对没有全长同源模板的目标蛋白采用“从头”的方法建模。从现实意义来讲,该方法具有普遍性,对于序列相似度<20%或寡肽(<10个残基的小蛋白)来说,从头预测方法是唯一的选择。残基接触图是蛋白质三维结构的简约表达,并具有旋转平移不变性。结合机器学习,利用已有的大量基因组序列知识,分析共同进化残基序列,从而有效重构蛋白质三维结构。目前,预测的蛋白质接触图被成功应用于预测膜蛋白。接触图可以捕获远程残 ...
【技术保护点】
1.一种基于残基接触信息自学习的蛋白质结构预测方法,其特征在于:所述蛋白质结构预测方法包括以下步骤:1)给定输入序列信息,利用Robetta服务器获得该序列的片段库;2)利用RaptorX‑Contact预测该序列的接触图,获得N个残基对的接触情况,并将接触图中的第k个残基对间的接触,接触是指Cα‑Cα欧氏距离小于
【技术特征摘要】
1.一种基于残基接触信息自学习的蛋白质结构预测方法,其特征在于:所述蛋白质结构预测方法包括以下步骤:1)给定输入序列信息,利用Robetta服务器获得该序列的片段库;2)利用RaptorX-Contact预测该序列的接触图,获得N个残基对的接触情况,并将接触图中的第k个残基对间的接触,接触是指Cα-Cα欧氏距离小于接触概率表示为Pk,k∈{1,...,N};3)初始化:种群规模NP,信息熵阈值α,种群第一阶段和第二阶段最大迭代次数分别为G1,G2,根据输入序列,执行RosettaAbinitio协议的第一与第二阶段NP次,产生初始构象种群P={C1,C2,...,CNP},其中CNP表示第NP个个体,记当前代数g=0;4)进入种群进化第一阶段,过程如下:4.1)利用能量函数Rosettascore3对种群所有个体进行评分,并由高到低排序;4.2)对前50%的个体分别进行片段组装,片段长度为9,并且根据Metropolis准则概率接收,g=g+1;5)计算当前种群的熵值,过程如下:5.1)残基对间距离离散化:根据第k个残基对的Cα-Cα欧氏距离dk,满足以为间隔将dk离散化为13个区域,每个区域对应相应的距离范围,具体规则如下:表示向下取整,B表示区域索引号,B∈{1,...,13};5.2)计算种群在第k个残基对落入第B块区域的比例qk,B;5.3)学习当前种群的残基对的距离分布:当g=0,令其中w是学习...
【专利技术属性】
技术研发人员:张贵军,谢腾宇,马来发,周晓根,王柳静,郝小虎,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。