当前位置: 首页 > 专利查询>苏州大学专利>正文

一种蛋白质侧链预测方法及预测装置制造方法及图纸

技术编号:9569205 阅读:123 留言:0更新日期:2014-01-16 02:43
本发明专利技术公开了一种蛋白质侧链预测方法及预测装置,方法包括a、选择目标蚁群数,初始化蚁群算法参数;b、初始化蛋白质侧链构象,建立蛋白质侧链构象与侧链旋转异构体库的映射关系;c、目标群随机选取所述蛋白质残基的优化顺序,在所述目标蚁群在信息素矩阵和启发值的指引下对蛋白质侧链进行重构,若循环偶数次,继续进行局部优化;利用能量函数对目标群中重构的侧链的蛋白质进行能量计算,选择当代能量最小的蛋白质构象,再与最好蛋白质构象进行比较,选择能量小的蛋白质更新最好蛋白质构象,并更新信息素矩阵;d、重复步骤c,直至满足终止条件,得到最优蛋白质侧链构象。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种蛋白质侧链预测方法及预测装置,方法包括a、选择目标蚁群数,初始化蚁群算法参数;b、初始化蛋白质侧链构象,建立蛋白质侧链构象与侧链旋转异构体库的映射关系;c、目标群随机选取所述蛋白质残基的优化顺序,在所述目标蚁群在信息素矩阵和启发值的指引下对蛋白质侧链进行重构,若循环偶数次,继续进行局部优化;利用能量函数对目标群中重构的侧链的蛋白质进行能量计算,选择当代能量最小的蛋白质构象,再与最好蛋白质构象进行比较,选择能量小的蛋白质更新最好蛋白质构象,并更新信息素矩阵;d、重复步骤c,直至满足终止条件,得到最优蛋白质侧链构象。【专利说明】一种蛋白质侧链预测方法及预测装置
本专利技术涉及一种蛋白质相关的数据处理方法,具体涉及一种蛋白质侧链的预测方法及预测装置。
技术介绍
蛋白质因其具有特定结构而成为具体生命功能的执行者。从这个意义上讲,蛋白质是一类最重要的生物大分子。因此,确定蛋白质的三维结构成为生物领域的一项重要课题。而随着人类基因组计划的顺利完成,多种模式动植物基因序列的完全测定以及蛋白质工程技术的不断发展,蛋白质三维空间结构的预测变得越来越重要。这体现在两个方面,一是由此产生的海量的核酸与蛋白质一级结构数据库所包含的生物信息亟需解释;二是传统的蛋白空间结构分析技术,如X-射线晶体衍射法和核磁共振技术,既费时又费力,使得蛋白质空间结构测定的速度相对较慢。这些都使得蛋白质空间结构的准确预测变得日益紧迫和重要。采用计算机系统对蛋白质结构进行预测,面临着前所未有的搜索空间与纷繁庞杂的约束机制。因此,如何实现蛋白质结构的预测,是计算机领域的一大挑战。用计算机进行蛋白质三维结构预测的方法可分为3类,即从头预测法、同源建模法和折叠识别法,它们都涉及侧链构象预测。蛋白质侧链构象的预测是确定蛋白质结构和蛋白质设计过程中必不可少的一部分。在比较单一位点突变体(single-sitemutants)和相似蛋白(closely relatedproteins)时,人们发现蛋白质骨架变化往往较小,主要为侧链变化,因此侧链的预测很大程度上决定了蛋白质三维结构预测的准确度。通过计算机进行侧链构象的预测方法,一般是通过不断尝试将来自不连续的集合中的侧链构型安装在固定骨架上,直至得到自由能最小的构象的过程。在假设骨架刚性固定的前提下,预测侧链构象的方法基本上包括3个核心步骤:侧链构象的选择,能量函数的评估和侧链的确定。近年来有许多流行的方法预测蛋白质侧链,如SCWRL、CIS-RR都由于其速度快、准确率高,使用方便等特色受到了好评。但是侧链预测问题是一个NP-C问题,因此理论上来说确定性算法是无法得出最优解的。而SCWRL3/4和CIS-RR都是确定算法,尽管可以在较短的时间内获得近似解,但容易陷入局部最优。相比之下,基于模拟退火和蒙特卡罗的RosettaPack却是一种启发式算法。然而这些算法都有一个共同的缺点,它们都使用了不同的能量函数,并且它们的能量函数都需要训练,也就意味着,这些能量函数没有普遍性,只针对部分蛋白质的侧链预测较为准确。
技术实现思路
本专利技术的专利技术目的是提供一种蛋白质侧链预测方法,通过方法改进,实现对蛋白质侧链构象的高精度预测。本专利技术的另一专利技术目的是提供一种蛋白质侧链的预测装置。为达到上述专利技术目的,本专利技术采用的技术方案是:一种蛋白质侧链预测方法,其特征在于,通过计算机完成以下步骤: (1)初始化蛋白质侧链构象作为起始的目标蛋白质构象,建立蛋白质侧链构象与侧链旋转异构体库F的映射关系,其中第i号残基对应的旋转异构体集合,标志为Fi ; (2)基于蚁群算法对所述目标蛋白质侧链构象进行重构,包括: ①设定目标蚁群数,初始化每个目标蚁群的蚁群算法参数,所述蚁群算法参数包括蚂蚁个数、最大循环次数、最优解保持代数、信息素矩阵τ和启发值η,其初始值分别为:蚂蚁个数为30?60的整数、最大循环次数为100?120的整数、最优解保持代数为15?20的整数、τ = η= E(M)/n,式中E是能量函数,M是蛋白质全原子构象,n是残基个数; ②每一目标蚁群随机选取所述蛋白质残基的优化顺序,根据信息素矩阵τ和启发值n对蛋白质侧链进行重构,如果是偶数次循环优化,则继续进行局部优化; ③对目标蚁群重构侧链的蛋白质进行能量计算,获得其中能量最小的蛋白质构象,再与目标蛋白质构象进行比较,选择能量小的蛋白质构象作为新的目标蛋白质构象,并更新信息素矩阵τ ; ④重复步骤②和③,直至达到最大循环次数或者满足最优解保持代数。上述技术方案中,目标蚁群数是正整数,可以是I个或者多个。其中,优选的方案是,所述目标蚁群数为大于I的整数,各目标蚁群使用同一个信息素矩阵τ。进一步的技术方案,对于目标蚁群数为大于I的整数的情况,各目标蚁群采用不同的能量函数对重构后的蛋白质进行能量计算。上述技术方案中,所述步骤②包括, a.随机选择片段位置i,从所述旋转异构体库F中确定第i组旋转异构体集合fi; b.目标蚁群在信息素的指引下从旋转异构体集合Fi中选择旋转异构体fi,并根据蛋白质构象与同构异构体库的映射关系,用fi替换所述初始蛋白质构象中对应位置的侧链; c.重复步骤b,使所述蛋白质构象上的所有残基被替换一次,得到重构的蛋白质构象; d.每偶数代进行一次局部搜索,局部优化后的蛋白质构象保留下来。所述局部优化采用蒙特卡洛算法,搜索整个异构体库F,如果导致能量下降,SPΔΕ〈0,就将次残基插入。本专利技术同时公开了一种蛋白质侧链预测装置,包括: 蚁群选择单元,用于选择目标蚁群; 初始化单元,用于初始化目标蚁群数,蚁群算法参数和蛋白质构象,并建立蛋白质构象和侧链旋转异构体的映射关系; 旋转异构体选择单元,用于选择蛋白质残基的同分异构体; 蚁群控制单元,用于控制所述目标蚁群在信息素的指导下对所述蛋白质构象进行优化; 能量计算单元,用于对侧链重构后的蛋白质构象进行能量计算; 比较单元,用于挑选所有侧链重构蛋白质中最小能量的蛋白质构象; 局部搜索单元,用于对所述侧链重构蛋白质构象进行局部优化; 信息素矩阵更新单元,用于根据目标函数单元的计算结果更新信息素矩阵; 循环控制单元,用于控制对蛋白质侧链构象进行重构和局部优化操作的循环; 判断单元,用于判断循环是否满足终止条件,如果否,则通知所述蚁群控制单元继续进行控制所述目标蚁群在信息素的指引下对所述蛋白质侧链构象进行优化;如果是,则确定较优蛋白质构象。由于上述技术方案运用,本专利技术与现有技术相比具有下列优点: 1.本专利技术以蚁群算法作为基本搜索载体,融合多种Rosetta的能量函数作为目标函数,并行地进行蛋白质侧链预测;也就是说,通过共享一个信息素,用并行手段混合使用多样的能量函数,让能量函数充分发挥作用,使启发式搜索能够有效地发现低能量结构。2.采用并行蚁群算法对蛋白质构象进行优化的同时,采用蒙特卡罗相结合的方法对所述优化的蛋白质构象进行局部优化,局部优化的结果如果能量低于当前保存能量最低蛋白质,就更新并行蚁群共享的信息素矩阵,从而使随机搜索成为在信息素指导下进行的搜索,提闻了搜索的质量,从而提闻了预测的精度。3.当采用多个蚁群并行计算时,本专利技术融合了不同的能量的评本文档来自技高网
...

【技术保护点】
?一种蛋白质侧链预测方法,其特征在于,通过计算机完成以下步骤:(1)初始化蛋白质侧链构象作为起始的目标蛋白质构象,建立蛋白质侧链构象与侧链旋转异构体库F的映射关系,其中第i号残基对应的旋转异构体集合,标志为Fi;(2)基于蚁群算法对所述目标蛋白质侧链构象进行重构,包括:①设定目标蚁群数,初始化每个目标蚁群的蚁群算法参数,所述蚁群算法参数包括蚂蚁个数、最大循环次数、最优解保持代数、信息素矩阵τ和启发值η,其初始值分别为:蚂蚁个数为30~60的整数、最大循环次数为100~120的整数、最优解保持代数为15~20的整数、τ=η=?E(M)/n,式中E是能量函数,M是蛋白质全原子构象,n是残基个数;②每一目标蚁群随机选取所述蛋白质残基的优化顺序,根据信息素矩阵τ和启发值η对蛋白质侧链进行重构,如果是偶数次循环优化,则继续进行局部优化;③对目标蚁群重构侧链的蛋白质进行能量计算,获得其中能量最小的蛋白质构象,再与目标蛋白质构象进行比较,选择能量小的蛋白质构象作为新的目标蛋白质构象,并更新信息素矩阵τ;④重复步骤②和③,直至达到最大循环次数或者满足最优解保持代数。

【技术特征摘要】

【专利技术属性】
技术研发人员:吕强权丽君吴宏杰
申请(专利权)人:苏州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1