蛋白质结构空间构象的全信息预测方法技术

技术编号:12740202 阅读:189 留言:0更新日期:2016-01-21 01:47
本发明专利技术涉及一种蛋白质结构空间构象的全信息预测方法,属于生物信息学领域。对于任何蛋白质序列,运用蛋白质结构指纹技术,直接通过对5AAPFSC数据库的高通量筛选,就会得到其对应的蛋白折叠构象。每一个折叠构象将由蛋白折叠形状码字母来表示,这些折叠结构涵盖了二级结构和三级结构。全部可能的折叠形状码可以对齐形成一个列阵,生成一个PFSC蛋白空间构象谱带作为预测结果。通过对大量已知三维结构的蛋白质的测试,已经很好地验证了本发明专利技术方法的可靠性和有效性。

【技术实现步骤摘要】

本专利技术涉及一种,属于生物信息学领域。
技术介绍
蛋白质结构是开展基因组学,生物信息学,药物研发和生物技术研究的重要的信息1’2。然而,到目前为止,只有大约不到1%的蛋白质的三维结构通过X-射线晶体衍射或核磁共振等实验方法测量获得3。仍然还有大约超过五千二百万个蛋白质的序列尚没有三维结构的信息和数据4,生物医药研究迫切希望能确定这些蛋白的空间结构。长期以来,以计算机建模为基础,已经开发了许多关于蛋白质结构预测的方法和应用。从1994年起,每两年举办一次的“蛋白质结构预测的关键评估(CASP) ”活动成为世界各国蛋白质分子生物科学家的一个交流平台5’6。鉴于蛋白质结构的复杂性,以及指数数量级的可能折叠方式,预测蛋白结构的研究难题被列为21世纪现代科学的一百个大挑战性课题之一 7。迄今为止,各种预测蛋白结构的方法基本上可分为三大类别。第一类是基于序列的建模方法8’9“°。该方法利用已知的蛋白结构来求解未知蛋白结构。这种方法需要依赖于序列之间的相似程度比对提取信息,关于预测结果的可靠程度一直是个疑问。第二类是采用折叠构型识别的拼接建模方法η’12’13’14’15。该方法采用统计方法从特定的蛋白数据库中筛选折叠片段和序列之间的相互关系。统计方法固然可以涵盖大多数折叠构型,但是频率较低的折叠构型往往就被忽略了。第三类是从头计算模型方法16’17’18。该方法运用计算机反复地迭代计算蛋白质中的氨基酸和原子之间的相互作用,直到最后整个构象体系趋于一个较低的能量状态。该方法消耗大量的计算机时间和资源,而且预测仅仅能得到相关蛋白质的一个可能空间结构。长期以来,生物学家期望通过预测方法获得可靠而且没有异议的蛋白质结构。以此为目标,各种研究试图改进蛋白质结构的预测方法,然而在这方面的进展是非常不理想的。究其根本原因,是由于蛋白质结构本身的复杂性和多变性。
技术实现思路
本专利技术所要解决的技术问题是提供一种蛋白质空间构象的全信息预测(CompletePredict1n for Protein Conformat1n, CPPC)方法。该方法运用数字化模型来简化蛋白结构的复杂性,同时运用全信息结构数据来认知蛋白结构的多变性。该方法能够快速预测蛋白质的结构,并提供所有可能的蛋白空间构象。本专利技术的蛋白质空间构象的全信息预测方法是建立在专利技术人之前专利ZL200880003164.2公开的蛋白质折叠形状码(Protein Folding Shape Code, PFSC)基础上开发的预测蛋白结构的新方法19。通过严格推导得到的蛋白质折叠形状码(PFSC)能够完好地描述连续的5个氨基酸片段的折叠形状。5个氨基酸片段在蛋白质中的任意折叠形状可以通过27PFSC向量来描述,全部27PFSC向量采用了 26个英文字母加上$符号来表达。更重要的是,全部27个PFSC向量涵盖了一个完整的数学空间。而且,全部27个PFSC向量的折叠形状是高度密切相关联的。每个PFSC向量都可以从一个向量过渡转换为另一个向量。从数学角度来看氨基酸,通过不同的排序,5个氨基酸可以形成不同的排列。从全部20个氨基酸中任意地提取5个氨基酸将可以形成总数为3,200, 000的不同排列。每一个排列的可能折叠构象可以从全球蛋白质数据库(TOB)获得,然后用蛋白折叠形状码(PFSC)表示。在此基础上,我们创建了一个数据库来收集上述三百二十万个排列的折叠构象。该全新的数据库被命名为5AAPFSC。在这个数据库中,和每个排列相关的折叠形状将完整地采用对应的PFSC码存储其中。本专利技术的,包括如下步骤:1)从全部20个氨基酸中任意地提取5个氨基酸,形成总数为3,200, 000的不同排列,每一个排列的可能折叠构象从全球蛋白质数据库(roB)获得,然后用蛋白折叠形状码(PFSC)表示;创建了一个数据库来收集上述排列及其对应的蛋白折叠形状码,该数据库被命名为5AAPFSC,如图1所示;2)对于任何一个待预测结构的蛋白质,沿着蛋白质的序列,从N-端开始,逐步移动向C-端,依次读取每5个连续的氨基酸,其可能具有的折叠构象从5AAPFSC数据库直接获得,用蛋白折叠形状码(PFSC)的字符表示;在蛋白质数据库中出现频率最高的折叠构象码的字符排在第一位,出现频率第二个高的折叠构象码字符排在第二位,从上到下依次形成一列,直至收集完全为止,每5个连续的氨基酸具有不同数目的折叠构象可能;3)待测蛋白质的全部可能的折叠形状码形成一个阵列,称为蛋白折叠构象谱带,如图2所示,代表了沿着蛋白质的序列全部可能的折叠构象;对于每一个蛋白序列,通过其全部可能的局部折叠构象的相互替代,可以准确地得到所有可能的构象;可能构象的总数目是全部每5个氨基酸可能折叠构象数目的连续乘积;对于任何一个待测蛋白,尽管全部可能空间构象的数目是巨大的,可能性高的空间构象通过出现频率高的局域折叠构象获得。举例来说,第一个空间构象是由出现频率最高的折叠构形状码构成;第二个空间构象是由出现频率第二高折叠形状码,在没有第二高频率构象位置,以频率最高的的折叠形状码作为补充构成;第三个空间构象是由出现频率第三高折叠形状码,在没有第三高频率构象位置,以频率最高的的折叠形状码作为补充构成;如此类推,形成可能性较高的一系列可能的预测构象。因此,一连串由高频率构象组成的蛋白折叠形状码就是可能性较高的蛋白空间结构构象。依据蛋白折叠构象谱带,可以发现更多的局域变化和替代,进行修正形成更多有关可能的空间结构构象。本分析方法得到的蛋白空间构象谱带对蛋白结构空间折叠构象提供了一个全信息的预测,同时揭示其可能的任何局部构象的微小变化。蛋白质空间构象的全信息预测(CPPC)方法的一个重要意义是为今后构建一个全新的蛋白基因结构综合数据库创造了必要的条件。蛋白质空间构象的全信息预测是预测蛋白结构的一个新的方法,该方法将会推动蛋白结构基因组学的发展。我们开发的蛋白质空间构象的全信息预测技术不仅仅对蛋白结构的预测提供了完整的折叠构象,而且对于全面理解从实验测定得到的蛋白结构具有十分重要意义。【附图说明】图1,5AAPFSC数据库的构建。图2,蛋白折叠构象谱带的建立。图3,人细胞质5’-核苷酸II蛋白的2XCW蛋白片段(残基3-62)已知构象和全信息预测结果的对比。表格第一行是该蛋白的氨基酸序列片段(3-62)。接着是8个已知结构的折叠构象,折叠构象用蛋白折叠形状码(PFSC)表示。表格中下半段是预测的9个可能的空间构象。图4,海洋水生物银鲛(CallorhinchusMiliiX)提取物32个氨基酸的降钙素预测空间构象。【具体实施方式】对于任何蛋白质序列,运用蛋白质结构指纹技术(PSFT),直接通过对5AAPFSC数据库的高通量筛选,就会得到其对应的蛋白折叠构象。每一个折叠构象将由蛋白折叠形状码(PFSC)字母来表示,其中每一个字母都代表其专有的折叠结构的特性,这些折叠结构涵盖了二级结构和三级结构。全部可能的折叠形状码可以对齐形成一个列阵,生成一个PFSC蛋白空间构象谱带作为预测结果。通过对大量已知三维结构的蛋白质的测试,已经很好地验证了该方法的可靠性和有效性。实施例一选用一个已经知道三维结构的蛋白质作为例子和预测结果进行对照。人细胞质5’ -核苷酸II蛋白质本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/CN105260626.html" title="蛋白质结构空间构象的全信息预测方法原文来自X技术">蛋白质结构空间构象的全信息预测方法</a>

【技术保护点】
一种蛋白质结构空间构象的全信息预测方法,其特征在于,包括如下步骤:   1)从全部20个氨基酸中任意地提取5个氨基酸, 形成总数为3,200,000的不同排列,每一个排列的可能折叠构象从全球蛋白质数据库获得,然后用蛋白折叠形状码表示;创建了一个数据库来收集上述排列及其对应的蛋白折叠形状码,该数据库被命名为5AAPFSC;    2)对于任何一个待预测结构的蛋白质,沿着蛋白质的序列,从N‑端开始,逐步移动向C‑端,依次读取每5个连续的氨基酸,其可能具有的折叠构象从5AAPFSC数据库直接获得,用蛋白折叠形状码的字符表示;在蛋白质数据库中出现频率最高的折叠构象码的字符排在第一位,出现频率第二个高的折叠构象码字符排在第二位,从上到下依次形成一列,直至收集完全为止,每5个连续的氨基酸具有不同数目的折叠构象可能;3)待测蛋白质的全部可能的折叠形状码形成一个阵列,称为蛋白折叠构象谱带,代表了沿着蛋白质的序列全部可能的折叠构象;对于每一个蛋白序列,通过其全部可能的局部折叠构象的相互替代,可以准确地得到所有可能的构象;可能构象的总数目是全部每5个氨基酸可能折叠构象数目的连续乘积。

【技术特征摘要】

【专利技术属性】
技术研发人员:杨家安
申请(专利权)人:麦科罗医药科技武汉有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1