一种蛋白质-RNA复合物结构预测方法技术

技术编号:14371785 阅读:92 留言:0更新日期:2017-01-09 17:41
本发明专利技术公开了一种蛋白质‑RNA复合物结构预测方法,具体涉及一种基于模板构建蛋白质‑RNA相互作用模型的方法,首先通过从PDB数据库中挑选出439个的蛋白质‑RNA的模板库,然后使用蛋白质(RNA)的结构比对所有的模板复合物得出相似分数;然后再根据蛋白质(RNA)中的相似分数小的那个值对模型进行排序,最后与给定的阈值进行计较来判断给定的蛋白质‑RNA是否能够结合并给出蛋白质‑RNA的3D结构。本发明专利技术开创性地提出了在基于模板构建蛋白质‑RNA的相互作用模型的计算方法,填补了目前的空白,本发明专利技术的计算方法比对接的方法成功率增加了40%左右,大大的促进了蛋白质‑RNA三维结构领域的发展。

【技术实现步骤摘要】

本专利技术属于分子构建模型领域,具体地,涉及一种蛋白质-RNA复合物结构预测方法,更具体地,涉及一种基于模板构建蛋白质-RNA相互作用模型的方法。
技术介绍
为了揭示蛋白质-RNA的相互作用的机理,有两种方法来获取蛋白质-RNA的三维结构:第一种是实验上的方法,比如用的是结晶蛋白质-RNA的晶体,然后是用X射线的来解析其三维结构;第二种用的是计算机模拟的技术。又可以分成对接的方法和基于模板的方法,目前已经有对接的方法了如3dRPC,然而基于模板的方法在蛋白质-RNA还没有被实现。基于对接的方法是根据几何互补原理,在生物学上中锁钥模型,就是当两种分子之间进行识别时是根据这两种分子形状上的互补,根据几何上的互补得到一个评价分数,并且基于分数的高低判断分子之间取向的合理性。由于计算机能够取样很多很多的构象,因此根据分数来对这么多的构象进行排序,然而仅仅根据几何互补性分数,其前10的构象中至少有一个构象是正确的概率比较低。在蛋白质-蛋白质模型构建之中,对接的方法和基于模板的方法各有其优点,基于模板的在排名前几名的成功率要比对接的方法要高,而且基于模板的方法能够在构象变化比较大的情况下获取较高的成功率。然而由于缺乏RNA的三维结构,因此基于模板的方法来构建蛋白质-RNA的相互作用的能力极其的有限,随着越来越多的RNA的三维结构被解析出来,增加了基于模板的方法来构建蛋白质-RNA的能力。而且随着RNA测序技术的发展,发现了很多的RNA,然而大量的RNA其功能还不清楚。另外蛋白质-RNA的三维结构比非结构能够提供更加详细的蛋白质-RNA相互作用机理,然而目前在蛋白质-RNA基于模板建模的领域的计算方法还为空白,这使得开发基于模板来构建蛋白质-RNA的相互作用模型的方法尤为迫切。
技术实现思路
针对现有技术的以上缺陷或改进需求,本专利技术提供了一种蛋白质-RNA复合物结构预测方法,其目的在于通过构建基于模板的蛋白质-RNA的相互作用模型,由此解决现有技术蛋白质-RNA复合物结构预测方法准确率低、基于模板的蛋白质-RNA相互作用模型计算方法缺乏的技术问题。为实现上述目的,按照本专利技术的一个方面,提供了一种蛋白质-RNA复合物结构预测方法,包括如下步骤:(1)计算模板复合物结构分数:将给定的蛋白质和RNA的单体结构分别与模板库中的蛋白质-RNA相互作用模型模板进行比对,分别得到给定的蛋白质与模板蛋白质的相似分数A,以及给定的RNA与模板RNA相似分数B;对所述相似分数A和相似分数B进行比较,取所述相似分数A和所述相似分数B中较小的相似分数作为利用该模板得到的蛋白质-RNA相互作用模型的复合物结构分数,每一个模板得到一个蛋白质-RNA相互作用模型的复合物结构分数;(2)模型排序:将步骤(1)获得的蛋白质-RNA相互作用模型的复合物结构分数按照降序排列;(3)模型判断:预先给定一个阈值,将步骤(2)按照降序排列获得的第一个复合物结构分数,即蛋白质-RNA相互作用模型的复合物结构分数的最大值与所述阈值进行比较,当所述复合物结构分数的最大值小于该阈值,则判断该模型结构不正确,所述给定蛋白质和RNA不能结合;当所述复合物结构分数的最大值大于所述阈值,则判断该蛋白质-RNA相互作用模型结构正确,该给定蛋白质和RNA可以结合。优选地,所述模板库的获得方法为:从PDB数据库中下载到所有的蛋白质-RNA复合物结构,然后从中根据晶体结构分辨率和蛋白质残基以及RNA碱基个数挑选确定模板库。优选地,所述模板库中的蛋白质-RNA相互作用模型晶体结构分辨率比3.0好,所述蛋白质残基个数大于30,所述RNA的碱基个数大于20。优选地,所述模板库中一共有439个蛋白质-RNA相互作用模型模板。优选地,所述给定的蛋白质和模板蛋白质的比对方法为使用TMalign程序来比对。优选地,所述给定的RNA与模板RNA的比对方法为使用SARA程序来比对。优选地,所述SARA程序使用一个归一化的向量来代表RNA的结构,结合RNA的二级结构特征,来比对RNA的二级结构。总体而言,通过本专利技术所构思的以上技术方案与现有技术相比,能够取得下列有益效果。(1)本专利技术开创性地提出了在基于模板构建蛋白质-RNA的相互作用模型的计算方法和程序,填补了目前的空白。(2)测试了本专利技术基于模板构建蛋白质-RNA相互作用模型的方法PRIME的性能,PRIME的成功率的比对接的方法RPDOCK增加了40%左右,这大大的促进了蛋白质-RNA三维结构领域的发展。(3)由于蛋白质-RNA的相互作用跟许多的疾病相关,比如癌症,所以PRIME有可能揭示由于蛋白质-RNA的相互作用而引起的疾病的分子机制。附图说明图1是本专利技术蛋白质-RNA相互作用模型的模板库构建的流程图;图2是本专利技术实施例1的技术方案流程图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。此外,下面所描述的本专利技术各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。首先阐述一下本专利技术的原理:首先通过从PDB数据库中挑选出439个的蛋白质-RNA的模板库,将给定的蛋白质和RNA的单体结构分别与模板库中的蛋白质-RNA相互作用模型模板进行比对,分别得到给定的蛋白质与模板蛋白质的相似分数A,以及给定的RNA与模板RNA相似分数B;对所述相似分数A和相似分数B进行比较,选择A和B中较小的相似分数作为利用该模板得到的蛋白质-RNA相互作用模型的复合物结构分数,每一个模板得到一个蛋白质-RNA相互作用模型的复合物结构分数;将蛋白质-RNA相互作用模型的复合物结构分数按照降序排列;预先给定一个阈值,将按照降序排列获得的第一个复合物结构分数,即蛋白质-RNA相互作用模型的复合物结构分数的最大值与所述阈值进行比较,当所述复合物结构分数的最大值小于该阈值,则判断该模型结构不正确,所述给定蛋白质和RNA不能结合;当所述复合物结构分数的最大值大于所述阈值,则判断该蛋白质-RNA相互作用模型结构正确,该给定蛋白质和RNA可以结合。一种蛋白质-RNA复合物结构预测方法,具体的,一种基于模板构建蛋白质-RNA相互作用模型的方法PRIME,包括如下步骤:(1)从PDB数据库挑选确定模板库从PDB数据库下载到所有的蛋白质-RNA复合物结构总共1574个,之后选择出晶体结构的分辨率比3.0好且蛋白质残基和RNA的碱基个数分别大于30和20的结构,并且计算其相互作用的界面残基个数大于5,保留其结构,这里我们得到了344个复合结构,总共2954个蛋白质-RNA的相互作用模板,之后再去掉那些RNA很相似的RNA序列且留下晶体分辨率的最好的模板结构,最终得到439个相互作用模型,作为模板库。如图1所示从PDB数据库下载到所有的蛋白质-RNA复合物结构总共1574个,之后选择出晶体结构的分辨率比3.0好且蛋白质残基和RNA的碱基个数分别大于30和20的结构,并且计算其相互作用的界面残基个数大于5,保留其结构,这里我们得到了344个复合结构,总共2954个蛋白质-RNA的相互作用模板,之后在去掉那些RNA很相似的RNA序列且留下晶体分辨本文档来自技高网
...
一种蛋白质-RNA复合物结构预测方法

【技术保护点】
一种蛋白质‑RNA复合物结构预测方法,其特征在于,包括如下步骤:(1)计算模板复合物结构分数:将给定的蛋白质和RNA的单体结构分别与模板库中的蛋白质‑RNA相互作用模型模板进行比对,分别得到给定的蛋白质与模板蛋白质的相似分数A,以及给定的RNA与模板RNA相似分数B;对所述相似分数A和相似分数B进行比较,取所述相似分数A和所述相似分数B中较小的相似分数作为利用该模板得到的蛋白质‑RNA相互作用模型的复合物结构分数,每一个模板得到一个蛋白质‑RNA相互作用模型的复合物结构分数;(2)模型排序:将步骤(1)获得的蛋白质‑RNA相互作用模型的复合物结构分数按照降序排列;(3)模型判断:预先给定一个阈值,将步骤(2)按照降序排列获得的第一个复合物结构分数,即蛋白质‑RNA相互作用模型的复合物结构分数的最大值与所述阈值进行比较,当所述复合物结构分数的最大值小于该阈值,则判断该模型结构不正确,所述给定蛋白质和RNA不能结合;当所述复合物结构分数的最大值大于所述阈值,则判断该蛋白质‑RNA相互作用模型结构正确,该给定蛋白质和RNA可以结合。

【技术特征摘要】
1.一种蛋白质-RNA复合物结构预测方法,其特征在于,包括如下步骤:(1)计算模板复合物结构分数:将给定的蛋白质和RNA的单体结构分别与模板库中的蛋白质-RNA相互作用模型模板进行比对,分别得到给定的蛋白质与模板蛋白质的相似分数A,以及给定的RNA与模板RNA相似分数B;对所述相似分数A和相似分数B进行比较,取所述相似分数A和所述相似分数B中较小的相似分数作为利用该模板得到的蛋白质-RNA相互作用模型的复合物结构分数,每一个模板得到一个蛋白质-RNA相互作用模型的复合物结构分数;(2)模型排序:将步骤(1)获得的蛋白质-RNA相互作用模型的复合物结构分数按照降序排列;(3)模型判断:预先给定一个阈值,将步骤(2)按照降序排列获得的第一个复合物结构分数,即蛋白质-RNA相互作用模型的复合物结构分数的最大值与所述阈值进行比较,当所述复合物结构分数的最大值小于该阈值,则判断该模型结构不正确,所述给定蛋白质和RNA不能结合;当所述复合物结构分数的最大值大于所述阈值,则判断该蛋白质-RNA相互作用模型结构正确,该给定蛋白质和RNA可以结合。2.如权利要求1所...

【专利技术属性】
技术研发人员:刘士勇郑进芳
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1