一种基于Bolzmann概率密度函数的蛋白质残基间距离模型构建方法技术

技术编号:13128757 阅读:112 留言:0更新日期:2016-04-06 14:19
一种基于Bolzmann概率密度函数的蛋白质残基间距离模型构建方法,包括以下步骤:首先,下载蛋白质数据库中结构已知的蛋白质文件,通过比较序列相似度去除同源性大于30%的序列构成非冗余模板库;其次,通过一个滑动窗口对模板库中的蛋白质结构与查询序列进行相似度比较,选出查询序列每个位置中得分最高的前200个片段构成片段库文件;然后选取查询序列两个位置上片段库中来自于同一模板片段结构的距离构成距离谱;最后根据概率密度函数计算距离谱中残基对的概率密度统计,利用残基间的概率密度统计有效的加强了对蛋白质构象空间的采样,得到精度更高的近天然态构象。

【技术实现步骤摘要】

本专利技术涉及生物信息学、计算机应用领域,尤其涉及的是一种基于Bolzmann概率密度函数的蛋白质残基间距离模型构建方法
技术介绍
蛋白质分子在生物细胞化学反应过程中起着至关重要的作用。它们的结构模型和生物活性状态对我们理解和治愈多种疾病有重要的意义。蛋白质只有折叠成特定的三维结构才能产生其特有的生物学功能。因此,要了解蛋白质的功能,就必须获得其三维空间结构。蛋白质三级结构预测是生物信息学的一个重要任务。蛋白质构象优化问题现在面临最大的挑战是对极其复杂的蛋白质能量函数曲面进行搜索。蛋白质能量模型考虑了分子体系成键作用以及范德华力、静电、氢键、疏水等非成键作用,致使其形成的能量曲面极其粗糙,构象对应局部极小解数目随序列长度的增加呈指数增长。而蛋白质构象预测算法能够找到蛋白质稳定结构的机理是,大量的蛋白质亚稳定结构构成了低能量区域,所以能否找到蛋白质全局最稳定结构的关键是算法能够找到大量的蛋白质亚稳定结构,即增加算法的种群多样性。因此,针对更加精确的蛋白质力场模型,选取有效的构象空间优化算法,使新的蛋白质结构预测算法更具有普遍性和高效性成为生物信息学中蛋白质结构预测的焦点问题。目前,蛋白质结构预测方法大致可以分为两类,基于模板的方法和不基于模板的方法。其中,不基于模板的从头预测(Ab-inito)方法应用最为广泛。它适用于同源性小于25%的大多数蛋白质,仅从序列产生全新结构,对蛋白质分子设计及蛋白质折叠的研究等具有重要意义。当前有以下几种比较成功的从头预测方法:张阳与JeffreySkolnick合作的TASSER(Threading/Assembly/Refinement)方法、DavidBaker及团队设计的Rosetta方法、Shehu等设计的FeLTr方法等。但是到目前还没有一种十分完善的方法来预测蛋白质的三维结构,即使获得了很好的预测结果,但也只是针对某些蛋白质而言的,目前主要的技术瓶颈在于两个方面,第一方面在于采样方法,现有技术对构象空间采样能力不强,另一方面在于构象更新方法,现有技术对构象的更新精度仍然不足。因此,现有的构象空间搜索方法存在不足,需要改进。
技术实现思路
为了克服现有构象空间搜索方法的对构象空间采样能力不强、精度较低的不足,本专利技术提出一种增强构象空间采样能力、提升精度的基于Bolzmann概率密度函数的蛋白质残基间距离模型构建方法,本专利技术解决其技术问题所采用的技术方案是:一种基于Bolzmann概率密度函数的蛋白质残基间距离模型构建方法,所述模型构建方法包括以下步骤:1)构建非冗余模板库;1.1)从蛋白质数据库网站上下载分辨率小于的高精度蛋白质,其中为距离单位,1.2)将含有多条多肽链的蛋白质分裂成单链,并保留最长的链与其他链比较序列相似度,去除相似度大于30%的冗余多肽链;1.3)将余下的多肽链两两求序列相似度Imn,统计每一条链的累计相似度其中m,n为多肽链的序号,N为剩余所有链的总数;1.4)对N条链根据累计相似度进行递减排列,从累计相似度最大的链开始依次与其他链比较去除序列相似度大于30%的链,得到非冗余蛋白质模板库;2)输入查询序列;3)生成片段库;3.1)构建结构相似度函数f(i,j),其中i为查询序列残基位置,j为片段结构;3.1.1)查询序列通过PSI-BLAST比对20个氨基酸得到序列频率谱得分项Pq(i,k),其中i为查询序列残基位置,k为20个氨基酸类型,q为查询序列标示符;3.1.2)Lq(i,k)和Lt(j,k)是通过PSI-BLAST得到的查询序列和模板序列对数谱;3.1.3)通过PSSpred计算得到模板结构的二级结构预测sst;3.1.4)通过神经网络程序对序列谱进行训练得到查询序列二级结构预测指标ssq;3.1.5)通过EDTSurf计算得到模板蛋白质溶剂可达性参数sat;3.1.6)通过神经网络程序预测得到查询序列溶剂可及性指标saq;3.1.7)通过二层神经网络程序训练序列谱和二级结构可以预测得到查询序列的二面角ψq;3.1.8)质心原子二面角可以通过查询蛋白质字典得到ψt为模板结构;3.1.9)SPt(j,k)为模板结构中每一个残基相对20个残基类型的频率矩阵。3.1.10)结构相似度函数其中w1,w2,w3,w4,w5为权重值;3.2)通过无间隙穿线法以3个残基为单体单元,将非冗余模板库中的片段结构与查询序列进行匹配,根据结构相似度函数f(i,j)对片段结构打分;3.3)在查询序列与模板片段结构匹配时使用一个滑动窗口,比对查询序列i个位置和第j个片段的相似度得分f(i,j),选出每个位置上得分最高的前K个片段构成片段库;4)得到距离谱;4.1)遍历查询序列残基位置上K个相似度较高的片段,是查询序列第i个位置上的片段,是查询序列第j位置上的片段;4.2)用aik和ajl表示i和j上选出的来自于同一模板结构的片段结构;4.3)计算aik和ajl在原模板结构中的距离dij;4.4)统计查询序列残基对来自于同个模板片段间的距离,在这里只统计小于的残基对之间距离(残基对间作用力随着距离增大而减小),画出直方图得到距离谱,直方图横坐标的距离间隔为当模板中残基对之间的距离在某个区间内,则该区间总数就加1;5)根据Bolzmann概率密度函数计算目标个体的接收概率,其中x为残基对间的距离序号,k为玻尔兹曼常数,T为温度,ΔD(x)为目标个体残基间欧式距离与距离谱的差值;6)算出蛋白质折叠过程中构象的残基对之间距离,通过概率密度函数得到基于残基距离的接受概率其中h为距离谱中记录项序号,M为记录项总和。本专利技术的技术构思为:一种基于Bolzmann概率密度函数的蛋白质残基间距离模型构建方法,首先,下载蛋白质数据库中结构已知的蛋白质文件,通过比较序列相似度去除同源性大于30%的序列构成非冗余模板库;其次,通过一个滑动窗口对模板库中的蛋白质结构与查询序列进行相似度比较,选出查询序列每个位置中得分最高的前200个片段构成片段库文件;然后选取查询序列两个位置上片段库中来自于同一模板片段结构的距离构成距离谱;最后根据Bolzmann概率密度函数计算距离谱中残基对的概率密度统计,利用残基间的概率密度统计有效的加强了对蛋白质构象空间的采样,得到精度更高的近天然态构象。本专利技术的有益效果为:构象空间采样能力较强、精度较高。附图说明本文档来自技高网
...
一种基于Bolzmann概率密度函数的蛋白质残基间距离模型构建方法

【技术保护点】
一种基于Bolzmann概率密度函数的蛋白质残基间距离模型构建方法,其特征在于:所述距离模型构建方法包括以下步骤:1)构建非冗余模板库;1.1)从蛋白质数据库网站上下载分辨率小于的高精度蛋白质,其中为距离单位,米;1.2)将含有多条多肽链的蛋白质分裂成单链,并保留最长的链与其他链比较序列相似度,去除相似度大于30%的冗余多肽链;1.3)将余下的多肽链两两求序列相似度Imn,统计每一条链的累计相似度其中m,n为多肽链的序号,N为剩余所有链的总数;1.4)对N条链根据累计相似度进行递减排列,从累计相似度最大的链开始依次与其他链比较去除序列相似度大于30%的链,得到非冗余蛋白质模板库;2)输入查询序列;3)生成片段库;3.1)构建结构相似度函数f(i,j),其中i为查询序列残基位置,j为片段结构;3.1.1)查询序列通过PSI‑BLAST比对20个氨基酸得到序列频率谱得分项Pq(i,k),其中i为查询序列残基位置,k为20个氨基酸类型,q为查询序列标示符;3.1.2)Lq(i,k)和Lt(j,k)是通过PSI‑BLAST得到的查询序列和模板序列对数谱;3.1.3)通过PSSpred计算得到模板结构的二级结构预测sst;3.1.4)通过神经网络程序对序列谱进行训练得到查询序列二级结构预测指标ssq;3.1.5)通过EDTSurf计算得到模板蛋白质溶剂可达性参数sat;3.1.6)通过神经网络程序预测得到查询序列溶剂可及性指标saq;3.1.7)通过二层神经网络程序训练序列谱和二级结构可以预测得到查询序列的二面角ψq;3.1.8)质心原子二面角可以通过查询蛋白质字典得到ψt为模板结构;3.1.9)SPt(j,k)为模板结构中每一个残基相对20个残基类型的频率矩阵。3.1.10)结构相似度函数其中w1,w2,w3,w4,w5为权重值;3.2)通过无间隙穿线法以3个残基为单体单元,将非冗余模板库中的片段结构与查询序列进行匹配,根据结构相似度函数f(i,j)对片段结构打分;3.3)在查询序列与模板片段结构匹配时使用一个滑动窗口,比对查询序列i个位置和第j个片段的相似度得分f(i,j),选出每个位置上得分最高的前K个片段构成片段库;4)得到距离谱;4.1)遍历查询序列残基位置上K个相似度较高的片段,是查询序列第i个位置上的片段,是查询序列第j位置上的片段;4.2)用aik和ajl表示i和j上选出的来自于同一模板结构的片段结构;4.3)计算aik和ajl在原模板结构中的距离dij;4.4)统计查询序列残基对来自于同个模板片段间的距离,在这里只统计小于的残基对之间距离,画出直方图得到距离谱,直方图横坐标的距离间隔为当模板中残基对之间的距离在某个区间内,则该区间总数就加1;5)根据Bolzmann概率密度函数计算目标个体的接收概率,其中x为残基对间的距离序号,k为玻尔兹曼常数,T为温度,ΔD(x)为目标个体残基间欧式距离与距离谱的差值;6)算出蛋白质折叠过程中构象的残基对之间距离,通过概率密度函数得到基于残基距离的接受概率其中h为距离谱中记录项序号,M为记录项总和。...

【技术特征摘要】
1.一种基于Bolzmann概率密度函数的蛋白质残基间距离模型构建方法,其特征
在于:所述距离模型构建方法包括以下步骤:
1)构建非冗余模板库;
1.1)从蛋白质数据库网站上下载分辨率小于的高精度蛋白质,其中为
距离单位,米;
1.2)将含有多条多肽链的蛋白质分裂成单链,并保留最长的链与其他链比较序
列相似度,去除相似度大于30%的冗余多肽链;
1.3)将余下的多肽链两两求序列相似度Imn,统计每一条链的累计相似度
其中m,n为多肽链的序号,N为剩余所有链的总数;
1.4)对N条链根据累计相似度进行递减排列,从累计相似度最大的链开始依
次与其他链比较去除序列相似度大于30%的链,得到非冗余蛋白质模板
库;
2)输入查询序列;
3)生成片段库;
3.1)构建结构相似度函数f(i,j),其中i为查询序列残基位置,j为片段结构;
3.1.1)查询序列通过PSI-BLAST比对20个氨基酸得到序列频率谱得分项
Pq(i,k),其中i为查询序列残基位置,k为20个氨基酸类型,q为查
询序列标示符;
3.1.2)Lq(i,k)和Lt(j,k)是通过PSI-BLAST得到的查询序列和模板序列对数
谱;
3.1.3)通过PSSpred计算得到模板结构的二级结构预测sst;
3.1.4)通过神经网络程序对序列谱进行训练得到查询序列二级结构预测
指标ssq;
3.1.5)通过EDTSurf计算得到模板蛋白质溶剂可达性参数sat;
3.1.6)通过神经网络程序预测得到查询序列溶剂可及性指标saq;
3.1.7)通过二层神经网络程序训练序列谱和二级结构...

【专利技术属性】
技术研发人员:张贵军俞旭锋周晓根郝小虎陈凯徐东伟
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1