一种基于Bolzmann概率密度函数的蛋白质残基间距离模型构建方法技术

技术编号：13128757 阅读：112 留言：0更新日期：2016-04-06 14:19

一种基于Bolzmann概率密度函数的蛋白质残基间距离模型构建方法，包括以下步骤：首先，下载蛋白质数据库中结构已知的蛋白质文件，通过比较序列相似度去除同源性大于30％的序列构成非冗余模板库；其次，通过一个滑动窗口对模板库中的蛋白质结构与查询序列进行相似度比较，选出查询序列每个位置中得分最高的前200个片段构成片段库文件；然后选取查询序列两个位置上片段库中来自于同一模板片段结构的距离构成距离谱；最后根据概率密度函数计算距离谱中残基对的概率密度统计，利用残基间的概率密度统计有效的加强了对蛋白质构象空间的采样，得到精度更高的近天然态构象。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及生物信息学、计算机应用领域，尤其涉及的是一种基于Bolzmann概率密度函数的蛋白质残基间距离模型构建方法。
技术介绍
蛋白质分子在生物细胞化学反应过程中起着至关重要的作用。它们的结构模型和生物活性状态对我们理解和治愈多种疾病有重要的意义。蛋白质只有折叠成特定的三维结构才能产生其特有的生物学功能。因此，要了解蛋白质的功能，就必须获得其三维空间结构。蛋白质三级结构预测是生物信息学的一个重要任务。蛋白质构象优化问题现在面临最大的挑战是对极其复杂的蛋白质能量函数曲面进行搜索。蛋白质能量模型考虑了分子体系成键作用以及范德华力、静电、氢键、疏水等非成键作用，致使其形成的能量曲面极其粗糙，构象对应局部极小解数目随序列长度的增加呈指数增长。而蛋白质构象预测算法能够找到蛋白质稳定结构的机理是，大量的蛋白质亚稳定结构构成了低能量区域，所以能否找到蛋白质全局最稳定结构的关键是算法能够找到大量的蛋白质亚稳定结构，即增加算法的种群多样性。因此，针对更加精确的蛋白质力场模型，选取有效的构象空间优化算法，使新的蛋白质结构预测算法更具有普遍性和高效性成为生物信息学中蛋白质结构预测的焦点问题。目前，蛋白质结构预测方法大致可以分为两类，基于模板的方法和不基于模板的方法。其中，不基于模板的从头预测(Ab-inito)方法应用最为广泛。它适用于同源性小于25％的大多数蛋白质，仅从序列产生全新结构，对蛋白质分子设计及蛋白质...
一种基于Bolzmann概率密度函数的蛋白质残基间距离模型构建方法

【技术保护点】
一种基于Bolzmann概率密度函数的蛋白质残基间距离模型构建方法，其特征在于：所述距离模型构建方法包括以下步骤：1)构建非冗余模板库；1.1)从蛋白质数据库网站上下载分辨率小于的高精度蛋白质，其中为距离单位，米；1.2)将含有多条多肽链的蛋白质分裂成单链，并保留最长的链与其他链比较序列相似度，去除相似度大于30％的冗余多肽链；1.3)将余下的多肽链两两求序列相似度Imn，统计每一条链的累计相似度其中m，n为多肽链的序号，N为剩余所有链的总数；1.4)对N条链根据累计相似度进行递减排列，从累计相似度最大的链开始依次与其他链比较去除序列相似度大于30％的链，得到非冗余蛋白质模板库；2)输入查询序列；3)生成片段库；3.1)构建结构相似度函数f(i,j)，其中i为查询序列残基位置，j为片段结构；3.1.1)查询序列通过PSI‑BLAST比对20个氨基酸得到序列频率谱得分项Pq(i,k)，其中i为查询序列残基位置，k为20个氨基酸类型，q为查询序列标示符；3.1.2)Lq(i,k)和Lt(j,k)是通过PSI‑BLAST得到的查询序列和模板序列对数谱；3.1.3)通过PSSpred计算得到模...

【技术特征摘要】
1.一种基于Bolzmann概率密度函数的蛋白质残基间距离模型构建方法，其特征
在于：所述距离模型构建方法包括以下步骤：
1)构建非冗余模板库；
1.1)从蛋白质数据库网站上下载分辨率小于的高精度蛋白质，其中为
距离单位，米；
1.2)将含有多条多肽链的蛋白质分裂成单链，并保留最长的链与其他链比较序
列相似度，去除相似度大于30％的冗余多肽链；
1.3)将余下的多肽链两两求序列相似度Imn，统计每一条链的累计相似度
其中m，n为多肽链的序号，N为剩余所有链的总数；
1.4)对N条链根据累计相似度进行递减排列，从累计相似度最大的链开始依
次与其他链比较去除序列相似度大于30％的链，得到非冗余蛋白质模板
库；
2)输入查询序列；
3)生成片段库；
3.1)构建结构相似度函数f(i,j)，其中i为查询序列残基位置，j为片段结构；
3.1.1)查询序列通过PSI-BLAST比对20个氨基酸得到序列频率谱得分项
Pq(i,k)，其中i为查询序列残基位置，k为20个氨基酸类型，q为查
询序列标示符；
3.1.2)Lq(i,k)和Lt(j,k)是通过PSI-BLAST得到的查询序列和模板序列对数
谱；
3.1.3)通过PSSpred计算得到模板结构的二级结构预测sst；
3.1.4)通过神经网络程序对序列谱进行训练得到查询序列二级结构预测
指标ssq；
3.1.5)通过EDTSurf计算得到模板蛋白质溶剂可达性参数sat；
3.1.6)通过神经网络程序预测得到查询序列溶剂可及性指标saq；
3.1.7)通过二层神经网络程序训练序列谱和二级结构...

【专利技术属性】
技术研发人员：张贵军，俞旭锋，周晓根，郝小虎，陈凯，徐东伟，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人