一种基于多模态构象空间采样的蛋白质结构预测方法技术

技术编号:23162952 阅读:83 留言:0更新日期:2020-01-21 22:13
一种基于多模态构象空间采样的蛋白质结构预测方法,设计了一种新的相似度评判指标,使用接触图对两个结构的整体拓扑相似度进行打分,忽略局部结构的一些微小差异,旨在从全局结构评判相似性,从而更精确的对种群进性划分。得到种群个体相似度得分矩阵后采用N‑1阶近邻方法确定K值,N‑1阶近邻方法通过分析群体个体间的N‑1阶最短近邻距离来计算种群的全局分布,并利用阶跃信息自动确定K值,弥补K‑均值聚类算法的缺陷,从而有效的把种群划分为多个模态,求解出多个可能的最优解。

【技术实现步骤摘要】
一种基于多模态构象空间采样的蛋白质结构预测方法
本专利技术涉及生物信息学、计算机应用领域,尤其涉及的是一种基于多模态构象空间采样的蛋白质结构预测方法。
技术介绍
蛋白质结构预测问题也称为蛋白质折叠问题。蛋白质折叠结构的形状在很大程度上决定了其生物功能,精确地预测蛋白质的空间结构对生物制药和疾病研究都有重要的意义,利用生化手段测定蛋白质结构代价高,因此利用计算手段预测蛋白质三维结构逐渐成为计算生物学的重要课题。从头蛋白质结构预测方法是一种常用的蛋白质结构预测方法,由于它仅利用一级序列信息进行预测,而不依赖于已知蛋白质结构模板,所以该方法也是一种较理想的预测方法。从头蛋白质结构预测的理论依据是一定环境中天然蛋白质的三维结构是整个系统自由能最小的结构。因此,从头蛋白质结构预测有两个关键:一是要有一个合理的势能函数,势能函数的全局最小点对应于蛋白质的天然结构;二是要有一个高效的构象空间搜索算法,保证在有效的计算时间内找到势能函数的全局最小值。在蛋白质结构从头预测的过程中,能量函数的不精确以及采样能力的不足导致预测结果并不理想。实际优化问本文档来自技高网...

【技术保护点】
1.一种基于多模态构象空间采样的蛋白质结构预测方法,其特征在于,所述方法包括以下步骤:/n1)输入预测蛋白质的序列信息,读取序列长度L;设置参数:种群规模N,迭代次数G,阈值ε;/n2)根据目标蛋白序列信息,利用Robetta构建片段库;/n3)迭代Rosetta第一、二阶段,生成具有N个个体的初始种群/n

【技术特征摘要】
1.一种基于多模态构象空间采样的蛋白质结构预测方法,其特征在于,所述方法包括以下步骤:
1)输入预测蛋白质的序列信息,读取序列长度L;设置参数:种群规模N,迭代次数G,阈值ε;
2)根据目标蛋白序列信息,利用Robetta构建片段库;
3)迭代Rosetta第一、二阶段,生成具有N个个体的初始种群



4)按照如下方式计算两个个体之间的相似度:
4.1)对于每一个个体,计算每一对氨基酸之间的距离,当两个氨基酸之间的距离小于等于时,则定义为接触,记为1,否则记为0,最终构建出一个L×L的接触矩阵,记两个个体的接触矩阵分别为M1、M2;
4.2)按照如下公式给形成的接触分配权重:



其中i和j均∈{1,2,…L},表示氨基酸序号,|i-j|表示两个氨基酸在序列上的距离;
4.3)将两个个体的接触矩阵重叠,按如下公式计算两个接触矩阵形成交集的点的分数总和,记为Soverlap:






按如下公式计算两个接触矩阵形成并集的点的分数总和,记为Stotal:






将两个体的相似度分数为:



5)根据步骤4)计算种群中所有个体两两之间的相似度;
6)运用N-1阶近邻方法确定模态数目:
6.1)把两个个体之间的相似度分数作为两个个体之间的距离V,令V1i为个体Piinit的一阶最短近邻距离,为个体Piinit的二阶最短近邻距离,以此类推则有:



6.2)按如下公式分别计算j阶最短近邻距离的平...

【专利技术属性】
技术研发人员:张贵军赵凯龙刘俊彭春祥周晓根
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1