一种采用渐近式搜索MSA的蛋白质系综预测方法技术

技术编号:45210911 阅读:16 留言:0更新日期:2025-05-09 18:57
一种采用渐近式搜索MSA的蛋白质系综预测方法,首先,给定目标蛋白质序列,使用MMSeqs生成MSA。然后,使用DBSCAN方法对每个MSA进行聚类,生成多个子MSA;对于聚类失败的MSA,采用高斯混合模型(GMM)进行期望最大化(EM)聚类;接着,使用BLAST序列比对方法,从每个子MSA中选出相似度最高的序列,再次利用MMSeqs生成新的MSA,将所有子MSA合并为一个新的MSA,去除完全相同的序列,并对长度不一致的序列使用MAFFT添加GAP;处理后的MSA再次聚类,最终输入AlphaFold2生成蛋白质系综。本发明专利技术有效利用MSA共进化信息以预测蛋白质动态系综。

【技术实现步骤摘要】

本专利技术涉及生物信息学、计算机应用领域,尤其涉及的是一种采用渐近式搜索msa的蛋白质系综预测方法。


技术介绍

1、蛋白质作为生命活动的主要执行者,是细胞的组成部分,具有广泛的功能,在几乎所有的生物过程中都起着至关重要的作用。然而,蛋白质不应被视为静止的单一结构,而应视为一个包含多种可达状态的构象系综,这些构象揭示蛋白质与配体结合、酶催化、信号传导等生物学过程的关系。因此获取蛋白质的构象系综对于阐明蛋白质功能至关重要。

2、目前蛋白质系综的预测方法中,传统的实验方法如x射线晶体学和核磁共振(nmr)等可以提供蛋白质的静态结构信息,但通常无法捕捉到动态行为。近年来,分子动力学模拟(md)被应用于动态结构预测,这种方法能够探索蛋白质在不同条件下的运动,捕捉其动态变化,但是存在计算成本高、时间尺度较短等难以解决的问题。随着机器学习的迅速发展,将机器学习和md结合来预测蛋白质系综的方法也取得了一些成果,如idpgan、promd等,但是这些方法同样存在着上述md方法面临的问题。在如今的蛋白质结构预测中,alphafold2在静态蛋白质结构预测领域取得了本文档来自技高网...

【技术保护点】

1.一种采用渐近式搜索MSA的蛋白质系综预测方法,其特征在于,所述方法包括以下步骤:

2.如权利要求1所述的一种采用渐近式搜索MSA的蛋白质系综预测方法,其特征在于,所述3)的过程如下:

3.如权利要求2所述的一种采用渐近式搜索MSA的蛋白质系综预测方法,其特征在于,所述3.2)的过程为:

4.如权利要求1~3之一所述的一种采用渐近式搜索MSA的蛋白质系综预测方法,其特征在于,所述4)的过程如下:

5.如权利要求4所述的一种采用渐近式搜索MSA的蛋白质系综预测方法,其特征在于,所述4.1)的过程为:

6.如权利要求1~3之一所述...

【技术特征摘要】

1.一种采用渐近式搜索msa的蛋白质系综预测方法,其特征在于,所述方法包括以下步骤:

2.如权利要求1所述的一种采用渐近式搜索msa的蛋白质系综预测方法,其特征在于,所述3)的过程如下:

3.如权利要求2所述的一种采用渐近式搜索msa的蛋白质系综预测方法,其特征在于,所述3.2)的过程为:

4.如权利要求1~3之一所述的一种采用渐近式搜索msa的蛋白质系综预测方法,其特...

【专利技术属性】
技术研发人员:张贵军陈霞崔新月葛灵宇侯铭桦
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1