蛋白质多构象模型的训练方法、蛋白质三维结构的预测方法技术

技术编号:44680389 阅读:22 留言:0更新日期:2025-03-19 20:32
本公开提供一种蛋白质多构象模型的训练方法、蛋白质三维结构的预测方法。训练方法包括:获取多个初始蛋白质结构预测模型以及多个单构象样本;基于多个单构象样本对每个初始蛋白质结构预测模型进行训练,得到与多个初始蛋白质结构预测模型分别对应的多个教师蛋白质结构预测模型;获取待处理氨基酸序列;基于多个教师蛋白质结构预测模型分别对待处理氨基酸序列的三维结构进行预测,得到与多个教师蛋白质结构预测模型分别对应的多个蛋白质三维结构;将待处理氨基酸序列与多个蛋白质三维结构中的每个蛋白质三维结构分别组成一个多构象样本;基于多构象样本对待训练的蛋白质多构象模型进行训练。如此能产生多构象样本,进而提高模型预测多构象的能力。

【技术实现步骤摘要】

本公开涉及蛋白质预测,具体而言,涉及一种蛋白质多构象模型的训练、蛋白质三维结构的预测方法、多构象样本确定方法。


技术介绍

1、抗体通过识别和结合特定的外来物质,在抵御病原体方面发挥着至关重要的作用。由于互补决定区(cdr)环的灵活性,这些抗体往往具有多种构象,这意味着一个给定氨基酸序列存在多种三维结构。尽管像alphafold2这样基于回归的方法在蛋白质结构预测方面有显著的进步,但它们仅限于预测给定氨基酸序列的单一三维结构,而不能预测多种构象。在训练能够预测多种构象的多构象结构预测时还需面临的一个问题是,现有常见的蛋白质数据库或抗体数据库中,多构象数据较少,不足以训练出具有足够准确性的蛋白质多构象预测模型。


技术实现思路

1、本公开实施例的目的在于提供一种蛋白质多构象模型的训练、预测方法和装置,用以缓解多构象数据较少,不足以训练出具有足够准确性的蛋白质多构象预测模型的问题。

2、第一方面,本公开实施例提供一种蛋白质多构象模型的训练方法,蛋白质多构象模型用于预测给定氨基酸序列的多个结构构象;方法包括本文档来自技高网...

【技术保护点】

1.一种蛋白质多构象模型的训练方法,其特征在于,所述蛋白质多构象模型用于预测给定氨基酸序列的多个结构构象;所述方法包括:

2.根据权利要求1所述的方法,其特征在于,基于所述多构象样本对待训练的蛋白质多构象模型进行训练,包括:

3.根据权利要求2所述的方法,其特征在于,在所述至少一次扩散循环中除第一次扩散循环以外的后续扩散循环中,当前扩散循环对应的主干初始值是通过所述扩散模块从前次扩散循环对应的主干初始值中去除至少部分噪声后得到的。

4.根据权利要求2或3所述的方法,其特征在于,所述至少一次扩散循环的次数为目标循环次数,所述扩散模块包括前向扩散模块和反向...

【技术特征摘要】

1.一种蛋白质多构象模型的训练方法,其特征在于,所述蛋白质多构象模型用于预测给定氨基酸序列的多个结构构象;所述方法包括:

2.根据权利要求1所述的方法,其特征在于,基于所述多构象样本对待训练的蛋白质多构象模型进行训练,包括:

3.根据权利要求2所述的方法,其特征在于,在所述至少一次扩散循环中除第一次扩散循环以外的后续扩散循环中,当前扩散循环对应的主干初始值是通过所述扩散模块从前次扩散循环对应的主干初始值中去除至少部分噪声后得到的。

4.根据权利要求2或3所述的方法,其特征在于,所述至少一次扩散循环的次数为目标循环次数,所述扩散模块包括前向扩散模块和反向扩散模块;

5.根据权利要求2-4任一项所述的方法,利用所述待训练的蛋白质多构象模型,使用当前扩散循环对应的嵌入表征更新当前扩散循环对应的主干初始值,包括:

6.根据权利要求5所述的方法,所述蛋白质多构象模型包括嵌入迭代模块和结构模块;

7.根据权利要求4所述的方法,其特征在于,所述基于所述多构象样本对待训练的蛋白质多构象模型进行训练,还包括:从指定正整数中随机确定所述目标循环次数,所述指定正整数为小于等于扩散路程与所述扩散...

【专利技术属性】
技术研发人员:宋乐张家友李辉
申请(专利权)人:百图生科股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1