System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种蛋白质主链骨架设计与蛋白质结构生成方法技术_技高网

一种蛋白质主链骨架设计与蛋白质结构生成方法技术

技术编号:40296832 阅读:5 留言:0更新日期:2024-02-07 20:45
本发明专利技术涉及一种蛋白质主链骨架设计与蛋白质结构生成方法,基于GPDL‑Inpainting和/或GPDL‑Hallucination两个不同的蛋白质主链骨架设计模型实现,其中,GPDL‑Inpainting模型以序列模型和结构模型为输入,输出蛋白质骨架序列和结构,结构模型以活性位点在三维空间中的距离矩阵表示,序列模型为功能位点序列及以丙氨酸填充进行掩码的支架序列;GPDL‑Hallucination模型以序列模型为输入,输出蛋白质骨架,所述序列模型为功能位点及随机产生的支架序列。与现有技术相比,本发明专利技术可以生成可设计性更好的结构,且设计的蛋白质结构具有更高的多样性和计算效率。

【技术实现步骤摘要】

本专利技术涉及蛋白质设计骨架生成,尤其是涉及一种基于蛋白质语言模型的蛋白质主链骨架设计与蛋白质结构生成方法


技术介绍

1、蛋白质是生命的物质基础,在几乎所有的生物功能中发挥着至关重要的作用。在过去二十年中,许多基于能量和深度学习的算法被提出用于蛋白质从头设计(denovoprotein design),使得设计具有特定功能的新型蛋白质成为可能。蛋白质从头设计包括两个关键任务:蛋白质主链骨架设计(protein backbone generation)和固定骨架蛋白质序列设计(fixed-backbone protein sequence design)。蛋白质骨架设计是指设计大量的蛋白质骨架行使所需的生物功能。蛋白质序列设计指寻找能够正确折叠成该蛋白质骨架的蛋白序列。蛋白质骨架生成遵循物理化学原理从头设计蛋白质三维骨架,且生成的蛋白质骨架应该具有较高的结构“可设计性”。“可设计性”意味着氨基酸序列能够以相对较低的能量折叠成设计的骨架结构。相较于固定骨架蛋白质序列设计,蛋白质主链骨架设计更为复杂,不仅要考虑蛋白质等变性,还需要满足各种复杂的物理化学性质,如肽键约束等。

2、对于功能性蛋白质而言,其活性主要由少量氨基酸位点决定,称这一小部分位点为功能位点或基序(motif),其余氨基酸主要起到稳定功能位点构象和最小化蛋白能量的作用,称这一部分序列为支架蛋白(scaffold)。本专利技术关注于蛋白质主链骨架生成,具体通过给定蛋白质功能位点来设计出新的蛋白质,既要求维持给定的蛋白功能位点区域又需要生成多样性的支架蛋白。蛋白质主链骨架设计主要有三种不同的深度学习方法:修补(inpainting)、幻想(hallucination)和扩散(diffusion)。

3、修补方法主要依赖神经网络对蛋白质结构和序列进行建模,输入活性位点的结构和系列,输出完整的蛋白质序列和结构。目前大部分的修补方法主要依靠预训练的蛋白质结构预测网络,例如rosettafold。对于如下的概率分布,和为活性位点的结构和序列,通过一组已经训练好的神经网络参数θ对蛋白质序列s和蛋白质主链结构x进行填补。扩散模型可以生成精度更高、更置信的蛋白结构,但自身生成效率较低,采样速度非常慢多样性较差。

4、

5、幻想方法在随机初始化蛋白质序列、定义好损失函数之后利用蒙特卡洛模拟退火的方法对序列空间进行突变优化。幻想方法依赖于训练好的蛋白质结构预测网络。损失函数通常包括:(1)蛋白结构整体的置信度;(2)活性位点损失函数,即生成蛋白结构与目标蛋白结构的差距,通过最大化置信度和最小化活性位点损失函数通常就可以得到置信度非常高且与目标结构相接近的幻想结构。由于幻想方法不需要重新训练网络且可以需要自定义损失函数,在过去两年间诞生了大量基于幻想方法生成的蛋白,包括单体、聚合物、和复合物口袋。幻想方法目前有两个关键的缺点:(1)极其依赖预训练的蛋白质结构预测网络,很容易将随机序列优化为高置信度却不可表达的对抗序列(adversarial sequence);(2)损失函数收敛通常使用模拟退火和梯度下降结合的方法,无法使用目前主流的加速器例如gpu进行加速,因此收敛速度非常慢,在有限的资源下无法高通量的进行幻想生成。

6、扩散模型作为一种概率生成模型,假设数据原始分布为x0~pθ(x),通过向样本中逐渐加入高斯噪音使得数据的分布变为n维标准高斯分布加噪过程如下,对于不同的噪音独立同分布。在采样时同样利用假定的马尔可夫过程进行迭代去噪。

7、

8、扩散模型在蛋白骨架生成中优势十分明显。首先模型从高斯分布中进行骨架生成,生成的结构具有非常高的多样性。其次模型直接对蛋白质3d骨架进行优化。最后生成过程可以接受不同蛋白先验信息,使得生成过程具有可控性。其缺陷与幻想方法类似,生成一个蛋白需要经历大量的去噪过程,且由于蛋白质构象的复杂性,扩散模型主要依赖于预训练好的蛋白质结构预测模型进行微调,很难有一个轻量级的模型进行推理。


技术实现思路

1、本专利技术的目的是为了提供一种基于蛋白质语言模型的蛋白质主链骨架设计与蛋白质结构生成方法,提高生成的蛋白质结构的多样性和计算效率。

2、本专利技术的目的可以通过以下技术方案来实现:

3、一种基于蛋白质语言模型的蛋白质主链骨架设计方法,基于gpdl-inpainting和/或gpdl-hallucination两个不同的蛋白质主链骨架设计模型实现,其中,所述gpdl-inpainting模型以序列模型和结构模型为输入,利用esmfold模型输出蛋白质骨架序列和结构,所述结构模型以活性位点在三维空间中的距离矩阵表示,序列模型为功能位点序列及以丙氨酸填充进行掩码的支架序列;所述gpdl-hallucination模型以序列模型为输入,利用esmfold模型进行序列优化,输出蛋白质骨架,所述序列模型为功能位点及随机产生的支架序列;所述esmfold模型包括结构模块、esm-2模块和folding trunk模块。

4、所述距离矩阵包括两两氨基酸间的4个骨架原子和1个虚拟原子virtual cb之间的共计25个距离信息,所述4个骨架原子分别为n,ca,c,o。

5、所述gpdl-inpainting模型将三维空间中的距离矩阵通过不同均值的高斯径向函数进行线性映射后,与esmfold模型结构模块的氨基酸对表示相加,并在神经网络最后一次循环结束时添加线性层,将单序列表示通过线性映射转化为二十种氨基酸概率输出。

6、所述gpdl-inpainting模型的损失函数为全蛋白序列交叉熵和全蛋白坐标系对应点误差。

7、所述gpdl-hallucination模型的损失函数包括结构预测结果可信度指标和各轮优化过程中预测的结构中活性功能位点与参考的天然蛋白质中功能位点之间主链原子坐标的均方根偏差。

8、所述gpdl-hallucination模型采用蒙托卡罗模拟退火方法进行循环优化蛋白质,在对序列引入突变后,再次进行结构预测,并据此计算损失函数,根据模拟退火的metropolis接受准则断是否接受突变。

9、所述的方法包括以下步骤:

10、获取蛋白质的天然结构作为gpdl-inpainting模型的输入;

11、利用结构编码器对天然结构进行编码得到距离矩阵后输入esmfold模型的结构模块;

12、氨基酸活性位点序列经序列模型生成氨基酸对表示,再输入结构模块,并利用gpdl-inpainting模型的损失函数对模型进行优化,输出蛋白质骨架。

13、所述的方法包括以下步骤:

14、获取蛋白质的天然结构并确定其功能位点,通过随机产生的支架序列生成序列模型,作为gpdl-hallucination模型的输入;

15、利用gpdl-hallucination模型的损失函数对蛋白质进行优化,输出蛋白质骨架。

16、所述的方法包括以下步本文档来自技高网...

【技术保护点】

1.一种基于蛋白质语言模型的蛋白质主链骨架设计方法,其特征在于,基于GPDL-Inpainting和/或GPDL-Hallucination两个不同的蛋白质主链骨架设计模型实现,其中,所述GPDL-Inpainting模型以序列模型和结构模型为输入,利用ESMFold模型输出蛋白质骨架序列和结构,所述结构模型以活性位点在三维空间中的距离矩阵表示,序列模型为功能位点序列及以丙氨酸填充进行掩码的支架序列;所述GPDL-Hallucination模型以序列模型为输入,利用ESMFold模型进行序列优化,输出蛋白质骨架,所述序列模型为功能位点及随机产生的支架序列;所述ESMFold模型包括结构模块、ESM-2模块和Folding Trunk模块。

2.根据权利要求1所述的一种基于蛋白质语言模型的蛋白质主链骨架设计方法,其特征在于,所述距离矩阵包括两两氨基酸间的4个骨架原子和1个虚拟原子Virtual CB之间的共计25个距离信息,所述4个骨架原子分别为N,CA,C,O。

3.根据权利要求1所述的一种基于蛋白质语言模型的蛋白质主链骨架设计方法,其特征在于,所述GPDL-Inpainting模型将三维空间中的距离矩阵通过不同均值的高斯径向函数进行线性映射后,与ESMFold模型结构模块的氨基酸对表示相加,并在神经网络最后一次循环结束时添加线性层,将单序列表示通过线性映射转化为二十种氨基酸概率输出。

4.根据权利要求1所述的一种基于蛋白质语言模型的蛋白质主链骨架设计方法,其特征在于,所述GPDL-Inpainting模型的损失函数为全蛋白序列交叉熵和全蛋白坐标系对应点误差。

5.根据权利要求1所述的一种基于蛋白质语言模型的蛋白质主链骨架设计方法,其特征在于,所述GPDL-Hallucination模型的损失函数包括结构预测结果可信度指标和各轮优化过程中预测的结构中活性功能位点与参考的天然蛋白质中功能位点之间主链原子坐标的均方根偏差。

6.根据权利要求1所述的一种基于蛋白质语言模型的蛋白质主链骨架设计方法,其特征在于,所述GPDL-Hallucination模型采用蒙托卡罗模拟退火方法进行循环优化蛋白质,在对序列引入突变后,再次进行结构预测,并据此计算损失函数,根据模拟退火的Metropolis接受准则断是否接受突变。

7.根据权利要求1所述的一种基于蛋白质语言模型的蛋白质主链骨架设计方法,其特征在于,所述的方法包括以下步骤:

8.根据权利要求1所述的一种基于蛋白质语言模型的蛋白质主链骨架设计方法,其特征在于,所述的方法包括以下步骤:

9.根据权利要求1所述的一种基于蛋白质语言模型的蛋白质主链骨架设计方法,其特征在于,所述的方法包括以下步骤:

10.一种基于蛋白质语言模型的蛋白质结构生成方法,其特征在于,包括以下步骤:利用如权利要求1-9中任一所述的蛋白质主链骨架设计方法生成蛋白质骨架,并利用ProteinMPNN固定骨架序列设计方法进行序列优化,通过ESMFold蛋白结构预测软件得到设计蛋白的结构。

...

【技术特征摘要】

1.一种基于蛋白质语言模型的蛋白质主链骨架设计方法,其特征在于,基于gpdl-inpainting和/或gpdl-hallucination两个不同的蛋白质主链骨架设计模型实现,其中,所述gpdl-inpainting模型以序列模型和结构模型为输入,利用esmfold模型输出蛋白质骨架序列和结构,所述结构模型以活性位点在三维空间中的距离矩阵表示,序列模型为功能位点序列及以丙氨酸填充进行掩码的支架序列;所述gpdl-hallucination模型以序列模型为输入,利用esmfold模型进行序列优化,输出蛋白质骨架,所述序列模型为功能位点及随机产生的支架序列;所述esmfold模型包括结构模块、esm-2模块和folding trunk模块。

2.根据权利要求1所述的一种基于蛋白质语言模型的蛋白质主链骨架设计方法,其特征在于,所述距离矩阵包括两两氨基酸间的4个骨架原子和1个虚拟原子virtual cb之间的共计25个距离信息,所述4个骨架原子分别为n,ca,c,o。

3.根据权利要求1所述的一种基于蛋白质语言模型的蛋白质主链骨架设计方法,其特征在于,所述gpdl-inpainting模型将三维空间中的距离矩阵通过不同均值的高斯径向函数进行线性映射后,与esmfold模型结构模块的氨基酸对表示相加,并在神经网络最后一次循环结束时添加线性层,将单序列表示通过线性映射转化为二十种氨基酸概率输出。

4.根据权利要求1所述的一种基于蛋白质语言模型的蛋白质主链骨架设计方法,其特征...

【专利技术属性】
技术研发人员:陈海峰魏婷
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1