一种基于大规模结构预训练模型的酶稳定性预测方法技术

技术编号：40363513 阅读：7 留言：0更新日期：2024-02-09 14:51

本发明专利技术公开了一种基于大规模结构预训练模型的酶稳定性预测方法，涉及生物信息技术领域。所述的酶稳定性预测方法包括以下步骤：S1、蛋白质结构数据库的构建；S2、模型的预训练：利用MLM技术，并将蛋白质的氨基酸以及氨基酸之间的角度和距离信息引入模型，进行训练；S3、输入蛋白质序列，使用神经网络模型对酶稳定性进行预测。本发明专利技术的酶稳定性预测方法具有较高的精度，运算速度更快，整体预测结果更稳定。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及生物信息，具体涉及一种基于大规模结构预训练模型的酶稳定性预测方法。

技术介绍

1、酶的稳定性预测是一种通过计算机模拟和实验方法，预测酶在不同温度、ph值、化学环境等条件下稳定性能力的过程。在酶的稳定性预测中，通常采用生物信息学和计算化学等方法，建立酶的三维结构与稳定性的定量关系模型，如通过对比结构、进行突变分析等手段来预测酶的稳定性。酶的热稳定性预测是指通过计算机模拟、理论推算或实验检测等手段，预测酶在高温环境下的稳定性能力。在酶的热稳定性预测中，通常考察酶分子内部的非共价作用、氢键、盐桥等对其热稳定性的影响，以及不同温度下蛋白质构象和结构稳定性。

2、目前常见的酶稳定性预测算法主要包括以下几类：一、分子动力学模拟法：通过分子动力学模拟计算酶在高温环境下的结构稳定性和动力学特性，模拟出不同温度下蛋白质的构象和运动轨迹，进而预测酶的热稳定性。二、机器学习算法：基于已知酶的结构和稳定性的训练样本，采用机器学习算法构建酶稳定性预测模型。三、构象熵理论：该理论认为，酶的热稳定性与构象熵之间存在负相关关系，可以通过计算酶的构象熵值来预测其热稳定性。四、基于序列和结构特征的预测模型：通过研究酶序列和结构特征与其稳定性之间的关系，构建相应的预测模型，如用最小二乘法拟合序列和结构特征的线性模型、利用基础扩散模型预测溶液中的酶热稳定性。rosetta以及foldx是比较传统的酶设计工具，基于统计势能和经验函数拟合，根据蛋白质的结构来计算蛋白质的能量，可以预测酶的热稳定性。其中基于深度学习和机器学习的方法主要包括：thermonet,acdc-nn,dynamut2,ddgun3d。

3、现有的技术路线主要分为两类，一种是基于序列的热稳定性预测，另一种是基于结构的热稳定性预测。其中基于序列的酶设计算法有以下问题：一、基于序列的算法需要足够量和质量的酶序列和热稳定性数据，才能进行开发和训练。但是，目前可用的酶样本较少，而且样本质量和数据来源的差异也可能导致模型的不稳定和误差增大。二、酶的序列虽然反映了其基本结构和功能特征，但是缺乏具体的三维空间结构信息，无法直接反映其内部氨基酸相互作用和折叠情况。三、酶的热稳定性受到很多环境因素的影响，如离子浓度、ph值、有机溶剂等，但是基于序列的算法往往未能考虑这些影响因素。四、基于序列的算法复杂度较低，难以充分考虑酶稳定性的多种因素，因此其预测精度不能与基于结构的算法相比，存在一定的误差和局限性。

4、基于结构的预测算法可能存在的问题包括：一、基于结构的算法需要大量的高质量蛋白质结构数据作为训练集，但是目前可用的蛋白质结构数据有限，而且涉及的酶种类也较少，限制了算法的应用范围和效果。二、结构模型的构建、选择和优化等步骤都可能产生系统误差，影响到预测结果的准确性和可信度。三、酶热稳定性受众多因素的影响，目前对于酶热稳定性关键特征的理解还不够深入和全面，导致基于结构的算法在预测某些酶的热稳定性时，存在一定的误差和难度。四、酶活动的环境条件，如温度、ph等因素，可能会影响酶的热稳定性，但是目前大多数基于结构的算法只能考虑酶结构本身在稳定条件下的热稳定性，无法考虑环境因素的影响。

5、为了解决上述的问题，本专利技术技术方案能够充分利用蛋白质序列和结构的语义信息，通过结构预训练的蛋白质语言模型，实现对蛋白质热稳定性的准确预测。

技术实现思路

1、本专利技术的目的是提供一种基于大规模结构预训练模型的酶稳定性预测方法，具有更高的精度、检测的速度较快、检测结果更稳定。

2、术语解释：

3、术语“酶的稳定性”是指酶在特定环境下保持其活性的时间长短。

4、术语“酶热稳定性”是指酶在高温条件下维持其催化性的能力。通常，酶在较高的温度下会发生变性、失去二级、三级和四级结构，并丧失其催化能力。酶热稳定性越高，酶分子在高温环境下能够保持相对稳定的构象，维持其催化能力的时间就越长，对于一些应用来说意义就越大。

5、术语“蛋白质设计”是指利用理论计算和实验手段，在蛋白质分子的基础上进行改造、重组或设计，以获得更好的特性和性能。蛋白质设计通常包括几个基本步骤：首先是对蛋白质分子的结构进行分析，并根据已知的结构、功能和性能进行设计，然后通过合成或突变等方式进行实验操作，最终得到获得高效和稳定的蛋白质分子。该技术能够广泛应用于生命科学、医药、工业、能源等领域中，具有很大的应用前景和重要的价值。

6、本专利技术中，术语“前馈神经网络”是一种人工神经网络，在前馈神经网络中，各神经元从输入层开始，接收前一级输入，并输入到下一级，直至输出层。transformer的数据经过前馈神经网络，该前馈神经网络采用两个线性变换，激活函数为relu函数。

7、术语“注意力”在transformer模型中起着重要作用。它通过查询、键和值的线性变换来计算注意力权重，并将值与权重相加以加权聚合。这样可以捕捉输入序列中的关键信息。多头注意力允许并行计算多个注意力，以捕获不同层次和类型的信息。注意力机制提升了transformer模型的表达能力和泛化能力，在自然语言处理等任务中表现出色。

8、为实现上述专利技术目的，本专利技术的技术方案如下：

9、一方面，本专利技术提供了一种基于大规模结构预训练模型的酶稳定性预测方法，所述的酶稳定性预测方法包括以下步骤：

10、s1、蛋白质结构数据库的构建；

11、s2、预训练：利用mlm技术，并将蛋白质的氨基酸以及氨基酸之间的角度和距离信息引入模型，作为预训练；

12、s3、输入蛋白质结构信息，使用神经网络模型对酶稳定性进行预测；

13、步骤s3中神经网络模型采用transformer架构，包括输入层、编码器、解码器和输出层；

14、所述的输入层输入包括野生型序列、突变体序列；

15、所述的编码器采用transformer模型的编码器，共6层，每层包括两部分，第一部分为自注意力层，第二部分为前馈神经网络；

16、进入编码器中，采用自注意力机制，通过以下步骤计算自注意力：

17、1、线性变换：

18、q＝x*w_q；

19、k＝x*w_k；

20、v＝x*w_v；

21、式中，x是输入序列，w_q、w_k和w_v是学习的权重矩阵；

22、2、相似度计算：

23、注意力得分＝q*k^t；

24、式中，^t表示矩阵的转置操作；

25、3、注意力权重计算：注意力权重＝softmax(注意力得分/根号模型维度)；

26、4、加权求和：自注意力表示＝注意力权重*v；

27、所述的输出层输出为热稳定性变化能量ddg。

28、优选地，步骤s1中所述的蛋白质结构数据库选自alphafold2数据库和cath数据集。

29、具体地，所述的蛋白质结构选自alphafold2数据库中的本文档来自技高网...

【技术保护点】

1.一种基于大规模结构预训练模型的酶稳定性预测方法，其特征在于，所述的酶稳定性预测方法包括以下步骤：

2.根据权利要求1所述的酶稳定性预测方法，其特征在于，步骤S1中蛋白质结构数据库选自AlphaFold2数据库和CATH数据集。

3.根据权利要求1所述的酶稳定性预测方法，其特征在于，步骤S2的预训练过程中引入了距离dij、二面角ωij、二面角θij和平面角

4.根据权利要求3所述的酶稳定性预测方法，其特征在于，所述的距离dij，由Cβi和Cβj原子之间的连接所确定，该距离用于衡量蛋白质中不同残基之间的空间间隔；

5.根据权利要求1所述的酶稳定性预测方法，其特征在于，步骤S2的模型训练后还包括使用数据集对模型进行微调步骤。

6.根据权利要求5所述的酶稳定性预测方法，其特征在于，所述的数据集选自Q3421数据集、S2648数据集、S669数据集、Q1744数据集、Ssym+数据集、S1099数据集中的一种或多种。

7.根据权利要求6所述的酶稳定性预测方法，其特征在于，所述的数据集为Q1744数据集。