一种基于数据驱动优化的酶改造方法技术

技术编号:39252152 阅读:11 留言:0更新日期:2023-10-30 12:04
本发明专利技术公开了一种基于数据驱动优化的酶改造方法,包括:采用分子对接和点突变技术确定若干突变热点残基,生成突变空间;将突变空间与单点饱和突变集的差集作为酶改造的决策空间,根据单点饱和突变序列及其改造特性得到初始训练数据;确定低维互信息编码的超参数并编码决策空间与初始训练数据;根据当前训练数据构建代理模型,随后采用基于最大方差改变量的批量贝叶斯优化算法从决策空间中挑选本轮实验验证的对象,得到验证对象的改造特性;重复更新当前训练数据、构建代理模型、得到验证对象的改造特性的步骤,直到满足条件,得到酶改造结果。本发明专利技术的方法,能够有效降低酶改造过程中的时间成本与经济投入,并且能提高酶改造方法的可靠性。造方法的可靠性。造方法的可靠性。

【技术实现步骤摘要】
一种基于数据驱动优化的酶改造方法


[0001]本专利技术涉及一种基于数据驱动优化的酶改造方法,属于机器学习辅助蛋白质设计领域。

技术介绍

[0002]得益于酶促反应高效专一、绿色环保等优点,酶不仅在化工、食品、环境等传统领域中具有十分广泛的应用,在基因编辑、干细胞技术、靶向药物等新兴技术与产品中同样发挥着不可替代的作用。大量研究发现,天然蛋白质酶在稳定性、耐受性、选择性等方面往往无法满足实际应用的需求。因此,优化与改造酶分子不仅是蛋白质科学研究的重点,也是工业生产的迫切需求。
[0003]蛋白质工程领域中,常用的蛋白质改造方法包括:定向进化、半理性设计与理性设计。定向进化通过对蛋白质进行多轮反复地突变、表达与筛选,引导蛋白质不断累计有益突变。但定向进化以随机的方式引入突变,产生了数量庞大地突变体,十分不利于人工筛选。半理性设计则在晶体结构、催化机制等先验知识的基础上选取若干位点作为改造靶点,进而提高改造的效率。但半理性设计的是否成功与先验知识的丰富程度密切相关,从而导致其应用具有相当大的局限性。理性设计试图通过精准调控蛋白质的结构空间获取具有期望性质的酶,但当前仍受限于酶分子空间结构的高精度获取以及对结构

功能关系与催化机理的理性认知,导致理性设计成功改造酶的案例十分有限。
[0004]氨基酸序列高维与强耦合的特性以及有限的样本给基于机器学习的酶改造方法研究带来巨大挑战。基于机器学习的酶改造包含了蛋白质特征提取、预测模型构建与验证对象筛选三个关键步骤。目前,相关研究通过引入氨基序列的排列信息与氨基酸残基的物化信息提出了多种提取蛋白质特征的编码方法,但这些编码方法都存在维度高、表征能力差以及量化值分布不合理的问题。此外,现有验证对象筛选方法极其依赖训练集的样本质量,且极易陷入局部最优解,从而无法保证酶改造的有效性。因此,想要实现高效、低成本的酶分子改造,除了要设计出表征能力更强的编码方法,还需要引入更加先进的机器学习技术。

技术实现思路

[0005]本专利技术的目的在于提供一种基于数据驱动优化的酶改造方法,从而能够在可接受的成本内实现高效的酶分子改造。
[0006]为达到上述目的,本专利技术提供一种基于数据驱动优化的酶改造方法,包括:
[0007]步骤S1,采用分子对接和点突变技术确定若干突变热点残基,并根据氨基酸序列与给定的最大突变位点数生成酶改造的突变空间;
[0008]步骤S2,对每个基于突变热点残基的单位点饱和突变序列进行酶改造特性实验以得到改造特性的量化值,并将单位点饱和突变序列及其对应的量化值作为酶改造实验的初始训练数据;此外,将突变空间与单位点饱和突变序列构成的集合之间的差集作为酶改造
实验的决策空间;
[0009]步骤S3,基于初始训练数据,以交叉验证的方式确定低维互信息编码方法的超参数,随后根据确定的超参数采用低维互信息编码方法分别对决策空间与初始训练数据进行编码,得到经过编码的决策空间和当前训练数据;
[0010]步骤S4,基于当前训练数据采用高斯过程来构建高斯过程回归模型作为代理模型,并根据代理模型采用基于最大化方差改变量的批量贝叶斯优化算法从经过编码的决策空间中挑选本轮实验的验证对象,随后将验证对象解码为氨基酸序列并对氨基酸序列的改造特性进行实验验证,以得到验证对象的改造特性的量化值;
[0011]步骤S5,将所有本轮实验的验证对象和其改造特性的量化值添加到当前训练数据中,以更新当前训练数据,通过删除本轮实验的验证对象来更新经过编码的决策空间,随后转到步骤S4;直到满足批量贝叶斯优化算法的终止条件或达到最大迭代次数,将此时的验证对象的改造特性的量化值的最优结果所对应的氨基酸序列作为酶改造的最终结果。
[0012]优选地,所述步骤S1具体包括:
[0013]步骤S11,基于蛋白质的结构,通过酶与底物的分子对接确定底物结合口袋,再通过对底物结合口袋周围的氨基酸残基的定点突变及对应的突变体的催化活性测定,确定所有与催化活性相关的突变热点残基;
[0014]步骤S12,根据氨基酸序列与给定的最大突变位点数,通过突变热点残基来生成酶改造的突变空间,突变空间是酶的突变序列s
i
的集合,酶的突变序列s
i
是由酶的序列至少突变一个突变热点残基得到的,并且,突变序列s
i
的突变位点的数量至多为所述的最大突变位点数。
[0015]优选地,所述步骤S2具体包括:
[0016]步骤S21,对每个基于突变热点残基的单位点饱和突变序列进行酶改造特性实验以得到改造特性的量化值,并将单位点饱和突变序列的序列值及其对应的量化值作为酶改造实验的初始训练数据;
[0017]步骤S22,将突变空间与单位点饱和突变序列构成的集合之间的差集作为酶改造的决策空间
[0018]优选地,步骤S3中,低维互信息编码方法包括:
[0019]步骤S31,使用氨基酸T

scale拓扑描述符逐一替换突变空间S中的每条氨基酸序列,从而得到每条氨基酸序列的描述符矩阵M;
[0020]步骤S32,采用如下公式计算每条氨基酸序列的自协方差矩阵C:
[0021][0022]其中,b表示氨基酸残基之间的距离,其取值为{1,2,

,l},C
b,j
与M
i,j
分别表示自协方差矩阵C的第b行的第j个元素与描述符矩阵M的第i行的第j个元素,i表示描述符矩阵M中的行位置,j为描述符矩阵M的组别,m代表描述符矩阵M的行数,即为氨基酸序列长度;
[0023]步骤S33,对于突变空间中的每一条氨基酸序列,将其自协方差矩阵C的各列串联在一起,并根据降维维数d采用主成分分析算法对串联结果进行降维,降维结果为突变空间
S的编码结果,突变空间S的编码结果包括经过编码的决策空间和初始训练数据的序列值的编码结果;
[0024]步骤S34,在突变空间S的编码结果中找到初始训练数据的序列值的编码结果作为样本输入x
i

,根据初始训练数据的改造特性的量化值得到样本输出y
i
,每一个样本输入和样本输出作为一个训练样本,从而形成当前训练数据。
[0025]优选地,根据初始训练数据的改造特性的量化值得到样本输出y
i
,具体包括:对初始训练数据的改造特性的量化值的分布进行优化,得到初始训练数据的改造特性的量化值的分布优化结果,将初始训练数据的改造特性的量化值的分布优化结果作为样本输出y
i

[0026]优选地,采用如下公式对初始训练数据的改造特性的量化值的分布进行优化:
[0027]y=aln(v),
[0028]式中,y表示量化值的分布优化结果,a∈[1,+∞)是样本输出的缩放系数,v表示改造特性的量化值。
[0029]优选地,在所述步骤S4中,基于当前训练数据采用高斯过程来构建高斯过程回本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据驱动优化的酶改造方法,其特征在于,包括:步骤S1,采用分子对接和点突变技术确定若干突变热点残基,并根据氨基酸序列与给定的最大突变位点数生成酶改造的突变空间;步骤S2,对每个基于突变热点残基的单位点饱和突变序列进行酶改造特性实验以得到改造特性的量化值,并将单位点饱和突变序列及其对应的量化值作为酶改造实验的初始训练数据;此外,将突变空间与单位点饱和突变序列构成的集合之间的差集作为酶改造实验的决策空间;步骤S3,基于初始训练数据,以交叉验证的方式确定低维互信息编码方法的超参数,随后根据确定的超参数采用低维互信息编码方法分别对决策空间与初始训练数据进行编码,得到经过编码的决策空间和当前训练数据;步骤S4,基于当前训练数据采用高斯过程来构建高斯过程回归模型作为代理模型,并根据代理模型采用基于最大化方差改变量的批量贝叶斯优化算法从经过编码的决策空间中挑选本轮实验的验证对象,随后将验证对象解码为氨基酸序列并对氨基酸序列的改造特性进行实验验证,以得到验证对象的改造特性的量化值;步骤S5,将所有本轮实验的验证对象和其改造特性的量化值添加到当前训练数据中,以更新当前训练数据,通过删除本轮实验的验证对象来更新经过编码的决策空间,随后转到步骤S4;直到满足批量贝叶斯优化算法的终止条件或达到最大迭代次数,将此时的验证对象的改造特性的量化值的最优结果所对应的氨基酸序列作为酶改造的最终结果。2.根据权利要求1所述的基于数据驱动优化的酶改造方法,其特征在于,所述步骤S1具体包括:步骤S11,基于蛋白质的结构,通过酶与底物的分子对接确定底物结合口袋,再通过对底物结合口袋周围的氨基酸残基的定点突变及对应的突变体的催化活性测定,确定所有与催化活性相关的突变热点残基;步骤S12,根据氨基酸序列与给定的最大突变位点数,通过突变热点残基来生成酶改造的突变空间,突变空间是酶的突变序列s
i
的集合,酶的突变序列s
i
是由酶的序列至少突变一个突变热点残基得到的,并且,突变序列s
i
的突变位点的数量至多为所述的最大突变位点数。3.根据权利要求1所述的基于数据驱动优化的酶改造方法,其特征在于,所述步骤S2具体包括:步骤S21,对每个基于突变热点残基的单位点饱和突变序列进行酶改造特性实验以得到改造特性的量化值,并将单位点饱和突变序列的序列值及其对应的量化值作为酶改造实验的初始训练数据;步骤S22,将突变空间与单位点饱和突变序列构成的集合之间的差集作为酶改造的决策空间4.根据权利要求1所述的基于数据驱动优化的酶改造方法,其特征在于,步骤S3中,低维互信息编码方法包括:步骤S31,使用氨基酸T

scale拓扑描述符逐一替换突变空间S中的每条氨基酸序列,从而得到每条氨基酸序列的描述符矩阵M;
步骤S32,采用如下公式计算每条氨基酸序列的自协方差矩阵C:其中,b表示氨基酸残基之间的距离,其取值为{1,2,

,l},C
b,j
与M
i,j
分别表示自协方差矩阵C的第b行的第j个元素与描述符矩阵M的第i行的第j个元素,i表示描述符矩阵M中的行位置,j为描述符矩阵M的组别,m代表描述符矩阵M的行数,即为氨基酸序列长度;步骤S33,对于突变空间中的每一条氨基酸序列,将其自协方差矩阵C的各列串联在一起,并根据降维维数d采用主成分分析算法对串联结果进行降维,降维结果为突变空间S的编码结果,突变空间S的编码结果包括经过编码的决策空间和初始训练数据的序列值的编码结果;步骤S34,在突变空间S的编码结果中找到初始训练数据的序列值的编码结果作为样本输入x
i

,根据初始训练数据的改造特性的量化值得到样本输出y
i
,每一个样本输入和样本输出作为一个训练样本,从而形成当前训练数据。5.根据权利要求4所述的基于数据驱动优化的酶改造方法,其特征在于,根据初始训练数据的改造特性的量化值得到样本输出y
i
,具体包括:对初始训练数据的改造特性的量化值的分布进行优化...

【专利技术属性】
技术研发人员:林金萍林金星赵永耀
申请(专利权)人:华东理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1