System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于多任务和分子多模态特征的酶促反应可行性评估方法及系统技术方案_技高网
当前位置: 首页 > 专利查询>武汉大学专利>正文

一种基于多任务和分子多模态特征的酶促反应可行性评估方法及系统技术方案

技术编号:39978844 阅读:8 留言:0更新日期:2024-01-09 01:22
本发明专利技术提供了一种基于多任务和分子多模态特征的酶促反应可行性评估方法和系统。本发明专利技术使用公开数据集与生物工程学反应规则模板库构造酶促反应可行性数据集;将反应产物分子与底物分子的SMILES序列特征和摩根指纹空间结构特征作为神经网络的输入;基于注意力机制与卷积神经网络构造双分支网络提取分子多模态特征;以产物SMILES序列生成任务作为辅助任务强化模型学习序列特征的能力,为酶促反应可行性评估任务提供更丰富的特征,有效使所训练模型能够综合分子多模态特征对反应可行性做出准确的判断。本发明专利技术显著提高了生物分子逆合成途径设计过程中的计算速度和可靠性,避免设计过程中不必要的搜索扩展,提高实验效率。

【技术实现步骤摘要】

本专利技术属于生物分子合成途径设计领域,尤其涉及基于多任务与分子多模态特征的酶促反应可行性评估方法,属于深度学习在生物信息领域中的应用。


技术介绍

1、现如今,应用于工业生物技术的合成生物学正在改变我们生产生物材料的方式,但该过程中仍然存在许多可以优化的问题。生物逆合成途径规划问题是其中一个非常值得解决和优化的问题,对于该问题的说明是,对于一个复杂的目标分子,如何用简单且易获得的基础分子作为底物分子,参照树模型结构设计出一个合理且高效的目标分子合成路线。生物逆合成途径规划问题允许通过生物代谢工程设计新的酶促反应来使路径达到目标生物分子,但该过程中衍生的大量酶促反应导致了各种可能性的组合爆炸,对于这些组合,即使是经验丰富的生物学家也无法选择最有希望发生的反应,而如果通过实验验证又需要花费大量的实验成本,因此需要一种能让计算机自动筛选逆合成途径中大量衍生生成的酶促反应的方法,剔除人类难以判定,但计算机可以轻易识别的低可行性反应,减少生物合成领域专家的工作量。

2、目前的评估酶促反应可行性的方法中,主要分为以下两种方法:一种是基于生化知识的方法,通过领域专家判断酶促反应过程中产物与底物的能量变化、熵值变化、化学键断裂或形成可能性、酶的存在与活性、底盘细胞环境等等条件判断反应是否可行,尽管领域专家的判断具有更高的权威性,但这需要大量的专业知识和人力成本;二是基于机器学习的方法,这一类的方法已经在酶促反应可行性判断上表现出了很好的效果,但是目前的方法在模型设计过程中没有考虑到分子smiles字符串中包含的丰富序列特征,且在模型训练的过程中仅仅把模型的训练视作一个二分类任务,模型的可行性判断的准确度和可信度因此尚待提高。


技术实现思路

1、为了解决上述背景中的技术问题,本专利技术提出了一种基于多任务与分子多模态特征的酶促反应可行性评估方法及系统。该方法参考了酶促反应中底物分子和产物分子中多个模态的特征,构建基于注意力模块机制与卷积神经网络的双分支特征提取网络,并将训练任务拓展为序列生成任务和可行性分类任务的结合,序列生成任务使模型具备更强的序列特征提取能力,以辅助可行性分类任务做出更加准确的评估,在分子序列特征和结构特征两个方面综合考虑酶促反应可行性的问题,训练得到的模型具有优秀的鲁棒性与适应性,可用于筛选掉生物逆合成中衍生的不可行反应,优化途径设计。

2、本专利技术提供的技术方案如下:

3、第一方面,本专利技术提供一种酶促反应可行性的评估方法,包括以下步骤:

4、s1:收集公开的酶促反应数据集,由每个酶促反应中产物分子和与产物分子相似度匹配度最高的底物分子共同构成正样本对数据集;使用生物工程学反应规则模板库和正样本对数据集,拓展负样本对数据集;随机混合正负样本数据集,结合对应的酶促反应可行性标签,得到酶促反应可行性数据集d;

5、s2:计算由分子序列特征和分子空间结构特征构成的多模态特征:统计数据集d中所有出现过的字符,生成字符字典vocab,将反应分子对的smiles字符按照vocab字典,并通过embedding层转换成数字向量作为分子序列特征;使用rdkit开源工具包,计算反应分子对的摩根指纹作为分子空间结构特征;这两种特征提供了不同视角的特征描述,结合起来可以提供更加全面和丰富的分子特征表示;

6、s3:构建基于卷积神经网络与注意力机制网络的双分支特征提取网络,将得到的数据集d中反应分子对的多模态特征共同作为网络输入;

7、s4:以多任务为驱动训练模型网络:多任务包括作为主任务的酶促反应可行性的评估任务以及作为辅助任务的产物smiles序列生成任务;其中,反应可行性的评估任务实质为一个二分类任务,产物smiles序列生成任务基于机器翻译思想,将酶促反应中底物分子到产物分子的smiles字符变化视作类“机器翻译”过程。模型网络经多轮训练后得到trans-rfc酶促反应可行性评估模型。多任务学习使得模型的不同特征提取模块共享和参考了分子的不同模态特征,同时也让模型具备更强的泛化能力。序列生成任务使模型学习到更加丰富与准确的smiles序列特征,并通过模型底层的参数共享,将特征传递给分类任务,有效提升分类任务的性能;本模型使用交叉熵损失函数和adam算法训练和优化,可用于下游任务;

8、s5:利用trans-rfc酶促反应可行性评估模型评估酶促反应的可行性。

9、在一种实施方式中,步骤s1中获取收集已知可行性的酶促反应数据集,进而获取正样本对数据集的方法,具体包括以下步骤:

10、s1.1:获取metanetx酶促反应公开数据集。

11、s1.2:将数据集中酶促反应的产物分子和底物分子转换成rdkit分子对象并计算相似性,选取与产物分子相似度最高的底物分子与产物分子共同组成正样本。其中,产物分子与底物分子的结构相似性越高,相似度计算得到的结果越接近于1,该过程在粗粒度上筛选高相似度的产物分子和底物分子作为分子对,在所有分子对构成正样本对数据集中,每条样本代表可以从样本中的底物分子通过酶促反应得到对应的产物分子。

12、s1.3:从github安装retrorules,retrorules是一个基于生物学信息学和计算化学的工具包,可以通过挖掘现有的生物合成反应和代谢途径数据库,识别新的反应规则,以帮助预测潜在的代谢产物和反应路线;但通过模板预测得到的新反应,绝大部分是假阳性反应,这也是新反应可以作为负样本的原因。

13、s1.4:拓展负样本对数据集:调用retrorules的retrorules-predict函数,输入参数为正样本中底物分子的smiles字符串,输出结果由根据retrorules中的不同生化反应规则生成的一组不同产物的新反应组成,随机选择其中一个反应作为该底物分子的负样本,代表该反应不可行,反应的底物分子和产物分子共同构成负样本对,对数据集d中所有的底物分子进行所述操作后,得到与正样本对数量相同的负样本对。

14、s1.5:随机混合正负样本对数据集,组成酶促反应可行性数据集d;其中,每条样本包含单个底物分子smiles字符串,单个产物分子smiles字符串和对应的酶促反应可行性标签。

15、在一种实施方式中,步骤s2中获取分子特征的方法具体用于执行以下步骤:

16、s2.1:通过rdkit开源工具将分子smiles转为分子对象,计算其摩根分子指纹作为该分子的结构和性质特征;其中,摩根算法所设定的半径参数为r,指纹位数为fp_dim,考虑立体化学信息。

17、s2.2:计算数据集d中所有产物分子与底物分子smiles字符串中所有出现过长的字符,统计为tokens字符集合。

18、s2.3:向tokens字符集合中添加用于字符encoding的特殊字符,如占位符‘~’、起始符‘>’和结束符‘<’。

19、s2.4:将tokens字符集合按照索引生成vocab字符字典,其中字符为键,字符本文档来自技高网...

【技术保护点】

1.一种基于多任务和分子多模态特征的酶促反应可行性评估方法,其特征在于,步骤如下:

2.根据权利要求1所述的基于多任务和分子多模态特征的酶促反应可行性评估方法,其特征在于,所述步骤S1包括以下子步骤:

3.根据权利要求2所述的基于多任务和分子多模态特征的酶促反应可行性评估方法,其特征在于,所述步骤S1.5中,所述酶促反应可行性数据集D由正负样本对结合标签随机混合构成;其中,每条数据由单个底物分子SMILES字符串,单个产物分子SMILES字符串,以及对应的酶促反应可行性标签label组成,label为1代表该样本为正样本,label为0代表该样本为负样本。

4.根据权利要求1所述的基于多任务和分子多模态特征的酶促反应可行性评估方法,其特征在于,所述步骤S2包括以下子步骤:

5.根据权利要求4所述的基于多任务和分子多模态特征的酶促反应可行性评估方法,其特征在于,所述步骤2.6中,数据集D中分子SMILES串进行长度填充,统一定长为ML的方法为:若SMILES长度不足ML,字符末尾缺失部分填充字符‘~’至长度为ML;若SMILES长度超出ML,截取前ML个字符替换该SMILES串,以最大化保留分子序列特征的同时,统一后续模型输入的维度。

6.根据权利要求1所述的基于多任务和分子多模态特征的酶促反应可行性评估方法,其特征在于,所述步骤S3中双分支分子特征提取网络由三个模块组成:基于Transformer网络的分子SMILES序列特征提取模块、基于卷积神经网络与注意力机制的分子结构特征提取模块、基于全连接层的特征融合输出模块;

7.根据权利要求6所述的基于多任务和分子多模态特征的酶促反应可行性评估方法,其特征在于,所述步骤S3中,在Transformer网络的对于分子SMILES的序列特征提取模块中,包含三个编码块和两个解码块作为多任务的共有网络,实现序列特征在多任务的共享,并在共享网络后针对多任务分别使用单独的一个解码块输出序列特征,实现模型上层参数的微调;编码器和解码器中每个块中使用多头注意力机制、残差、前馈连接网络充分提取分子序列特征;其中,编码器在编码时使用填充掩码来屏蔽掉填充的无用信息,解码器在解码时使用填充掩码和未来掩码来屏蔽掉填充的无用信息和来自未来的信息。

8.根据权利要求7所述的基于多任务和分子多模态特征的酶促反应可行性评估方法,其特征在于,所述步骤S4包括以下步骤:

9.根据权利要求1所述的基于多任务和分子多模态特征的酶促反应可行性评估方法,其特征在于,所述步骤S5的步骤如下:将需要可行性的酶促反应的底物分子和产物分子按照S2计算多模态特征,输入到模型Trans-RFC模型中,得到该反应可行性评估,该评估值越接近于1,反应的可能性越高,可将评估结果与训练时基于数据得到的参考阈值比较,评定反应最终可行性。

10.一种基于多任务和分子多模态特征的酶促反应可行性评估系统,其特征在于,包括:

...

【技术特征摘要】

1.一种基于多任务和分子多模态特征的酶促反应可行性评估方法,其特征在于,步骤如下:

2.根据权利要求1所述的基于多任务和分子多模态特征的酶促反应可行性评估方法,其特征在于,所述步骤s1包括以下子步骤:

3.根据权利要求2所述的基于多任务和分子多模态特征的酶促反应可行性评估方法,其特征在于,所述步骤s1.5中,所述酶促反应可行性数据集d由正负样本对结合标签随机混合构成;其中,每条数据由单个底物分子smiles字符串,单个产物分子smiles字符串,以及对应的酶促反应可行性标签label组成,label为1代表该样本为正样本,label为0代表该样本为负样本。

4.根据权利要求1所述的基于多任务和分子多模态特征的酶促反应可行性评估方法,其特征在于,所述步骤s2包括以下子步骤:

5.根据权利要求4所述的基于多任务和分子多模态特征的酶促反应可行性评估方法,其特征在于,所述步骤2.6中,数据集d中分子smiles串进行长度填充,统一定长为ml的方法为:若smiles长度不足ml,字符末尾缺失部分填充字符‘~’至长度为ml;若smiles长度超出ml,截取前ml个字符替换该smiles串,以最大化保留分子序列特征的同时,统一后续模型输入的维度。

6.根据权利要求1所述的基于多任务和分子多模态特征的酶促反应可行性评估方法,其特征在于,所述步骤s3中双分支分子特征提取网络由三个模块组成:基于transforme...

【专利技术属性】
技术研发人员:刘娟刘江航冯晶
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1