当前位置: 首页 > 专利查询>武汉大学专利>正文

一种基于多任务和分子多模态特征的酶促反应可行性评估方法及系统技术方案

技术编号:39978844 阅读:29 留言:0更新日期:2024-01-09 01:22
本发明专利技术提供了一种基于多任务和分子多模态特征的酶促反应可行性评估方法和系统。本发明专利技术使用公开数据集与生物工程学反应规则模板库构造酶促反应可行性数据集;将反应产物分子与底物分子的SMILES序列特征和摩根指纹空间结构特征作为神经网络的输入;基于注意力机制与卷积神经网络构造双分支网络提取分子多模态特征;以产物SMILES序列生成任务作为辅助任务强化模型学习序列特征的能力,为酶促反应可行性评估任务提供更丰富的特征,有效使所训练模型能够综合分子多模态特征对反应可行性做出准确的判断。本发明专利技术显著提高了生物分子逆合成途径设计过程中的计算速度和可靠性,避免设计过程中不必要的搜索扩展,提高实验效率。

【技术实现步骤摘要】

本专利技术属于生物分子合成途径设计领域,尤其涉及基于多任务与分子多模态特征的酶促反应可行性评估方法,属于深度学习在生物信息领域中的应用。


技术介绍

1、现如今,应用于工业生物技术的合成生物学正在改变我们生产生物材料的方式,但该过程中仍然存在许多可以优化的问题。生物逆合成途径规划问题是其中一个非常值得解决和优化的问题,对于该问题的说明是,对于一个复杂的目标分子,如何用简单且易获得的基础分子作为底物分子,参照树模型结构设计出一个合理且高效的目标分子合成路线。生物逆合成途径规划问题允许通过生物代谢工程设计新的酶促反应来使路径达到目标生物分子,但该过程中衍生的大量酶促反应导致了各种可能性的组合爆炸,对于这些组合,即使是经验丰富的生物学家也无法选择最有希望发生的反应,而如果通过实验验证又需要花费大量的实验成本,因此需要一种能让计算机自动筛选逆合成途径中大量衍生生成的酶促反应的方法,剔除人类难以判定,但计算机可以轻易识别的低可行性反应,减少生物合成领域专家的工作量。

2、目前的评估酶促反应可行性的方法中,主要分为以下两种方法:一种是基于生化知识的方法,通过本文档来自技高网...

【技术保护点】

1.一种基于多任务和分子多模态特征的酶促反应可行性评估方法,其特征在于,步骤如下:

2.根据权利要求1所述的基于多任务和分子多模态特征的酶促反应可行性评估方法,其特征在于,所述步骤S1包括以下子步骤:

3.根据权利要求2所述的基于多任务和分子多模态特征的酶促反应可行性评估方法,其特征在于,所述步骤S1.5中,所述酶促反应可行性数据集D由正负样本对结合标签随机混合构成;其中,每条数据由单个底物分子SMILES字符串,单个产物分子SMILES字符串,以及对应的酶促反应可行性标签label组成,label为1代表该样本为正样本,label为0代表该样本为负样本。

...

【技术特征摘要】

1.一种基于多任务和分子多模态特征的酶促反应可行性评估方法,其特征在于,步骤如下:

2.根据权利要求1所述的基于多任务和分子多模态特征的酶促反应可行性评估方法,其特征在于,所述步骤s1包括以下子步骤:

3.根据权利要求2所述的基于多任务和分子多模态特征的酶促反应可行性评估方法,其特征在于,所述步骤s1.5中,所述酶促反应可行性数据集d由正负样本对结合标签随机混合构成;其中,每条数据由单个底物分子smiles字符串,单个产物分子smiles字符串,以及对应的酶促反应可行性标签label组成,label为1代表该样本为正样本,label为0代表该样本为负样本。

4.根据权利要求1所述的基于多任务和分子多模态特征的酶促反应可行性评估方法,其特征在于,所述步骤s2包括以下子步骤:

5.根据权利要求4所述的基于多任务和分子多模态特征的酶促反应可行性评估方法,其特征在于,所述步骤2.6中,数据集d中分子smiles串进行长度填充,统一定长为ml的方法为:若smiles长度不足ml,字符末尾缺失部分填充字符‘~’至长度为ml;若smiles长度超出ml,截取前ml个字符替换该smiles串,以最大化保留分子序列特征的同时,统一后续模型输入的维度。

6.根据权利要求1所述的基于多任务和分子多模态特征的酶促反应可行性评估方法,其特征在于,所述步骤s3中双分支分子特征提取网络由三个模块组成:基于transforme...

【专利技术属性】
技术研发人员:刘娟刘江航冯晶
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1