一种化合物分子的逆合成预测方法以及相关装置制造方法及图纸

技术编号:34361830 阅读:18 留言:0更新日期:2022-07-31 07:40
本申请公开了一种化合物分子的逆合成预测方法以及相关装置,应用于人工智能的机器学习技术。通过获取目标分子,并将目标分子作为树结构中的根节点;然后基于目标逆合成模型对第一叶节点进行扩展,以得到多个第二叶节点;进一步的对第二叶节点中的预测分子集合进行递归处理,以确定达到预设条件时的终节点;进而遍历终节点对应的路径信息,以确定目标分子的逆合成路径。从而实现多步反应的逆合成预测过程,由于采用逐步递归扩展并筛选叶节点的过程,保证了多步反应的逆合成预测过程反应物的可靠性,提高了化合物分子逆合成预测的准确性。性。性。

A prediction method for inverse synthesis of compound molecules and related devices

【技术实现步骤摘要】
一种化合物分子的逆合成预测方法以及相关装置


[0001]本申请涉及计算机
,尤其涉及一种化合物分子的逆合成预测方法以及相关装置。

技术介绍

[0002]随着人工智能技术的迅速发展,人工智能已经逐渐被引入到各个科学领域,并且发挥着重要的作用。在化学领域,由于在不同条件下化学反应是无穷变化的,因此,以往在制备化合物分子时,研究人员需要大量的时间和精力才能设计出一条合理的有机合成路线,而如果基于人工智能技术辅助研究人员进行有机合成路线设计,就可以大大提高研究人员研发化学药物分子和其他化合物的效率。
[0003]目前人工智能的逆合成算法主要可以分为基于模版(template)。在基于模版的算法当中,用于描述化学反应转化规则的模版或者规则可以是人工标注的或者是从现有的化学反应库提取出得反应模版。然后用于对目标分子预测产生的化学反应进行匹配。
[0004]但是,基于模版的算法中需要海量的反应模版,对于没有反应模版的逆合成过程可能无法预测或预测错误,影响化合物分子逆合成预测的准确性。

技术实现思路

[0005]有鉴于此,本申请提供一种化合物分子的逆合成预测方法,可以有效提高化合物分子逆合成预测的准确性。
[0006]本申请第一方面提供一种化合物分子的逆合成预测方法,可以应用于终端设备中包含化合物分子的逆合成预测功能的系统或程序中,具体包括:
[0007]获取目标分子,并将所述目标分子作为树结构中的根节点,所述根节点与所述树结构中的第一叶节点相关联,所述树结构包含所述目标分子的逆合成路径;
[0008]基于目标逆合成模型对所述第一叶节点进行扩展,以得到多个第二叶节点,所述目标逆合成模型包括图神经网络和反应物生成网络,所述图神经网络用于确定所述第一叶节点中化合物分子的断键位置,所述反应物生成网络用于基于所述断键位置得到预测分子集合;
[0009]对所述第二叶节点中的所述预测分子集合进行递归处理,以确定达到预设条件时的终节点;
[0010]遍历所述终节点对应的路径信息,以确定所述目标分子的逆合成路径。
[0011]可选的,在本申请一些可能的实现方式中,所述基于目标逆合成模型对所述第一叶节点进行扩展,以得到多个第二叶节点,包括:
[0012]确定所述第一叶节点中的化合物分子对应的第一字符串;
[0013]基于节点分布将所述第一字符串转换为第一分子图;
[0014]将所述第一分子图输入所述图神经网络,以得到所述断键位置;
[0015]将所述断键位置输入所述反应物生成网络,以得到至少一个合成子;
[0016]基于预设规则对所述合成子进行过滤,以确定所述预测分子集合。
[0017]可选的,在本申请一些可能的实现方式中,所述将所述第一分子图输入所述图神经网络,以得到所述断键位置,包括:
[0018]将所述第一分子图输入所述图神经网络,并结合断键数量限制进行解析,以得到断键信息;
[0019]根据所述目标分子确定目标关键特征;
[0020]基于所述目标关键特征对所述断键信息进行提取,以得到所述断键位置,所述目标关键特征包括原子关键特征和键关键特征,所述原子关键特征包括原子类型、连键个数、形式电荷、手性、氢原子数、原子杂化状态、芳香性、原子重量、高频反应中心特征和反应类型中的至少一种,所述键关键特征包括键类型、共轭性、环键和分子立体化学特征中的至少一种。
[0021]可选的,在本申请一些可能的实现方式中,所述方法还包括:
[0022]获取第一训练分子和对应的第一训练合成子;
[0023]确定所述第一训练分子和所述第一训练合成子的点特征和边特征,所述点特征用于指示所述第一训练分子和所述第一训练合成子之间原子的关系,所述边特征用于指示所述第一训练分子和所述第一训练合成子之间化学键的关系;
[0024]基于所述点特征和所述边特征对第一损失函数进行训练;
[0025]确定所述第一训练分子和所述第一训练合成子之间化学键的断键概率;
[0026]基于所述断键概率对第二损失函数进行训练;
[0027]根据训练后的所述第一损失函数和训练后的所述第二损失函数对所述图神经网络进行更新。
[0028]可选的,在本申请一些可能的实现方式中,所述将所述断键位置输入所述反应物生成网络,以得到至少一个合成子,包括:
[0029]基于所述断键位置对所述目标分子进行分割,以得到至少一个合成子分子图;
[0030]将所述合成子分子图转换为第二字符串;
[0031]基于预设反应类型对所述第二字符串进行更新,以得到第三字符串;
[0032]将所述第三字符串输入所述反应物生成网络,以得到至少一个所述合成子。
[0033]可选的,在本申请一些可能的实现方式中,所述方法还包括:
[0034]获取第二训练分子、第二训练合成子和训练反应物;
[0035]基于所述第二训练分子对应的字符串、所述第二训练合成子对应的字符串和所述预设反应类型确定第一训练字符串;
[0036]确定所述训练反应物对应的第二训练字符串;
[0037]关联所述第一训练字符串和所述第二训练字符串,以确定第一训练样本对;
[0038]基于所述第一训练样本对对所述反应物生成网络进行训练。
[0039]可选的,在本申请一些可能的实现方式中,所述方法还包括:
[0040]获取所述图神经网络预测的候选字符串;
[0041]将所述候选字符串加入所述第二训练合成子对应的字符串中,以对所述第一训练字符串进行更新得到第三训练字符串;
[0042]关联所述第三训练字符串和所述第二训练字符串,以确定第二训练样本对;
[0043]基于所述第二训练样本对对所述反应物生成网络进行训练。
[0044]可选的,在本申请一些可能的实现方式中,所述方法还包括:
[0045]确定目标字符格式;
[0046]基于所述目标字符格式对所述第二训练合成子对应的字符串和所述预设反应类型确定第一训练字符串进行更新,以减小所述第二训练合成子对应的字符串和所述预设反应类型确定第一训练字符串之间的距离。
[0047]可选的,在本申请一些可能的实现方式中,所述对所述第二叶节点中的所述预测分子集合进行递归处理,以确定达到预设条件时的终节点,包括:
[0048]确定所述第二叶节点中的所述预测分子集合在预设反应类型下对应的第一候选分子;
[0049]基于目标逆合成模型对所述第一候选分子进行扩展,以得到第三叶节点;
[0050]对所述第三叶节点中的所述预测分子集合进行递归处理,以确定第二候选分子;
[0051]若所述第二候选分子达到预设条件,则确定所述第二候选分子为所述终节点。
[0052]可选的,在本申请一些可能的实现方式中,所述若所述第二候选分子达到预设条件,则确定所述第二候选分子为所述终节点,包括:
[005本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种化合物分子的逆合成预测方法,其特征在于,包括:获取目标分子,并将所述目标分子作为树结构中的根节点,所述根节点与所述树结构中的第一叶节点相关联,所述树结构包含所述目标分子的逆合成路径;基于目标逆合成模型对所述第一叶节点进行扩展,以得到多个第二叶节点,所述目标逆合成模型包括图神经网络和反应物生成网络,所述图神经网络用于确定所述第一叶节点中化合物分子的断键位置,所述反应物生成网络用于基于所述断键位置得到预测分子集合;对所述第二叶节点中的所述预测分子集合进行递归处理,以确定达到预设条件时的终节点;遍历所述终节点对应的路径信息,以确定所述目标分子的逆合成路径。2.根据权利要求1所述的方法,其特征在于,所述基于目标逆合成模型对所述第一叶节点进行扩展,以得到多个第二叶节点,包括:确定所述第一叶节点中的化合物分子对应的第一字符串;基于节点分布将所述第一字符串转换为第一分子图;将所述第一分子图输入所述图神经网络,以得到所述断键位置;将所述断键位置输入所述反应物生成网络,以得到至少一个合成子;基于预设规则对所述合成子进行过滤,以确定所述预测分子集合。3.根据权利要求2所述的方法,其特征在于,所述将所述第一分子图输入所述图神经网络,以得到所述断键位置,包括:将所述第一分子图输入所述图神经网络,并结合断键数量限制进行解析,以得到断键信息;根据所述目标分子确定目标关键特征;基于所述目标关键特征对所述断键信息进行提取,以得到所述断键位置,所述目标关键特征包括原子关键特征和键关键特征,所述原子关键特征包括原子类型、连键个数、形式电荷、手性、氢原子数、原子杂化状态、芳香性、原子重量、高频反应中心特征和反应类型中的至少一种,所述键关键特征包括键类型、共轭性、环键和分子立体化学特征中的至少一种。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:获取第一训练分子和对应的第一训练合成子;确定所述第一训练分子和所述第一训练合成子的点特征和边特征,所述点特征用于指示所述第一训练分子和所述第一训练合成子之间原子的关系,所述边特征用于指示所述第一训练分子和所述第一训练合成子之间化学键的关系;基于所述点特征和所述边特征对第一损失函数进行训练;确定所述第一训练分子和所述第一训练合成子之间化学键的断键概率;基于所述断键概率对第二损失函数进行训练;根据训练后的所述第一损失函数和训练后的所述第二损失函数对所述图神经网络进行更新。5.根据权利要求2所述的方法,其特征在于,所述将所述断键位置输入所述反应物生成网络,以得到至少一个合成子,包括:
基于所述断键位置对所述目标分子进行分割,以得到至少一个合成子分子图;将所述合成子分子图转换为第二字符串;基于预设反应类型对所述第二字符串进行更新,以得到第三字符串;将所述第三字符串输入所述反应物生成网络,以得到至少一个所述合成子。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:获取第二训练分子、第二训练合成子和训练反应物;基于所述第二训练分子对应的字符串、所述第二训练合成子对应的字符串和所述预设反应类型确定第一训练字符串;确定所述训练反应物对应的第二训练字符串;关联所述第一训练字符串和所述第二训练字符串,以确定第一训练样本对;基于所述第一训练样本对对所述反应物生成网络进行训练。7.根据权...

【专利技术属性】
技术研发人员:于洋路婵赵沛霖
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1