基于量子力学描述符信息的化合物逆合成方法及装置制造方法及图纸

技术编号:39263155 阅读:27 留言:0更新日期:2023-10-30 12:16
基于量子力学描述符信息的化合物逆合成方法及装置,属于有机反应逆合成预测技术领域,该方法包括反应中心位置预测模型构建,离去基团选择模型构建和反应物预测;反应中心位置预测模型构建包括对处理后得到的数据集添加量子力学描述符信息,得到带有量子力学描述符特征的分子图;离去基团选择模型构建包括分析训练数据集的产物和反应物的原子映射关系,得到每一条反应的离去基团并构建离去基团字典;反应物预测包括通过所述反应中心位置预测模型得到产物的合成子,再通过所述离去基团选择模型得到离去基团;在合成子上添加离去基团,得到预测反应物反应。本发明专利技术有效利用量子力学描述符信息,克服基于模板模型对模板的依赖,准确率高。准确率高。准确率高。

【技术实现步骤摘要】
基于量子力学描述符信息的化合物逆合成方法及装置


[0001]本专利技术属于有机反应逆合成预测
,具体涉及一种基于量子力学描述符信息的化合物逆合成方法及装置。

技术介绍

[0002]逆合成预测是由Corey在20世纪60年代所提出的一个基本概念,任务是给定目标化合物预测生成该目标化合物的反应路线。目前,逆合成预测技术已经取得了广泛的应用,例如在现代药物探索及新材料设计等领域,尤其对于制药行业更为重要,新药研发后期主要挑战就是如何低成本高效率地合成新分子。同样,对于新材料领域,合理的合成路线可以大大降低成本。早期的传统逆合成方案主要依赖化学家积累的经验或者从大量的数据库文献进行查询,不仅耗时且成本高,很大程度上还取决于专家的经验,然而专家经验必然有偏好性,不一定能够发现最优合成路线。
[0003]随着现代计算机及人工智能技术的发展,逐渐衍生出了计算机辅助逆合成的方法,计算机辅助逆合成可分成两个核心算法:单步逆合成预测算法、多步路径搜索算法。对于单步逆合成预测,按照是否使用模板主要可分为两种,一种是基于模板的方法、另一种是无模板的方法。
[0004]基于模板的方法主要是依靠核心反应规则,这个反应规则规定了各个原子、键发生的变化以及是否加上离去基团;这些规则要么是专家定义要么是依据算法自动提取。基于模板的单步逆合成算法就好比模板搜索算法,从模板库中寻找合适目标化合物的模板,依靠模板将目标化合物分解成反应物的过程。若目标化合物的实际反应模板不在模板库中,则该方法很难给出正确的单步逆合成结果,这也是该方法的缺点之一。
[0005]无模板是不需要提前定义好规则直接生成反应物的方法,该方法的灵活性较强,但目前由于数据量的限制,无模板的方法效果弱于基于模板的方法。无论是基于模板的预测方法还是无模板的预测方法,第一步都是通过对分子进行表征生成模型的输入。常见的分子表征方式主要有两种,一种是基于分子的SMILES表达式、另一种是基于分子的结构图表示,其通过将原子作为顶点,化学键作为边来定义结构图。但这些表征方式都不能很好地表达分子本身的物理意义。相反,量子力学描述符可以更好地对分子内在的物理意义进行表示,例如,静电势可以直观反应出分子内的电子分布情况,一个分子中的静电势正值区域更容易与另一个分子的静电势负值区域相互吸引,进而发生化学反应。由此可见,量子力学描述符信息对于一个分子能否发生化学反应尤为重要。然而目前,在逆合成规划领域中,并没有利用量子力学信息来进行预测的技术方案。

技术实现思路

[0006]为此,本专利技术提供一种基于量子力学描述符信息的化合物逆合成方法及装置,能够有效利用量子力学描述符信息,克服基于模板模型对于模板的依赖,解决单步逆合成准确率低的问题。
[0007]为了实现上述目的,本专利技术提供如下技术方案:基于量子力学描述符信息的化合物逆合成方法,包括反应中心位置预测模型构建,离去基团选择模型构建和反应物预测;反应中心位置预测模型构建包括:对处理后得到的数据集添加量子力学描述符信息,得到带有量子力学描述符特征的分子图;基于GNN模型构建产物反应中心位置预测模型,所述反应中心位置预测模型通过输入的产物进行反应中心位置预测,所述反应中心位置预测模型的输出为预设原子及键作为反应中心的得分;以第一训练数据集为输入优化所述反应中心位置预测模型的参数,以第一验证数据集为输入对所述反应中心位置预测模型的能力进行初步评估,并调整所述反应中心位置预测模型的超参数,得到训练后的所述反应中心位置预测模型,以第一测试数据集为输入对训练后的所述反应中心位置预测模型进行测试,得到最终的反应中心位置预测模型;离去基团选择模型构建包括:分析训练数据集的产物和反应物的原子映射关系,得到每一条反应的离去基团并构建离去基团字典;将含有合成子的数据集划分为第二训练数据集、第二验证数据集和第二测试数据集;基于GNN模型构建离去基团选择模型,所述离去基团选择模型输入为产物的分子结构图,合成子的分子结构图和上一条反应数据的离去基团的分子结构图;以第二训练数据集为输入优化所述离去基团选择模型参数,以第二验证数据集为输入对所述离去基团选择模型进行初步评估,以第二测试数据集为输入对训练后的所述离去基团选择模型进行测试,得到最终的离去基团选择模型;反应物预测包括:通过所述反应中心位置预测模型得到产物的合成子,再通过所述离去基团选择模型得到离去基团;在合成子上添加离去基团,得到最终的预测反应物反应。
[0008]作为基于量子力学描述符信息的化合物逆合成方法优选方案,反应中心位置预测模型构建过程,以公开数据集作为原始数据集,所述原始数据集包括SMILES描述的化学反应方程;对所述原始数据集中的原始数据进行清洗过滤,对产物的SMILES表达式进行规范化处理,重新构建原子映射得到预处理后的数据集;将处理后得到的数据集划分为第一训练数据集、第一验证数据集和第一测试数据集;对所述原始数据集中的原始数据进行清洗过滤包括:对于原始数据集中的化学反应,过滤掉含有不符合设定规则SMILES表达式的数据;对于原始数据集中的化学反应,删除有重复的数据。
[0009]作为基于量子力学描述符信息的化合物逆合成方法优选方案,反应中心位置预测模型构建过程,对产物的SMILES表达式进行规范化处理包括:对清洗过滤后的数据集,使用化学信息处理工具包RDKit对SMILES表达式进行规
范化处理;对于规范化后的数据集,重新按照反应物与产物的对应关系构建新的原子映射,得到预处理后数据集。
[0010]作为基于量子力学描述符信息的化合物逆合成方法优选方案,对处理后得到的数据集添加量子力学描述符信息过程中,将产物中的原子看作分子图的节点,将产物中的键看作分子图的边,分别构建节点以及边的量子力学特征,得到最终的带有量子力学描述符特征的分子图。
[0011]作为基于量子力学描述符信息的化合物逆合成方法优选方案,所述反应中心位置预测模型包括:第一MPN层:用于对输入带有量子力学描述符信息的分子图获得对应的原子表示;第一全连接层:用于获得原子发生变化的得分和化学键发生变化的得分;第一激活函数:用于给所述反应中心位置预测模型加入非线性因素,增强所述反应中心位置预测模型的表达能力;第一损失函数:所述第一损失函数采用cross

entropy函数,用于作为所述反应中心位置预测模型的学习优化目标。
[0012]作为基于量子力学描述符信息的化合物逆合成方法优选方案,所述离去基团选择模型包括:第二MPN层:用于对输入带有量子力学描述符信息的分子图获得对应的原子表示;第二全连接层:用于获得离去基团的概率分布;第二激活函数:用于给所述离去基团选择模型加入非线性因素,增强所述离去基团选择模型的表达能力;第二损失函数:用于作为所述离去基团选择模型的学习优化目标。
[0013]作为基于量子力学描述符信息的化合物逆合成方法优选方案,离去基团选择模型构建过程中,将产物在原子发生变化得分最高和化学键发生变化得分最高的位置断键,得到合成子。
[0014]本专利技术还本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于量子力学描述符信息的化合物逆合成方法,其特征在于,包括反应中心位置预测模型构建,离去基团选择模型构建和反应物预测;反应中心位置预测模型构建包括:对处理后得到的数据集添加量子力学描述符信息,得到带有量子力学描述符特征的分子图;基于GNN模型构建产物反应中心位置预测模型,所述反应中心位置预测模型通过输入的产物进行反应中心位置预测,所述反应中心位置预测模型的输出为预设原子及键作为反应中心的得分;离去基团选择模型构建包括:分析训练数据集的产物和反应物的原子映射关系,得到每一条反应的离去基团并构建离去基团字典;将含有合成子的数据集划分为第二训练数据集、第二验证数据集和第二测试数据集;基于GNN模型构建离去基团选择模型,所述离去基团选择模型输入为产物的分子结构图,合成子的分子结构图和上一条反应数据的离去基团的分子结构图;以第二训练数据集为输入优化所述离去基团选择模型参数,以第二验证数据集为输入对所述离去基团选择模型进行初步评估,以第二测试数据集为输入对训练后的所述离去基团选择模型进行测试,得到最终的离去基团选择模型;反应物预测包括:通过所述反应中心位置预测模型得到产物的合成子,再通过所述离去基团选择模型得到离去基团;在合成子上添加离去基团,得到最终的预测反应物反应。2.根据权利要求1所述的基于量子力学描述符信息的化合物逆合成方法,其特征在于,反应中心位置预测模型构建过程,以公开数据集作为原始数据集,所述原始数据集包括SMILES描述的化学反应方程;对所述原始数据集中的原始数据进行清洗过滤,对产物的SMILES表达式进行规范化处理,重新构建原子映射得到预处理后的数据集;将处理后得到的数据集划分为第一训练数据集、第一验证数据集和第一测试数据集;对所述原始数据集中的原始数据进行清洗过滤包括:对于原始数据集中的化学反应,过滤掉含有不符合设定规则SMILES表达式的数据;对于原始数据集中的化学反应,删除有重复的数据。3.根据权利要求2所述的基于量子力学描述符信息的化合物逆合成方法,其特征在于,反应中心位置预测模型构建过程,对产物的SMILES表达式进行规范化处理包括:对清洗过滤后的数据集,使用化学信息处理工具包RDKit对SMILES表达式进行规范化处理;对于规范化后的数据集,重新按照反应物与产物的对应关系构建新的原子映射,得到预处理后数据集。4.根据权利要求3所述的基于量子力学描述符信息的化合物逆合成方法,其特征在于,对处理后得到的数据集添加量子力学描述符信息过程中,将产物中的原子看作分子图的节点,将产物中的键看作分子图的边,分别构建节点以及边的量子力学特征,得到最终的带有
量子力学描述符特征的分子图。5.根据权利要求1所述的基于量子力学描述符信息的化合物逆合成方法,其特征在于,所述反应中心位置预测模型包括:第一MPN层:用于对输入带有量子力学描述符信息的分子图获得对应的原子表示;第一全连接层:用于获得原子发生变化的得分和化学键发生变化的得分;第一激活函数:用于给所述反应中心位置预测模型加入非线性因素,增强所述反应中心位置预测模型的表达能力;第一损失函数:所述第一损失函数采用cross

entropy函数,用于作为所述反应中心位置预测模型的学习优化目标。6.根据权利要求1所述的基于量子力学描述符信息的化合物逆合成方法,其特征在于,所述离去基团选择模型包括:第二MPN层:用于对输入带有量子力学描述符信息的分子图获得对应的原子表示;第二全连接层:用于获得离去基团的概率分布;第二激活函数:用于给所述离去基团选择模型加入非线性因素,增强所述离去基团选择模型的表达能力;第二损失函数:用于作为所述离去基团选择模型的学习优化目标。7.根据权利要求1所述的基于量子力学描述符信息的化合物逆合成方法,其特征在于,离去基团选择模型构建过程中,将产物在原子发生变化得分最高和化学键发生变化得分最高的位置断键,得到合成子。8.基于量子力学描述符信息的化合物逆合成装置,其特征在于,包括反应中心位置预测模型构建模块,离去基团选...

【专利技术属性】
技术研发人员:祝艺玮李中伟柳彦宏鲍雨任庆叶玉杰
申请(专利权)人:烟台国工智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1