基于通用的分子图表示学习模型的逆合成预测方法及装置制造方法及图纸

技术编号：39934983 阅读：6 留言：0更新日期：2024-01-08 22:06

基于通用的分子图表示学习模型的逆合成预测方法及装置，该方法将图的结构、节点特征和边特征输入基于图神经网络的分子图表示学习模型，计算得到所有产物的原子和键的特征表示向量；通过预测层预测所有产物每个原子和键应用每个局部反应模板的概率评分；将目标产物的分子图输入到最终的分子图表示学习模型中，获得目标产物的原子和键应用局部反应模板的评分，获得前top‑k对应的反应类型、反应中心位置、模板id和发生反应概率；根据评分对应的模板id从模板库中提取反应模板，将反应模板应用于产物，获得预测的反应物。本发明专利技术通过逆合成的通用分子图表示学习模型，增强在基于图的逆合成预测中对分子图的表征能力，提高逆合成预测准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于通用的分子图表示学习模型的逆合成预测方法及装置，属于逆合成预测。

技术介绍

1、在实际的生产环境中，化学家们通常致力于为目标分子设计合理的合成路线。目前，一种常见的策略是将目标分子分解为更简单的前体，直到可购买化合物的迭代过程，即逆合成分析。但是，逆合成分析依靠化学家们累积的经验，设计合成路线不仅需要大量的人力和时间，且不同化学家的经验知识存在偏向性，不一定能够设计出最优合成路线。因此，使用深度学习自动化这一过程对于发现和优化合成路线至关重要。

2、传统技术中，基于深度学习的逆合成方法主要分为基于序列的方法和基于图的方法。基于序列的方法通常使用翻译模型（如transformer）直接对分子的表达式进行建模，如smiles。分子结构作为一个天然的图结构，利用图学习模型建模分子图具有天然的优势，因此，基于图的方法将分子构建为图，通过在图上进行消息传递学习原子和键的特征表示。最近，也有一些方法将它们结合起来，先使用图学习模型学习图的结构信息，再将其输入到翻译模型中学习序列信息。大多数利用图的逆合成方法都使用传统的消息传递网络或图神经网络学习原子和键的特征表示，如mpnn、gat等，这些方法不足以表征图中的特征信息和拓扑结构，且局限于分子图的局部表征。

技术实现思路

1、为此，本专利技术提供一种基于通用的分子图表示学习模型的逆合成预测方法及装置，提出一个通用的分子图表示学习模型，增强用于逆合成的图学习模型对分子图的表征能力，解决传统的图神经网络对分子图的表

2、为了实现上述目的，本专利技术提供如下技术方案：基于通用的分子图表示学习模型的逆合成预测方法，包括：

3、对训练集、验证集和测试集中的所有产物生成分子图，所有产物生成的分子图中包括图的结构、节点特征和边特征；

4、将图的结构、节点特征和边特征输入基于图神经网络的分子图表示学习模型，通过所述分子图表示学习模型计算得到所有产物的原子和键的特征表示向量；

5、将通过所述分子图表示学习模型计算得到的所有产物原子和键的特征表示向量输入到预测层，通过所述预测层预测所有产物每个原子和键应用每个局部反应模板的概率评分；

6、以所述训练集为输入优化所述分子图表示学习模型的参数，以所述验证集为输入对所述分子图表示学习模型的能力进行初步评估，保存训练过程中所述验证集损失最小的所述分子图表示学习模型，以所述测试集为输入对训练后的所述分子图表示学习模型进行测试，通过指定测试精度确定最终的所述分子图表示学习模型；

7、对于待预测的目标产物，以待预测的所述目标产物的smiles为输入，构建所述目标产物的分子图；

8、将所述目标产物的分子图输入到最终的所述分子图表示学习模型中，获得所述目标产物的原子和键应用所述局部反应模板的评分，选择前top-k的预测评分，获得前top-k对应的反应类型、反应中心位置、模板id和发生反应概率；

9、根据前top-k预测评分对应的模板id从模板库中提取反应模板，使用rdkit工具包将反应模板应用于产物，获得预测的反应物。

10、作为基于通用的分子图表示学习模型的逆合成预测方法优选方案，对训练集、验证集和测试集中的所有产物生成分子图的方式为：

11、使用rdkit工具包提取smiles分子表达式中原子和键的特征；

12、使用dgl-lifesci工具包根据smiles分子表达式生成分子图，分子图中原子为图的节点，原子之间的化学键为图的边，使用dgl-lifesci将工具包将分子图的结构、原子和键的特征整合为一个dglgraph对象。

13、作为基于通用的分子图表示学习模型的逆合成预测方法优选方案，所述分子图表示学习模型的构建过程中：

14、以公开的数据集uspto作为原始数据集，所述数据集uspto由包括smiles表达式的化学反应方程组成；

15、将所述原始数据集划分为数据子集，所述数据子集包括训练集、验证集和测试集；

16、对所述训练集和所述验证集中的所有反应提取局部反应模板，并根据所述局部反应模板生成所述训练集、所述验证集和所述测试集中所有反应的训练标签。

17、作为基于通用的分子图表示学习模型的逆合成预测方法优选方案，根据所述局部反应模板生成所述训练集、所述验证集和所述测试集中所有反应的训练标签的步骤包括：

18、对所述训练集和所述验证集，通过化学信息处理工具包rdkit对反应的smiles表达式进行处理，提取局部反应模板，包含在原子位置发生反应的原子反应模板和在键位置发生反应的键反应模板，得到模板库；

19、根据所述模板库，对数据集中所有的反应生成标签，提取反应的反应类型、反应中心位置和对应的反应模板id；反应类型表示原子处发生反应或键处发生反应，反应中心位置表示发生反应的原子或键的id，并编码为one-hot形式的标签向量。

20、作为基于通用的分子图表示学习模型的逆合成预测方法优选方案，所述预测层根据节点和边的全局表示，获得每个原子和键应用局部反应模板的概率评分；

21、根据键原始特征调整学习到的键特征所得的评分，得到键的最终预测评分。

22、作为基于通用的分子图表示学习模型的逆合成预测方法优选方案，所述分子图表示学习模型包括：

23、嵌入层，所述嵌入层用于将输入的原子和键稀疏的特征表示向量转化成稠密的特征表示向量，作为消息传递层的输入；

24、消息传递层，所述消息传递层用于聚合目标节点邻居的特征信息，通过迭代实现高阶邻居之间的消息传递，捕捉原子和键的局部反应信息，输出原子和键的局部特征表示；

25、个性化聚合层：所述个性化聚合层用于将所述消息传递层的结果进行组合，为不同的原子和键赋予个性化的层聚合权重，通过加权和聚合所述消息传递层的局部特征表示；

26、全局注意力层：所述全局注意力层以局部特征向量为输入，提取分子的全局反应信息，获得最终的原子和键的特征表示。

27、作为基于通用的分子图表示学习模型的逆合成预测方法优选方案，所述嵌入层将输入的原子和键稀疏的特征表示向量转化成稠密的特征表示向量，作为消息传递层的输入；

28、所述消息传递层通过逐元素乘法融合相邻节点与节点之间边的特征，得到邻居节点向目标节点的消息传递向量；通过一个基于图注意力的聚合方法聚合来自多个目标节点的特征；利用一个平滑归一化方法对节点特征向量进行归一化；通过gru整合节点局部特征与高阶邻居特征，得到节点的第层特征向量；将边两端的节点特征向量输入一个全链接层，获得边的第层特征向量。

29、作为基于通用的分子图表示学习模型的逆合成预测方法优选方案，通过所述个性化聚合层聚合所有消息传递层的节点和边的特征向量，得到节点和边的局部特征向量，并利用注意力机制为每个边和节点赋予个性化的权重；

本文档来自技高网...

【技术保护点】

1.基于通用的分子图表示学习模型的逆合成预测方法，其特征在于，包括：

2.根据权利要求1所述的基于通用的分子图表示学习模型的逆合成预测方法，其特征在于，对训练集、验证集和测试集中的所有产物生成分子图的方式为：

3.根据权利要求1所述的基于通用的分子图表示学习模型的逆合成预测方法，其特征在于，所述分子图表示学习模型的构建过程中：

4.根据权利要求3所述的基于通用的分子图表示学习模型的逆合成预测方法，其特征在于，根据所述局部反应模板生成所述训练集、所述验证集和所述测试集中所有反应的训练标签的步骤包括：

5.根据权利要求1所述的基于通用的分子图表示学习模型的逆合成预测方法，其特征在于，所述预测层根据节点和边的全局表示，获得每个原子和键应用局部反应模板的概率评分；

6.根据权利要求1所述的基于通用的分子图表示学习模型的逆合成预测方法，其特征在于，所述分子图表示学习模型包括：

7.根据权利要求6所述的基于通用的分子图表示学习模型的逆合成预测方法，其特征在于，所述嵌入层将输入的原子和键稀疏的特征表示向量转化成稠密的特征表

8.根据权利要求7所述的基于通用的分子图表示学习模型的逆合成预测方法，其特征在于，通过所述个性化聚合层聚合所有消息传递层的节点和边的特征向量，得到节点和边的局部特征向量，并利用注意力机制为每个边和节点赋予个性化的权重；

9.基于通用的分子图表示学习模型的逆合成预测装置，其特征在于，包括：

10.根据权利要求9所述的基于通用的分子图表示学习模型的逆合成预测装置，其特征在于，所述数据集处理模块中，对训练集、验证集和测试集中的所有产物生成分子图的方式为：

...

【技术特征摘要】

1.基于通用的分子图表示学习模型的逆合成预测方法，其特征在于，包括：

3.根据权利要求1所述的基于通用的分子图表示学习模型的逆合成预测方法，其特征在于，所述分子图表示学习模型的构建过程中：

6.根据权利要求1所述的基于通用...

【专利技术属性】
技术研发人员：李中伟，肖瑞，祝艺玮，却立勇，鲍雨，
申请(专利权)人：烟台国工智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人