基于断键点位提示的有机反应单步逆合成方法及装置制造方法及图纸

技术编号：41280052 阅读：3 留言：0更新日期：2024-05-11 09:30

基于断键点位提示的有机反应单步逆合成方法及装置，该方法对原始数据进行清洗处理，标注产物SMILES表达式的断键位置，构建产物SMILES表达式的分子图，构建化合物断键点位提示生成模型，将产物SMILES表达式的分子图输入化合物断键点位提示生成模型，生成含有断键点位提示的产物SMILES表达式；构建单步逆合成预测模型，将含有断键点位提示的产物SMILES表达式输入单步逆合成预测模型，输出预测反应物。本发明专利技术使用基于提示学习来减轻从训练数据集继承的模型偏差，解决单步逆合成方法准确率低的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于有机反应逆合成预测，具体涉及一种基于断键点位提示的有机反应单步逆合成方法及装置。

技术介绍

1、有机反应逆向合成预测是由目标分子出发，将复杂的分子结构逐渐简化，向前一步步推导出所需简单的起始原料。每一步推导目标分子的前体可分为两个部分：一是确定合适的断开点位，二是选择最佳官能团进行结合。但是断开点位的选择常常会受到专家领域知识的影响，从而在一定程度上影响预测结果的准确性。对于包含训练数据集固有化学反应偏差的数据驱动方法也是如此。

2、目前，随着现代计算机及人工智能技术的发展，逐渐衍生出了计算机辅助逆合成的方法。在计算机辅助化合物逆合成中，结合基于语言模型transformer网络框架的高准确性，易用性和可扩展性的特点，能够直接从原始数据中学习化学转化规则不需要人工额外地对化学规则进行编码，作为翻译任务来对反应物进行预测。然而，由于数据驱动的方法含有训练集数据的偏差，导致预测的准确性有所下降，降低了计算机辅助逆合成的有效性。

3、因此，如何解决单步逆合成方法准确率低的问题，成为亟需解决的问题。本文使用提示学习减少训练数据集中继承的模型偏差，具体方法是引入指定断开连接位置的提示，将深度学习算法与该领域的经验相结合，从而使得基于语言模型transformer网络框架的单步逆合成预测模型可以沿着输入提示词的方向进行推理学习，进而提高预测反应类别的多样性的同时提升单步预测模型的鲁棒性及准确性。

技术实现思路

1、为此，本专利技术提供一种基于断键点位提示的

2、为了实现上述目的，本专利技术提供如下技术方案：基于断键点位提示的有机反应单步逆合成方法，包括：

3、对原始数据集进行清洗过滤；通过化学信息处理工具包对清洗过滤后的数据集的smiles表达式进行规范化处理；对规范化后的数据集，重新按照反应物与产物的对应关系构建原子映射，并输出清洗处理后的数据集；

4、标注产物smiles表达式的断键位置，对重新构建的原子映射的数据集，通过识别反应物与产物之间键序不同的原子，判断化合物中发生变化的原子和键，从产物smiles表达式中提取提示；对产物中发生变化的原子和键，在产物smiles表达式中进行标注后，删掉原子映射；

5、构建产物smiles表达式的分子图，将产物中的原子看作分子图的节点，将产物中的键看作分子图的边；分别构建分子图的节点以及边，得到最终的分子结构图；

6、基于gnn模型构建一个初步的化合物断键点位提示生成模型；将清洗处理后的数据集划分为训练集、验证集和测试集三个数据子集；将训练集数据作为优化参数输入所述化合物断键点位提示生成模型，将验证集数据输入所述化合物断键点位提示生成模型，对所述化合物断键点位提示生成模型的能力进行初步评估；调整所述化合物断键点位提示生成模型的超参数，得到训练后的所述化合物断键点位提示生成模型；将测试集数据输入训练后的所述化合物断键点位提示生成模型进行测试，得到最终的所述化合物断键点位提示生成模型；

7、生成含有断键点位提示的产物smiles表达式，将产物的分子图输入所述化合物断键点位提示生成模型，通过所述化合物断键点位提示生成模型进行化合物断键点位标注，根据各个节点以及边作为断键点位的概率，输出对断键点位进行标注的产物smiles表达式；

8、基于transformer的翻译模型框架构建一个初步单步逆合成预测模型；将清洗处理后的数据集划分为训练集、验证集和测试集三个数据子集；将训练集数据作为优化参数输入所述初步单步逆合成预测模型，将验证集数据输入所述初步单步逆合成预测模型，对所述初步单步逆合成预测模型的能力进行初步评估；调整所述初步单步逆合成预测模型的超参数，得到训练后的所述初步单步逆合成预测模型；将测试集数据输入训练后的所述初步单步逆合成预测模型进行测试，得到最终的单步逆合成预测模型；

9、将含有断键点位标识的产物smiles输入所述单步逆合成预测模型，通过所述单步逆合成预测模型进行反应物预测，输出预测反应物。

10、作为基于断键点位提示的有机反应单步逆合成方法优选方案，所述化合物断键点位提示生成模型包括mpn层、全连接层、激活函数和损失函数；所述mpn层用于对输入的分子结构图获得其对应的原子表示；所述全连接层用于获得原子发生变化的得分和化学键发生变化的得分；所述激活函数用于给所述化合物断键点位提示生成模型加入非线性因素，增强所述化合物断键点位提示生成模型的表达能力；所述损失函数采用cross-entropy函数作为所述化合物断键点位提示生成模型的学习优化目标。

11、作为基于断键点位提示的有机反应单步逆合成方法优选方案，所述的mpn层中通过以下公式得到对应的原子表示：

12、；

13、式中，表示相邻原子；表示原子的相关特征向量；表示键的相关特征向量；表示构建的分子图；当为时，则使用集合，其中，。

14、作为基于断键点位提示的有机反应单步逆合成方法优选方案，所述全连接层采用两层全连接；所述激活函数采用relu函数得到原子发生变化的得分值和化学键发生变化的得分值，公式如下：

15、；

16、；

17、式中，代表relu激活函数；代表原子发生变化的得分值；代表化学键发生变化的得分值；表示第一层全连接层的权重项；表示通过mpn层得到的原子表示；表示第二层全连接层的权重项；表示得到的键的表示，，其中abs表示绝对差，||表示级联，表示第一层全连接层的丢弃率；表示第二层全连接层的丢弃率；表示第一层全连接层的偏置项；表示第二层全连接层的偏置项。

18、作为基于断键点位提示的有机反应单步逆合成方法优选方案，所述单步逆合成预测模型包括嵌入层、位置编码器、特征编码器和解码器；所述嵌入层用于对含有断键点位标识的产物和反应物提取对应的元素向量；所述位置编码器用于基于元素向量和元素在含有断键点位标识的产物smiles中的位置计算每个元素对应的位置向量；所述特征编码器用于对含有断键位置标识的产物smiles的元素向量以及每个元素向量对应的位置向量为输入进行编码处理，提取并输出产物相关的特征向量；所述解码器用于以产物相关的特征向量，与反应物相关的元素向量及对应的位置向量为输入进行解码处理，输出预测反应物。

19、作为基于断键点位提示的有机反应单步逆合成方法优选方案，所述的位置编码器，通过以下公式得到每个元素对应的位置向量矩阵：

20、；

21、；

22、式中，表示元素在对应含有标识的产物smiles上的位置；表示元素向量的纬度；表示元素向量的位置；表示偶数纬度上的位置编码；表示奇数纬度上的位置编码。

23、作为基于断键点位提示的有机反应单步逆合成方法优选方案，所述特征编码器设有一个多头注意力机制模块，将与产物相关的位置向量本文档来自技高网...

【技术保护点】

1.基于断键点位提示的有机反应单步逆合成方法，其特征在于，包括：

2.根据权利要求1所述的基于断键点位提示的有机反应单步逆合成方法，其特征在于，所述化合物断键点位提示生成模型包括MPN层、全连接层、激活函数和损失函数；所述MPN层用于对输入的分子结构图获得其对应的原子表示；所述全连接层用于获得原子发生变化的得分和化学键发生变化的得分；所述激活函数用于给所述化合物断键点位提示生成模型加入非线性因素，增强所述化合物断键点位提示生成模型的表达能力；所述损失函数采用cross-entropy函数作为所述化合物断键点位提示生成模型的学习优化目标。

3.根据权利要求2所述的基于断键点位提示的有机反应单步逆合成方法，其特征在于，所述的MPN层中通过以下公式得到对应的原子表示：

4.根据权利要求2所述的基于断键点位提示的有机反应单步逆合成方法，其特征在于，所述全连接层采用两层全连接；所述激活函数采用ReLU函数得到原子发生变化的得分值和化学键发生变化的得分值，公式如下：

5.根据权利要求1所述的基于断键点位提示的有机反应单步逆合成方法，其特征在于，

6.根据权利要求5所述的基于断键点位提示的有机反应单步逆合成方法，其特征在于，所述的位置编码器，通过以下公式得到每个元素对应的位置向量矩阵：

7.根据权利要求5所述的基于断键点位提示的有机反应单步逆合成方法，其特征在于，所述特征编码器设有一个多头注意力机制模块，将与产物相关的位置向量矩阵作为所述编码器的输入数据；所述多头注意力机制模块通过公式对输入数据进行缩放采样处理，得到多个特征向量；特征向量的个数与所述多头注意力机制模块的头数相同，将多个特征向量拼接处理后输出。

8.根据权利要求5所述的基于断键点位提示的有机反应单步逆合成方法，其特征在于，所述解码器设有两个多头注意力机制模块，两个多头注意力机制模块分别为第一多头注意力机制模块和第二多头注意力机制模块；所述第一多头注意力机制模块用于对输入的反应物相关的元素向量及其对应的位置向量进行遮蔽处理后输出；所述第二多头注意力机制模块用于对输入的编码器的输出以及第一多头注意力机制模块的输出进行解码处理，输出预测反应物。

9.根据权利要求8所述的基于断键点位提示的有机反应单步逆合成方法，其特征在于，所述遮蔽处理是针对当前被预测的第n个元素，将所述第一多头注意力机制模块中第n个元素之后的元素向量使用Mask字符进行代替。

10.基于断键点位提示的有机反应单步逆合成装置，采用权利要求1至9任一项所述的基于断键点位提示的有机反应单步逆合成方法，其特征在于，包括：

...

【技术特征摘要】

1.基于断键点位提示的有机反应单步逆合成方法，其特征在于，包括：

2.根据权利要求1所述的基于断键点位提示的有机反应单步逆合成方法，其特征在于，所述化合物断键点位提示生成模型包括mpn层、全连接层、激活函数和损失函数；所述mpn层用于对输入的分子结构图获得其对应的原子表示；所述全连接层用于获得原子发生变化的得分和化学键发生变化的得分；所述激活函数用于给所述化合物断键点位提示生成模型加入非线性因素，增强所述化合物断键点位提示生成模型的表达能力；所述损失函数采用cross-entropy函数作为所述化合物断键点位提示生成模型的学习优化目标。

3.根据权利要求2所述的基于断键点位提示的有机反应单步逆合成方法，其特征在于，所述的mpn层中通过以下公式得到对应的原子表示：

4.根据权利要求2所述的基于断键点位提示的有机反应单步逆合成方法，其特征在于，所述全连接层采用两层全连接；所述激活函数采用relu函数得到原子发生变化的得分值和化学键发生变化的得分值，公式如下：

5.根据权利要求1所述的基于断键点位提示的有机反应单步逆合成方法，其特征在于，所述单步逆合成预测模型包括嵌入层、位置编码器、特征编码器和解码器；所述嵌入层用于对含有断键点位标识的产物和反应物提取对应的元素向量；所述位置编码器用于基于元素向量和元素在含有断键点位标识的产物smiles中的位置计算每个元素对应的位置向量；所述特征编码器用于对含有断键位置标识的产物smiles的元素向量以及每个元素向量对应的位置向量为输入进行编码处理，提取并输出产物相关的特征向量；所述...

【专利技术属性】
技术研发人员：李中伟，祝艺玮，叶玉杰，柳彦宏，
申请(专利权)人：烟台国工智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人