持续学习下自校正单步逆合成方法、终端、服务器及系统技术方案

技术编号：36300973 阅读：58 留言：0更新日期：2023-01-13 10:16

本发明专利技术公开了一种持续学习下自校正单步逆合成方法、终端、服务器及系统，属于逆合成预测技术领域，方法包括：基于模型预测输入目标产物的多个反应物；计算预测任务中模型的费舍尔信息矩阵，进而基于弹性权重巩固得到自校正任务的损失函数；基于无效反应物构建自校正任务的数据集；根据数据集、损失函数对模型进行语法校正训练。本发明专利技术根据费舍尔信息矩阵计算得到对同一模型进行语法校正训练的损失函数，结合无效反应物构建的自校正任务数据集对模型进行语法校正训练，使该模型执行自校正任务时仍能记住预测任务中的重要参数信息，在节约计算和存储内存开销的同时实现了语法矫正，进而大大提升了模型的预测准确性。而大大提升了模型的预测准确性。而大大提升了模型的预测准确性。

全部详细技术资料下载

【技术实现步骤摘要】
持续学习下自校正单步逆合成方法、终端、服务器及系统

[0001]本专利技术涉及逆合成预测
，尤其涉及一种基于持续学习下自校正单步逆合成方法、终端、服务器及系统。

技术介绍

[0002]在化学领域，有机合成是现代化学社会的基本支柱之一，因为它提供了从药物到材料的各种化合物。通过递归地将其分解为一组可用的反应构建块，广泛构建了所需有机化合物的合成路线，这种分析模式被称为逆合成。逆合成预测是有机合成的基本挑战之一，其任务是在给定核心产物的情况下有效地预测反应物。
[0003]逆合成需要化学家预测给定化合物的反应物信息。由于分子可能有多种可能的分解方式，因此目标化合物的逆合成分析通常会导致大量可能的合成路线。选择合适的合成路线具有挑战性，因为路线之间的差异很细微，通常取决于全局结构。因此，即使对于最优秀的化学家来说，为复杂分子规划逆合成路线仍然具有挑战性。
[0004]随着机器学习的发展，计算机辅助合成规划因其能大大节省传统逆合成方法的时间和精力而受到广泛关注。在相关技术中，基于模板的方法依赖于外部模板数据库，其能从反应数据库中自动提取模板并将规则应用于选定的相关模板，具有较好的预测精度。然而基于模板的方法存在不完整的覆盖问题，并不能推断模板库所覆盖的化学空间之外的反应，因此在发现新的化学反应方面受到限制。
[0005]为克服上述问题，近年来出现了基于机器学习的方法。其采用神经网络对文本表示的反应物和产物进行端到端方式训练，且不需要原子映射的反应示例。同时，基于神经网络的预测方法中分子数据形式不...

【技术保护点】

【技术特征摘要】
1.一种持续学习下自校正单步逆合成方法，其特征在于：其包括以下步骤：基于神经网络模型预测输入目标产物的多个反应物；计算预测任务中神经网络模型的费舍尔信息矩阵，进而基于弹性权重巩固计算得到神经网络模型自校正任务的损失函数L(θ)；基于神经网络模型预测的无效反应物构建自校正任务的数据集；根据自校正任务的数据集、损失函数L(θ)对执行预测任务的神经网络模型进行语法校正训练，得到预测目标模型。2.根据权利要求1所述的持续学习下自校正单步逆合成方法，其特征在于：所述神经网络模型预测输入目标产物的多个反应物前还包括预测任务训练子步骤：读取包括目标产物的简化分子线性输入规范和反应物的简化分子线性输入规范的化学反应数据集；基于化学反应数据集对神经网络模型进行训练，得到用于进行预测任务的神经网络模型。3.根据权利要求2所述的持续学习下自校正单步逆合成方法，其特征在于：所述化学反应数据集为经数据增强处理的数据集，数据增强处理为：基于给定分子的简化分子线性输入规范，生成给定分子的多个简化分子线性输入规范表示。4.根据权利要求2所述的持续学习下自校正单步逆合成方法，其特征在于：所述基于化学反应数据集对神经网络模型进行训练时，根据神经网络模型的交叉损失函数度量模型的预测性能，交叉损失函数L(y，m)的计算式为：其中， i,K分别为求和符号的上下限，表示编号；y表示神经网络模型的预测序列；m表示目标分子序列。5.根据权利要求1所述的持续学习下自校正单步逆合成方法，其特征在于：所述费舍尔信息矩阵的计算方式为：计算神经网络模型预测任务中各模型参数的梯度，将平均梯度作为费舍尔信息矩阵。6.根据权利要求1所述的持续学习下自校正单步逆合成方法，其特征在于：所述自校正任务的损失函数L(θ)的计算式为：其中，L
B

【专利技术属性】
技术研发人员：曹雪梅，杨柳青，王中健，
申请(专利权)人：药融云数字科技成都有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人