一种基于原子特征传递网络的小分子单步逆合成预测方法技术

技术编号：37277622 阅读：30 留言：0更新日期：2023-04-20 23:44

本发明专利技术公开了一种基于原子特征传递网络的小分子单步逆合成预测方法，设计了一个分子单步逆合成预测模型RetroAFPNN，基于原子特征传递网络AFPNN提出了一个目标分子断裂位点的识别模型，基于全连接层提出了一个反应物推荐模型SR

全部详细技术资料下载

【技术实现步骤摘要】
一种基于原子特征传递网络的小分子单步逆合成预测方法

[0001]本专利技术属于计算机辅助药物研发
，具体涉及一种基于原子特征传递网络的小分子单步逆合成预测方法。

技术介绍

[0002]治疗特定疾病药物的研发，从最初的实验室研究、临床试验到最终上市，都是一个高投资、高风险、长周期的项目。现代药物开发旨在通过在药物发现阶段和临床前阶段使用机器学习技术，如靶标识别和验证、虚拟筛选、先导物优化等，加快中间过程和降低成本。尽管在过去的几十年里取得了重大进展，但有机合成仍然是药物发现的一个难题。在早期，一直由化学领域的专家依靠自身资深的经验完成这个任务，这对于他们的背景要求是非常高的，而且受制于人脑算力不足，依靠专家经验推荐一条合成路径最少需要3h。逆合成计划的目的是将目标分子转化为更容易获得的前体，找到有效的合成途径。
[0003]近年来，计算机辅助合成规划(computer
‑
assisted synthetic planning，CASP)的快速发展，特别是逆合成预测得到了广泛关注，它为目标分子每设计对应的合成路径仅仅需要5
‑
10分钟；而且它还可以同时推荐出多条需要不同底物的合成路线，研究人员可以根据自己的实验条件和需求进行特异性选择。不过当前这些CASP工具存在一个最主要的限制就是，它们所应用的单步逆合成预测策略都是基于模板的预测方法，这种范式思路的做法是将化学反应的规则编码到了计算机中，缺少泛化性，无法对模板之外的药物分子进行逆合成路径的预测，并且，随着新知识的发现，...

【技术保护点】

【技术特征摘要】
1.一种基于原子特征传递网络的小分子单步逆合成预测方法，其特征在于，包括以下步骤：1)利用目标分子断裂位点识别模型对断裂位点进行预测1.1)构建目标分子断裂位点识别模型所述目标分子断裂位点识别模型包括两原子特征传递网络层以及一个全连接层；1.2)训练步骤1.1)构建的目标分子断裂位点识别模型1.2.1)数据采集采集目标分子断裂位点识别模型训练与测试过程中所需的化学反应数据，并将其按比例划分为训练集和测试集；1.2.2)数据处理将步骤1.2.1)得到的所有化学反应数据处理为Smiles类型数据；1.2.3)构建原子的初始特征针对步骤1.2.2)得到的数据中的每个化学分子，构建分子中每个原子的初始特征；1.2.4)利用两层原子特征传递网络层重构1.2.3)得到的原子的初始特征构建目标分子的拓扑结构图，通过两层原子特征传递网络层，聚合每个原子周围与它有连边的其它原子之间的特征来重构该原子的特征，得到该原子重构后的特征；1.2.5)构建键特征通过加和每个键两端原子重构后的特征，来构建所有键的特征，每个键形成一个样本，最终，得到所有分子中所有样本的特征，并对样本标注正负标签y；1.2.6)通过全连接层模型将键特征映射到一维空间利用全连接层将步骤1.2.5)构建的键特征映射到1维，得到所有键特征映射到1维之后的特征结果1.2.7)负反馈调节利用交叉熵损失函数计算步骤1.2.6)得到的特征结果与步骤1.2.5)得到的标签y之间的损失，再通过负反馈调节更新所述目标分子断裂位点识别模型中可训练的参数，经过多次训练后得到最终目标分子断裂位点识别模型；1.3)利用步骤1.2)训练好的目标分子断裂位点识别模型对目标分子的断裂位点进行预测；2)利用合成子到反应物的转换模型SR
‑
FC，推荐对应的反应物2.1)针对目标分子，以步骤1)预测的断裂键为中心，获得拓扑深度为s的子结构作为代表该目标分子核心结构；2.2)通过Rdkit中的函数将目标分子在正确的断裂位置断裂，形成合成子；2.3)将步骤2.2)得到的合成子与其所对应的反应物进行比较，统计两者之间的差异结构，构建合成子到反应物转换时所需要添加额外基团的数据库；2.4)将步骤2.3)得到的额外基团两两组合，并进行One
‑
Hot编码，组成多组标签；2.5)通过MACCSkeys提取步骤2.1)所得目标分子核心结构的分子指纹特征，再通过两层全连接层构建其与步骤2.4)所得标签之间的函数映射关系，经过迭代训练，得到合成子到反应物的转换模型SR
‑
FC；
2.6)利用步骤2.5)得到的合成子到反应物的转换模型SR
‑
FC，推荐对应的反应物，完成逆合成预测。2.根据权利要求1所述一种基于原子特征传递网络的小分子单步逆合成预测方法，其特征在于：步骤1.2.1)中，所述化学反应数据均从美国USPTO中采集，其中包含50K条化学反应数据。3.根据权利要求1或2所述一种基于原子特征传递网络的小分子单步逆合成预测方法，其特征在于：步骤1.2.2)中，采用Rdkit中对化学反应读取的算法来整理步骤1.2.1)采集到的化学反应数据，将所有化学反应数据处理成统一标准的Smiles类型数据。4.根据权利要求3所述一种...

【专利技术属性】
技术研发人员：施建宇，赵鹏程，韦学鑫，王琼，朱蓓，
申请(专利权)人：西北工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人