一种基于原子特征传递网络的小分子单步逆合成预测方法技术

技术编号:37277622 阅读:30 留言:0更新日期:2023-04-20 23:44
本发明专利技术公开了一种基于原子特征传递网络的小分子单步逆合成预测方法,设计了一个分子单步逆合成预测模型RetroAFPNN,基于原子特征传递网络AFPNN提出了一个目标分子断裂位点的识别模型,基于全连接层提出了一个反应物推荐模型SR

【技术实现步骤摘要】
一种基于原子特征传递网络的小分子单步逆合成预测方法


[0001]本专利技术属于计算机辅助药物研发
,具体涉及一种基于原子特征传递网络的小分子单步逆合成预测方法。

技术介绍

[0002]治疗特定疾病药物的研发,从最初的实验室研究、临床试验到最终上市,都是一个高投资、高风险、长周期的项目。现代药物开发旨在通过在药物发现阶段和临床前阶段使用机器学习技术,如靶标识别和验证、虚拟筛选、先导物优化等,加快中间过程和降低成本。尽管在过去的几十年里取得了重大进展,但有机合成仍然是药物发现的一个难题。在早期,一直由化学领域的专家依靠自身资深的经验完成这个任务,这对于他们的背景要求是非常高的,而且受制于人脑算力不足,依靠专家经验推荐一条合成路径最少需要3h。逆合成计划的目的是将目标分子转化为更容易获得的前体,找到有效的合成途径。
[0003]近年来,计算机辅助合成规划(computer

assisted synthetic planning,CASP)的快速发展,特别是逆合成预测得到了广泛关注,它为目标分子每设计对应的合成路径仅仅需要5

10分钟;而且它还可以同时推荐出多条需要不同底物的合成路线,研究人员可以根据自己的实验条件和需求进行特异性选择。不过当前这些CASP工具存在一个最主要的限制就是,它们所应用的单步逆合成预测策略都是基于模板的预测方法,这种范式思路的做法是将化学反应的规则编码到了计算机中,缺少泛化性,无法对模板之外的药物分子进行逆合成路径的预测,并且,随着新知识的发现,这些模板需要经常更新,这也是一项非常繁琐的工作。因此,无模板单步逆合成预测算法的研究和开发对未来药物研发领域更为重要,本专利技术的主要目的是开发一个无模板的单步逆合成预测模型,为未来药物逆合成路线的设计提供帮助。
[0004]与正向反应预测相反,逆合成是一种从产物分子到廉价和可获得的反应物的反向外推。逆合成分析可以有效地解决复杂分子的合成问题,促进有机合成科学的发展。此外,随着系统生物学实验技术的进步和实验数据的不断积累,大量的生物医学数据已经出现,并为数据划分合理的生物合成设计提供了动力。深度学习(DL)是人工智能机器学习(ML)的一个子领域,它可以直接从原始数据中理解和学习其内在规律和复杂表示。因此,应用深度学习(DL)的新尝试逐渐进入舞台,为化学合成研究开辟了新的范式。
[0005]随着机器翻译的发展越来越受到人们的关注,为无模板提供可能,一些研究人员发现机器翻译和逆合成之间的类比是明显的。目前,大多数无模板单步逆合成任务的研究都基于LSTM、Trasformer等seq2seq算法(以及它们的变体)开发了分子翻译的模型,这类方法忽视了一个重要的问题,那就是药物分子本身做为一个图,它包含丰富了结构信息。因此,许多基于GNN的研究已经出现在了逆合成技术上。它可以通过递归传递分子图的信息来聚合每个原子的表示来学习每个原子的表示。不过它们这类以生成为基础的模型也是存在一个比较明显的不足,那就是缺少了对原子本身属性以及周围原子所带来影响的考虑。然而分子之间能发生化学反应恰恰是因为一些关键的原子起到了足够重要的作用。
[0006]在有机合成领域中,一条唯一且关键的知识就是寻找目标分子中容易断裂的化学键,另一方面,键能是从能量因素衡量化学键强弱的物理量,因此在区别可断裂化学键与其他键的时候,这也是一条重要的需要考虑的指标,不能在设计模型的时候把它忽略掉。基于以上两点,以及其他研究中的不足,本申请设计了一个基于原子特征传递网络与对比学习的深度学习模型RetroAFPNN,用于分析目标分子中易断裂的化学键,进而完成它的单步逆合成预测。

技术实现思路

[0007]本专利技术提供了一种基于原子特征传递网络的小分子单步逆合成预测方法,采用一个无模板的单步逆合成模型RetroAFPNN,解决了一般逆合成工具中不能对模板之外的分子进行预测的问题。并且相对于生成类的模型,本专利技术考虑到其对原子关注度不足的问题,达到了一个更高准确率的表现。
[0008]为实现上述目的,本专利技术所提供的技术解决方案是:
[0009]一种基于原子特征传递网络的小分子单步逆合成预测方法,其特殊之处在于,包括以下步骤:
[0010]1)利用目标分子断裂位点识别模型对断裂位点进行预测
[0011]1.1)构建目标分子断裂位点识别模型
[0012]所述目标分子断裂位点识别模型包括两原子特征传递网络层以及一个全连接层;
[0013]1.2)训练步骤1.1)构建的目标分子断裂位点识别模型
[0014]1.2.1)数据采集
[0015]采集目标分子断裂位点识别模型训练与测试过程中所需的化学反应数据,并将其按比例划分为训练集和测试集;
[0016]1.2.2)数据处理
[0017]将步骤1.2.1)得到的所有化学反应数据处理为Smiles类型数据;
[0018]1.2.3)构建原子的初始特征
[0019]针对步骤1.2.2)得到的数据中的每个化学分子,构建分子中每个原子的初始特征;
[0020]1.2.4)利用两层原子特征传递网络层(Atomic Feature Passing Neural Network,AFPNN)重构1.2.3)得到的原子的初始特征
[0021]构建目标分子的拓扑结构图,通过两层原子特征传递网络层(Atomic Feature Passing Neural Network,AFPNN),聚合每个原子周围与它有连边的其它原子之间的特征来重构该原子的特征,得到该原子重构后的特征;这里AFPNN主要的功能是聚合每个原子周围和它有连边的其他原子之间的特征,以此来重构该原子的特征。
[0022]1.2.5)构建键特征
[0023]通过加和每个键两端原子重构后的特征,来构建所有键的特征,每个键形成一个样本,最终,得到所有分子中所有样本的特征,并对样本标注正负标签y;这里指的是,针对每一个分子中的每一个化学键,都采用加和其两端原子特征的方法构建这个键的特征,每个键都是一个样本,有的是正样本,有的是负样本,其判断依据是看该化学键是否是断裂键,如果是的话,为正样本,否则为负样本。
[0024]1.2.6)通过全连接层模型将键特征映射到一维空间
[0025]利用全连接层(FC)将步骤1.2.5)构建的键特征映射到1维,得到所有键特征映射到1维之后的特征结果
[0026]1.2.7)负反馈调节
[0027]利用交叉熵损失函数计算步骤1.2.6)得到的特征结果与步骤1.2.5)得到的标签y之间的损失,再通过负反馈调节更新所述目标分子断裂位点识别模型中可训练的参数,经过多次训练后得到最终目标分子断裂位点识别模型;
[0028]模型训练时,需要不停的进行重复,以更新模型中的参数,从而使得训练集中对化学键预测得到的标签与它真实的标签之间的差距最小,才能完成模型训练。
[0029]1.3)利用步骤1.2)训本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于原子特征传递网络的小分子单步逆合成预测方法,其特征在于,包括以下步骤:1)利用目标分子断裂位点识别模型对断裂位点进行预测1.1)构建目标分子断裂位点识别模型所述目标分子断裂位点识别模型包括两原子特征传递网络层以及一个全连接层;1.2)训练步骤1.1)构建的目标分子断裂位点识别模型1.2.1)数据采集采集目标分子断裂位点识别模型训练与测试过程中所需的化学反应数据,并将其按比例划分为训练集和测试集;1.2.2)数据处理将步骤1.2.1)得到的所有化学反应数据处理为Smiles类型数据;1.2.3)构建原子的初始特征针对步骤1.2.2)得到的数据中的每个化学分子,构建分子中每个原子的初始特征;1.2.4)利用两层原子特征传递网络层重构1.2.3)得到的原子的初始特征构建目标分子的拓扑结构图,通过两层原子特征传递网络层,聚合每个原子周围与它有连边的其它原子之间的特征来重构该原子的特征,得到该原子重构后的特征;1.2.5)构建键特征通过加和每个键两端原子重构后的特征,来构建所有键的特征,每个键形成一个样本,最终,得到所有分子中所有样本的特征,并对样本标注正负标签y;1.2.6)通过全连接层模型将键特征映射到一维空间利用全连接层将步骤1.2.5)构建的键特征映射到1维,得到所有键特征映射到1维之后的特征结果1.2.7)负反馈调节利用交叉熵损失函数计算步骤1.2.6)得到的特征结果与步骤1.2.5)得到的标签y之间的损失,再通过负反馈调节更新所述目标分子断裂位点识别模型中可训练的参数,经过多次训练后得到最终目标分子断裂位点识别模型;1.3)利用步骤1.2)训练好的目标分子断裂位点识别模型对目标分子的断裂位点进行预测;2)利用合成子到反应物的转换模型SR

FC,推荐对应的反应物2.1)针对目标分子,以步骤1)预测的断裂键为中心,获得拓扑深度为s的子结构作为代表该目标分子核心结构;2.2)通过Rdkit中的函数将目标分子在正确的断裂位置断裂,形成合成子;2.3)将步骤2.2)得到的合成子与其所对应的反应物进行比较,统计两者之间的差异结构,构建合成子到反应物转换时所需要添加额外基团的数据库;2.4)将步骤2.3)得到的额外基团两两组合,并进行One

Hot编码,组成多组标签;2.5)通过MACCSkeys提取步骤2.1)所得目标分子核心结构的分子指纹特征,再通过两层全连接层构建其与步骤2.4)所得标签之间的函数映射关系,经过迭代训练,得到合成子到反应物的转换模型SR

FC;
2.6)利用步骤2.5)得到的合成子到反应物的转换模型SR

FC,推荐对应的反应物,完成逆合成预测。2.根据权利要求1所述一种基于原子特征传递网络的小分子单步逆合成预测方法,其特征在于:步骤1.2.1)中,所述化学反应数据均从美国USPTO中采集,其中包含50K条化学反应数据。3.根据权利要求1或2所述一种基于原子特征传递网络的小分子单步逆合成预测方法,其特征在于:步骤1.2.2)中,采用Rdkit中对化学反应读取的算法来整理步骤1.2.1)采集到的化学反应数据,将所有化学反应数据处理成统一标准的Smiles类型数据。4.根据权利要求3所述一种...

【专利技术属性】
技术研发人员:施建宇赵鹏程韦学鑫王琼朱蓓
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1