一种基于深度学习的逆合成预测方法、装置、介质及设备制造方法及图纸

技术编号:32774689 阅读:50 留言:0更新日期:2022-03-23 19:30
本发明专利技术提供了一种基于深度学习的逆合成预测方法、装置、介质及设备;其中,方法包括如下步骤:将目标产物转换为SMILES序列;对SMILES序列进行结构信息的提取,结构信息包括度信息和邻接矩阵信息;进行编码得到度信息编码和邻接信息编码;将SMILES序列输入Transformer模型编码器中,并利用度信息编码和邻接信息编码来优化对SMILES序列的编码;Transformer模型将编码器的编码结果输入到解码器中进行解码,得到反应物集合的SMILES序列,进而转换得到相应的反应物。该方法解决了SMILES序列不能充分考虑分子结构信息的问题,提高了模型预测结果的准确度。提高了模型预测结果的准确度。提高了模型预测结果的准确度。

【技术实现步骤摘要】
一种基于深度学习的逆合成预测方法、装置、介质及设备


[0001]本专利技术涉及逆合成预测
,更具体地说,涉及一种基于深度学习的逆合成预测方法、装置、介质及设备。

技术介绍

[0002]如今,有机合成已经成为化学领域中最为重要的学科之一,其研究内容遍布材料、能源、生命等各个学科,在社会文明发展与人们日常生活中发挥着极其重要的作用。有机合成是指利用化学方法将单质、简单的无机物或简单的有机物制成比较复杂的有机物的过程。近年来,计算机辅助合成设计(Computer

Assisted Synthetic Planning,CASP)的技术发展迅速,尤其逆合成设计为化学家们在药物合成方面带来了极大的便利。逆合成设计旨在为某个产物分子找到一系列可商购获得的反应物,逆合成预测即在给定目标有机化合物的基础上,预测其对应的反应物的过程。
[0003]传统的逆合成预测方法大多数都是基于模板的,基于模板的方法在已有的化学反应的基础上,提取逆合成反应中心模板,然后将产物和已提取的反应中心模板进行匹配,根据匹配到的模板来预测反应物的集合。由于基于模板的方法所提取的模板都是基于已知的化学反应的,总存在一些反应是无法匹配到已经提取的模板的,对于这些反应,模型最终得到的逆合成预测结果通常是不理想的,因此,基于模板的方法存在泛化性不足的问题。
[0004]近年来,随着人工智能的兴起和发展,应用深度学习的新尝试逐渐进入人们的视野,逆合成预测任务也被视为一个深度学习任务加以研究。利用深度学习进行逆合成预测的方法主要分为两类,一类是基于逆合成分析法的方法,另一类是端到端的方法。基于逆合成分析法的方法将逆合成预测任务分为两步,第一步用一个模型识别出产物的反应中心,然后断开反应中心得到多个合成子;第二步用另一个模型将多个合成子转换成相应的反应物集合。基于逆合成分析法的方法具有一定的可解释性,但实现的过程较为繁琐。端到端的方法将逆合成预测任务视为一个序列到序列的翻译任务,具体来说,产物和反应物都可以表示成一个确定的序列,这种序列称为简化分子线性输入规范(Simplified molecular input line entry specification,SMILES),因此,可以将逆合成预测任务视为产物SMILES序列到反应物SMILES序列的转换过程。端到端的方法可以一步实现逆合成预测,但是仅采用SMILES序列并不能充分考虑分子的结构信息。
[0005]综上,目前基于深度学习的逆合成预测方法存在改进空间。

技术实现思路

[0006]为克服现有技术中的缺点与不足,本专利技术的目的在于提供一种基于深度学习的逆合成预测方法、装置、介质及设备;该方法解决了SMILES序列不能充分考虑分子结构信息的问题,提高了模型预测结果的准确度。
[0007]为了达到上述目的,本专利技术通过下述技术方案予以实现:一种基于深度学习的逆合成预测方法,包括如下步骤:
[0008]S1步,将目标产物转换为相应的SMILES序列;对SMILES序列进行结构信息的提取,结构信息包括分子中原子的度信息以及表示分子间原子之间连接状况的邻接矩阵信息;
[0009]S2步,对度信息进行编码得到度信息编码;对邻接矩阵信息进行编码得到邻接信息编码;
[0010]S3步,将SMILES序列输入Transformer模型编码器中,并利用度信息编码和邻接信息编码来优化对SMILES序列的编码;Transformer模型将编码器的编码结果输入到解码器中进行解码,得到反应物集合的SMILES序列;将反应物集合的SMILES序列进行转换得到相应的反应物;
[0011]所述Transformer模型是指经过训练和测试处理的Transformer模型。
[0012]优选地,所述S1步中,对SMILES序列进行提取:对于度信息,将SMILES序列中每个原子的度信息分别设定为与原子相关联的键数量,除原子外的特殊符号的度信息分别设定为
‘0’
;对于邻接矩阵信息,将两个原子之间相连的邻接矩阵信息的对应位置设定为
‘1’
,两个原子之间不相连的邻接矩阵信息的对应位置设定为
‘0’
,其余对应位置设定为

N


[0013]优选地,所述S2步中,将度信息的每个符号当作一个单词,构建出相应的词汇表,通过词汇表将度信息转换成相应的one

hot向量;将one

hot向量转换为相应的度信息编码:
[0014]d
emb
=dW
d
[0015]其中,d的维度为度信息词汇表的长度,W
d
为可学习的参数矩阵,d
emb
为d对应的度信息编码,维度为SMILES序列每个符号的词向量维度。
[0016]优选地,将邻接矩阵信息的每个符号当作一个单词,构建出相应的词汇表,通过词汇表将邻接矩阵信息转换成相应的one

hot向量;将one

hot向量转换为相应的邻接信息编码,由邻接信息编码构造出head个邻接信息编码矩阵:
[0017]a
emb
=aW
a
[0018]其中,a的维度为邻接矩阵信息词汇表的长度,W
a
为可学习的参数矩阵,a
emb
为a对应的邻接信息编码,维度为Transformer编码器中多头自注意力层的注意力头数head。
[0019]优选地,所述S3步,将度信息编码和SMILES序列的词向量进行相加作为Transformer模型编码器输入;将邻接信息编码嵌入到Transformer模型编码器的多头自注意层,以通过邻接信息来调整SMILES序列中原子间的注意力关系。
[0020]优选地,所述将邻接信息编码嵌入到Transformer模型编码器的多头自注意层,是指:将邻接信息编码矩阵和Transformer模型编码器的多头自注意层中的注意力系数矩阵进行点乘:
[0021][0022]其中,Q
i
、K
i
分别表示第i个注意力头的Query矩阵、Key矩阵,d
k
表示key矩阵的维度,A
i
表示第i个邻接信息编码矩阵。
[0023]一种基于深度学习的逆合成预测装置,包括:
[0024]结构信息提取模块,用于将目标产物转换为相应的SMILES序列;对SMILES序列进行结构信息的提取,结构信息包括分子中原子的度信息以及表示分子间原子之间连接状况
的邻接矩阵信息;
[0025]信息编码模块,用于对度信息进行编码得到度信息编码;对邻接矩阵信息进行编码得到邻接信息编码;
[0026]预测模块,用于将SMILES序列输入Transformer模型编码器中,并利用度信息编码和邻接信息编码来优化对SMILES序列的编码;T本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的逆合成预测方法,其特征在于:包括如下步骤:S1步,将目标产物转换为相应的SMILES序列;对SMILES序列进行结构信息的提取,结构信息包括分子中原子的度信息以及表示分子间原子之间连接状况的邻接矩阵信息;S2步,对度信息进行编码得到度信息编码;对邻接矩阵信息进行编码得到邻接信息编码;S3步,将SMILES序列输入Transformer模型编码器中,并利用度信息编码和邻接信息编码来优化对SMILES序列的编码;Transformer模型将编码器的编码结果输入到解码器中进行解码,得到反应物集合的SMILES序列;将反应物集合的SMILES序列进行转换得到相应的反应物;所述Transformer模型是指经过训练和测试处理的Transformer模型。2.根据权利要求1所述的基于深度学习的逆合成预测方法,其特征在于:所述S1步中,对SMILES序列进行提取:对于度信息,将SMILES序列中每个原子的度信息分别设定为与原子相关联的键数量,除原子外的特殊符号的度信息分别设定为
‘0’
;对于邻接矩阵信息,将两个原子之间相连的邻接矩阵信息的对应位置设定为
‘1’
,两个原子之间不相连的邻接矩阵信息的对应位置设定为
‘0’
,其余对应位置设定为

N

。3.根据权利要求1所述的基于深度学习的逆合成预测方法,其特征在于:所述S2步中,将度信息的每个符号当作一个单词,构建出相应的词汇表,通过词汇表将度信息转换成相应的one

hot向量;将one

hot向量转换为相应的度信息编码:d
emb
=dW
d
其中,d的维度为度信息词汇表的长度,W
d
为可学习的参数矩阵,d
emb
为d对应的度信息编码,维度为SMILES序列每个符号的词向量维度。4.根据权利要求3所述的基于深度学习的逆合成预测方法,其特征在于:将邻接矩阵信息的每个符号当作一个单词,构建出相应的词汇表,通过词汇表将邻接矩阵信息转换成相应的one

hot向量;将one

hot向量转换为相应的邻接信息编码,由邻接信息编码构造出head个邻接信息编码矩阵:a
emb
=aW
...

【专利技术属性】
技术研发人员:陈俊龙黄国彬孟献兵
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1