【技术实现步骤摘要】
一种主干反应物的预测方法、模型和模型构建方法
[0001]本专利技术涉及化学和人工智能交叉领域,具体涉及一种主干反应物的预测方法、模型和模型构建方法。
技术介绍
[0002]现有技术(比如CN202110846347.8)所提出的逆合成预测模型(以目标产物作为输入的反应物预测模型),包括但不限于使用基于Transformer、GPT2、GNN等AI深度神经网络的技术方案,在进行化学反应物逆合成预测的实践过程中,多存在预测结果重复性高、差异小、多样性低的问题。具体而言,以CN202110846347.8(专利技术名称“通过使用神经网络合成目标产物的方法和装置”)专利为例,通常使用该专利所描述的技术方案训练得到的反应物预测模型,给定一个目标产物作为输入,模型预测输出的Top
‑
15候选反应物组合,进行主干去重后,剩下的主干不同的候选反应物,平均仅有2
‑
3种。受此限制,基于此类技术方案进一步实现的化学逆合成路线设计软件与装置,最终生成的若干候选路线之间的差异也十分有限,通常达不到化学家所期望的 ...
【技术保护点】
【技术特征摘要】
1.一种主干反应物的预测方法,其特征在于,通过主干反应物预测模型来单步逆向预测主干反应物,即向所述主干反应物预测模型输入目标产物,所述主干反应物预测模型预测后输出预测的主干反应物;所述主干反应物预测模型为使用AI深度神经网络方案,采用若干主干化学反应式的SMILES作为训练集和验证集,经训练和验证得出的AI模型;所述主干化学反应式的SMILES通过以下方法获得:过滤原始的完整化学反应式的SMILES中包含的试剂化合物限制数据表中的试剂化合物的SMILES,得到初步主干化学反应式的SMILES;通过所述初步主干化学反应式的SMILES中的反应物与产物之间的原子映射比对,过滤出在化学反应中不贡献原子的化合物,将所述不贡献原子的化合物的SMILES从所述初步主干化学反应式的SMILES中移除,得到只包含主干反应物和产物的所述主干化学反应式的SMILES;所述试剂化合物限制数据表为若干试剂化合物的SMILES的集合。2.如权利要求1所述的主干反应物预测方法,其特征在于,所述主干化学反应式的SMILES的数量为100万级数据量及以上,300万级数据量及以上,或者500万级数据量及以上;所述试剂化合物的SMILES的数量为100万级数据量及以上,300万级数据量及以上,或者500万级数据量及以上。3.如权利要求1所述的主干反应物预测方法,其特征在于,所述AI深度神经网络方案包括但不限于Transformer、GPT2、GNN中的一种或多种。4.一种主干反应物预测模型,其特征在于,为使用AI深度神经网络方案,采用若干主干化学反应式的SMILES作为训练集和验证集,经训练和验证得出的AI模型,用于单步逆向预测主干反应物,即输入目标产物经过所述主干反应物预测模型预测后输出预测的主干反应物;所述主干化学反应式的SMILES通过以下方法获得:过滤原始的完整化学反应式的SMILES中包含的试剂化合物限制数据表中的试剂化合物的SMILES,得到初步主干化学反应式的SMILES;通过所述初步主干化学反应式的SMILES中的反应物与产物之间的原子映射比对,过滤出在化学反应中不贡献原子的化合物,将所述不贡献原子的化合物的SMILES从所述初步主干化学反应式的S...
【专利技术属性】
技术研发人员:叶豪,马汝建,彭宣嘉,
申请(专利权)人:上海药明康德新药开发有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。