基于深度搜索的生物逆合成预测方法、装置和电子设备制造方法及图纸

技术编号:39184024 阅读:9 留言:0更新日期:2023-10-27 08:31
本发明专利技术涉及生物逆合成技术领域,具体涉及基于深度搜索的生物逆合成预测方法、装置和电子设备,本发明专利技术采用基于深度学习的无规则生物逆合成方法能够预测数据库以外的生物反应,大大提高了预测完整生物逆合成路径的可能性,本发明专利技术既考虑了单步预测结果与源化合物SMILES序列的分子相似度,又考虑了结果分子的合成难度,为路径的优先级提供了合理的依据。同时,本发明专利技术以深度优先搜索策略为基础,保证了返回的路径结果是特定深度和宽度搜索树的全部解,无需多次迭代,优化后的搜索策略,避免了对重复节点的扩展,大大提高了搜索效率,相比现有搜索策略,耗时缩短五倍。耗时缩短五倍。耗时缩短五倍。

【技术实现步骤摘要】
基于深度搜索的生物逆合成预测方法、装置和电子设备


[0001]本专利技术涉及生物逆合成
,尤其涉及基于深度搜索的生物逆合成预测方法、装置和电子设备。

技术介绍

[0002]天然产物(Natural Products)是临床药物开发的主要来源,1981

2020这三十年间获批上市的小分子药物中超过60%是天然产物及其衍生物或类似物。由于从自然界直接提取的方法往往会对生物多样性造成破坏,而天然产物结构中多样的环体系和手性中心导致其化学合成难度较大,因此,异源生物合成是获得复杂天然产物的重要手段。解析天然产物的生物合成途径是实现异源生物合成中最基础的一步,然而现有生物代谢反应数据库中仅涉及到约3万个天然产物,远小于目前已知的天然产物数目。大量天然产物的生物合成途径目前仍然未知,这极大地限制了复杂天然产物的生物合成。
[0003]自从Corey在1960年第一次提出逆合成分析后,该方法成为了设计有机合成路线的重要工具,也是有机合成路线设计的最简单、最基础的方法,帮助化学家对于一些复杂分子完成目标分子的逐步拆解,推导至更为简单、更容易合成的中间体或可购买化合物(available compound,AC),从而获得一系列可靠的分子合成路线。Corey研究组使用了这样的分析技术帮助完成了包括像美登素、阿霉素、赤霉素这类复杂的天然产物的合成,同时也发展了首个可以辅助有机合成路径设计的软件OCSS(organic chemical synthesis simulation,有机化学合成的模拟),开创了计算机辅助有机分子合成的新纪元。此后,世界各地实验室在化学全合成、生物合成以及仿生合成领域均取得了重要成果。同时,化学合成路线设计的标准化流程也使得计算机参与成为可能。
[0004]目前,生物逆合成方法大致可以分为两类:基于知识的方法和基于规则的方法。基于知识的方法根据现有的反应数据库列举可能的生物合成路径,并通过化学相似性和底盘等评分函数对建议的路线进行排序,基于知识的生物逆合成方法仅对数据库中的天然产物有用,当复杂的天然产物的合成反应不在数据库中时,该方法通常就不适用了;基于模板或规则的方法将查询的分子与广义的反应规则的集合相匹配,基于规则的方法需要由专家来手动汇总生物反应规则,或从反应数据库中自动提取。因此这种方法也无法预测规则数据库以外的反应,另外制定专家认可的规则复杂且耗时。虽然已有基于数据库和反应规则的生物合成路径预测工具,但由于本身已知的酶反应数量不足,且由于不同酶的催化杂泛性和专一性也不同,导致现有反应规则或模板无法很好地反映酶的催化功能。因此,对于以酶催化反应为主的生物合成来说,现有基于模板的方法给出的反应路径在实际中常常无法通过相应的酶来催化,并且对于许多生源合成步骤较长,结构较复杂的天然产物,并没有相似度较高的反应模板与之匹配。同时单步反应的预测误差在多步的反应路径预测中会不断积累,因此对于天然产物生物合成路径预测来说,存在单步反应的预测精度低的现象,现有技术中无法预测数据库以外的生物逆合成路径,以及现有的搜索算法对逆合成路径的搜索效率较差。
[0005]申请公开号为CN114360659A的中国专利,公开了一种结合与或树与单步反应规则预测的生物逆合成方法及系统,通过基于单步反应规则预测模型预测能生成产物分子的代谢反应规则,并对与或树进行扩展,可以实现合成路径的生成,但其公开的单步反应规则预测模型存在不能预测数据库以外的生物逆合成路径的问题,且缺乏对路径搜索策略的优化,无法提升对逆合成路径的搜索效率。

技术实现思路

[0006]本专利技术提供了基于深度搜索的生物逆合成预测方法、装置和电子设备,以解决现有技术中无法预测数据库以外的生物逆合成路径的问题以及逆合成路径的搜索效率慢的问题。
[0007]本说明书实施例提供了基于深度搜索的生物逆合成预测方法,包括:
[0008]获取源化合物SMILES(Simplified Molecular Input Line Entry System,一种用于输入和表示分子反应的线性符号)序列,对所述源化合物SMILES序列进行分词处理;
[0009]利用化合物编码字典对分词处理后的源化合物SMILES序列进行编码,得到化合物编码;
[0010]将所述化合物编码输入到单步逆合成预测模型,预测得到多个候选前体;
[0011]利用化合物编码字典对所述候选前体进行解码;
[0012]对解码后的候选前体执行深度优先搜索策略,得到最终预测的生物合成路径。
[0013]优选的,在获取源化合物SMILES序列之前,包括:
[0014]建立化合物编码字典;
[0015]利用自然语言处理技术中的Transformer模型构建单步逆合成预测模型;
[0016]对深度优先搜索策略中的参数进行设定。
[0017]优选的,所述建立化合物编码字典,包括:
[0018]采集化合物SMILES序列数据,通过正则表达式对所述化合物SMILES序列进行分词处理;
[0019]对分词处理后的化合物SMILES序列数据建立相应的编码,得到化合物编码字典。
[0020]优选的,所述对深度优先搜索策略中的参数进行设定,包括:
[0021]设置搜索算法的超参数;
[0022]设置搜索的最大路径长度;
[0023]定义有向无环图,并初始化所述有向无环图;
[0024]定义当前路径列表。
[0025]优选的,所述对解码后的候选前体执行深度优先搜索策略,得到最终预测的生物合成路径,包括:
[0026]利用编程语言中的rdkit库对解码后的候选前体进行分子正确性检查,得到合理逆合成预测结果;
[0027]计算分子正确性检查合格的候选前体与所述源化合物的SMILES序列的分子相似度、结果分子的合成难度;
[0028]根据分子相似度、结果分子的合成难度对分子正确性检查合格的候选前体进行排序,得到优先级序列;
[0029]根据所述优先级序列依次对所述候选前体中的结果分子是否是终止底物,和/或是否已存入所述有向无环图进行判断;
[0030]基于判断结果确定最终预测的生物合成路径。
[0031]优选的,所述基于判断结果确定最终预测的生物合成路径,包括:
[0032]当所述结果分子是终止底物,和/或已存入有向无环图时,将所述结果分子放入当前路径列表中,得到更新的路径列表;将所述更新的路径列表复制存入有向无环图中,并将所述结果分子从所述更新的路径列表中删除,所述有向无环图为最终预测的生物合成路径。
[0033]优选的,所述基于判断结果确定最终预测的生物合成路径,还包括:
[0034]当所述结果分子不是终止底物,和/或未存入有向无环图时,将所述结果分子放入所述当前路径列表中,对所述当前路径列表的长度是否大于等于搜索的最大路径长度进行判断;
[0035]当所述当前路径列表的长度大于等于搜索的最大路径长度本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于深度搜索的生物逆合成预测方法,其特征在于,包括:获取源化合物SMILES序列,对所述源化合物SMILES序列进行分词处理;利用化合物编码字典对分词处理后的源化合物SMILES序列进行编码,得到化合物编码;将所述化合物编码输入到单步逆合成预测模型,预测得到多个候选前体;利用化合物编码字典对所述候选前体进行解码;对解码后的候选前体执行深度优先搜索策略,得到最终预测的生物合成路径。2.如权利要求1所述的基于深度搜索的生物逆合成预测方法,其特征在于,在获取源化合物SMILES序列之前,包括:建立化合物编码字典;利用自然语言处理技术中的Transformer模型构建单步逆合成预测模型;对深度优先搜索策略中的参数进行设定。3.如权利要求2所述的基于深度搜索的生物逆合成预测方法,其特征在于,所述建立化合物编码字典,包括:采集化合物SMILES序列数据,通过正则表达式对所述化合物SMILES序列进行分词处理;对分词处理后的化合物SMILES序列数据建立相应的编码,得到化合物编码字典。4.如权利要求2所述的基于深度搜索的生物逆合成预测方法,其特征在于,所述对深度优先搜索策略中的参数进行设定,包括:设置搜索算法的超参数;设置搜索的最大路径长度;定义有向无环图,并初始化所述有向无环图;定义当前路径列表。5.如权利要求4所述的基于深度搜索的生物逆合成预测方法,其特征在于,所述对解码后的候选前体执行深度优先搜索策略,得到最终预测的生物合成路径,包括:利用编程语言中的rdkit库对解码后的候选前体进行分子正确性检查,得到合理逆合成预测结果;计算分子正确性检查合格的候选前体与所述源化合物的SMILES序列的分子相似度、结果分子的合成难度;根据分子相似度、结果分子的合成难度对分子正确性检查合格的候选前体进行排序,得到优先级序列;根据所述优先级序列依次对所述候选前体中的结果分子是否是终止底物,和/或是否已存入所述有向无环图进行判断;基于判断结果确定最终预测的生物合成路径。6.如权利要求5所述的基于深度搜索的生物逆合成预测方法,其特征在于,所述基于判...

【专利技术属性】
技术研发人员:何加铭郑韶伟王家功金錱
申请(专利权)人:宁波甬恒瑶瑶智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1