基于化学可行性校验的有机分子虚拟筛选空间构建方法技术

技术编号:37563486 阅读:17 留言:0更新日期:2023-05-15 07:44
本发明专利技术公开了一种基于化学可行性校验的有机分子虚拟筛选空间构建方法,本发明专利技术以分子片段组装生成的有机分子作为校验对象,通过化学可行性校验摒弃不具有可行性的分子,得到最终的虚拟筛选空间。在化学可靠性校验中,针对任意指定的母体或取代基,通过收集已报道的有机分子结构作为基本数据源,从中统计该片段许可的化学环境的出现频次,据此构建出针对该片段及化学环境的模式匹配库,在此基础上通过子结构匹配的方式实现分子化学可行性的校验。本发明专利技术基于统计学方法实现了有机分子化学可行性的判别,可为药物、含能材料、光电材料等有机分子的计算机辅助设计提供具有化学可行性的虚拟筛选空间,对于提升有机材料的研制效率具有重要意义。有重要意义。有重要意义。

【技术实现步骤摘要】
基于化学可行性校验的有机分子虚拟筛选空间构建方法


[0001]本专利技术涉及药物分子设计、含能材料设计领域,特别涉及一种基于化学可行性校验的有机分子虚拟筛选空间构建方法。

技术介绍

[0002]基于高通量计算与机器学习虚拟筛选技术使新材料的设计发生了质的飞跃。利用计算机从大型的化合物库中快速筛选出潜在的分子,大幅减少进入化学实验阶段的化合物数量,可有效提高药物研发、新材料发现的成功率和效率。
[0003]进行虚拟筛选的首要前提是有一个合理的虚拟筛选空间。虚拟筛选空间质量决定了筛选出来的分子效果的优劣,现有的可供选择的虚拟筛选空间众多,并且性能各异,导致在实际使用中的虚拟筛选的成功率千差万别。再者,由于虚拟筛选面临的对象可能是上千万的化合物,虚拟筛选的效率也是影响虚拟筛选方法应用的关键。分子片段组装是当前常用的有机分子虚拟筛选空间构建方法,通过枚举分子片段的接入位点的方式获得大量分子,其中对分子结构的化学可行性一般采用化合价规则简单判定。虽然最终生成的化学分子符合化合价规则,但是在生成的大量分子中有效的分子占比却很小,大量的化合物可能存在结构不合理、分子不稳定或不能合成等情况。化合价规则的缺陷在于不能从热力学和动力学层面上判断分子的化学可行性,使虚拟筛选空间中存在大量化学上不可行的分子,将导致筛选出不合理的目标分子。因此,构建合理的虚拟筛选空间是提高虚拟筛选命中率以及虚拟筛选效率的关键。

技术实现思路

[0004]针对现有技术中存在的问题,本专利技术提供了一种基于化学可行性校验的有机分子虚拟筛选空间构建方法,能够对分子进行可行性校验,构建高质量的有机分子虚拟筛选空间。同时,本方法具有可自由扩展的能力,本专利技术中所提及的化合物库均可扩充、替换。
[0005]本专利技术采用的技术方案如下:提供了一种基于化学可行性校验的有机分子虚拟筛选空间构建方法,包括以下步骤:
[0006]一种基于化学可行性校验的有机分子虚拟筛选空间构建方法,包括以下步骤:
[0007]S1、获取已报道的有机分子数据集,得到所有分子的SMILES序列;
[0008]S2、对数据集中每个分子采用RECAP方法进行裂解,得到大量分子骨架,整理记录形成分子骨架库;
[0009]S3、对数据集中每个分子,以关注基团为顶点,对分子进行广度遍历,到达指定层数后对分子进行裂解,得到基团

骨架碎片,统计其频次,形成模式匹配库;
[0010]S4、从分子骨架库中选取骨架,将这些骨架与基团相互组装形成完整的分子;
[0011]S5、将生成的分子以S3所述方式进行切割,得到该分子的基团

骨架碎片,将碎片在模式匹配库中搜索,若模式匹配库中能匹配到该结构,则分子合理,否则分子不合理。
[0012]进一步的技术方案为,步骤S2具体包括以下步骤:
[0013]第一步:分子裂解,采用RECAP方法进行分子碎裂,具体方法如下:
[0014]STEP1:收集对特定目标有活性的结构,分析得到11种可裂解分子键;
[0015]STEP2:读取输入分子,断裂一条STEP1中提及的可碎裂分子键得到多个子节点;
[0016]STEP3:取STEP2裂解后的子节点,若该子节点存在STEP1提及的分子键,则重复STEP2步骤,否则将该子节点标记为叶子节点;若所有子节点裂解后不再产生新的子节点,则分子裂解完成;
[0017]STEP4:进行碎片化时只保留最终碎片而不保留中间过程,碎片分析好后合并成为构建块,放入碎裂结果中。
[0018]第二步:在所有分子碎裂结果中选取特定骨架,生成分子骨架库,其骨架选取规则为:若碎片只包含小的官能团该碎片不保留;保留环结构;保留含有双键、三键的碎片。
[0019]进一步的技术方案为,步骤S3中对分子进行广度遍历,到达指定层数后对分子进行裂解,其规则为:以指定基团为顶点对分子进行广度遍历,遍历到指定层数时,获取当前层分子与下一层分子之间的分子键,断裂获取的键得到分子基团

骨架碎片;在遍历途中,若原子是在环内,则停止遍历,保留环结构,将环上不与指定基团相连的其他键断裂得到基团

环碎片。
[0020]进一步的技术方案为,步骤S3的具体流程为:
[0021]STEP1:在分子中搜索关注基团,获取基团的序号,集合A表示含有关注基团的原子集合,集合B表示将要裂解的边的集合,集合C表示当前层数的原子集合,将搜索到的基团序号加入集合A、B;
[0022]STEP2:遍历C集合所有原子,获取每个节点的邻居节点,若邻居节点在环上,则将该环上所有原子加入集合A,并将与该环相连的除了与该原子相连的所有边加入集合C,若邻居节点不在A中,则将节点加入A集合;清空C集合,将邻居节点加入C集合中,再次执行STEP2直到遍历的层数达到设定的阈值,获取C集合的每个原子邻居节点及其所对应的边,将边加入集合B;
[0023]STEP3:断裂B集合中的边,将分子裂解成多个碎片,根据集合A找到目标碎片;
[0024]STEP4:收集目标碎片,将目标碎片转化成SMILES序列,去掉序列中的无关符号,将处理后的SMILES序列转为用于匹配的SMARTS编码,统计各种编码出现的频次,最终形成模式匹配库。
[0025]进一步的技术方案为,步骤S4所述骨架与基团相互组装形成完整的分子具体过程为:选取n个骨架,每个骨架的取代位点个数集合为S={S1,S2,...,S
n
},选取m个基团,n个骨架在任意取代位点相互连接组合形成更大的骨架,然后再在该骨架剩余的一个或多个取代位点与基团连接形成完整的分子,其取代后可生成的分子个数为:
[0026]进一步的技术方案为,步骤S5对分子进行有效性验证,其具体步骤为:
[0027]选取待验证分子,以S3所述方式对分子进行切割,得到基团

骨架碎片,利用RDKIT工具包与模式匹配库中的片段进行匹配,若模式匹配库中存在相识片段,则证明分子有效,否则分子无效。
[0028]本方法将虚拟筛选空间的构建分为两个步骤,在常用的分子片段组装的基础上加入子化学可行性校验步骤。本专利技术以分子片段组装生成的有机分子作为校验对象,通过化学可行性校验摒弃不具有可行性的分子,得到最终的虚拟筛选空间。在化学可靠性校验中,针对任意指定的母体或取代基,通过收集已报道的有机分子结构作为基本数据源,从中统计该片段许可的化学环境的出现频次,据此构建出针对该片段及化学环境的模式匹配库,在此基础上通过子结构匹配的方式实现分子化学可行性的校验。本专利技术涉及的有机分子结构数据源和模式匹配库都具有可自由扩展的能力,包括增补、删除和替换。本专利技术基于统计学方法实现了有机分子化学可行性的判别,可为药物、含能材料、光电材料等有机分子的计算机辅助设计提供具有化学可行性的虚拟筛选空间,对于提升有机材料的研制效率具有重要意义。
[0029]与现有技术相比,本专利技术具有如本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于化学可行性校验的有机分子虚拟筛选空间构建方法,其特征在于,包括以下步骤:S1、获取已报道的有机分子数据集,得到所有分子的SMILES序列;S2、对数据集中每个分子采用RECAP方法进行裂解,得到大量分子骨架,整理记录形成分子骨架库;S3、对数据集中每个分子,以关注基团为顶点,对分子进行广度遍历,到达指定层数后对分子进行裂解,得到基团

骨架碎片,统计其频次,形成模式匹配库;S4、从分子骨架库中选取骨架,将这些骨架与基团相互组装形成完整的分子;S5、将生成的分子以S3所述方式进行切割,得到该分子的基团

骨架碎片,将碎片在模式匹配库中搜索,若模式匹配库中能匹配到该结构,则分子合理,否则分子不合理。2.根据权利1所述的基于化学可行性校验的有机分子虚拟筛选空间构建方法,其特征在于,步骤S2具体包括以下步骤:第一步:分子裂解,采用RECAP方法进行分子碎裂,具体方法如下:STEP1:收集对特定目标有活性的结构,分析得到11种可裂解分子键;STEP2:读取输入分子,断裂一条STEP1中提及的可碎裂分子键得到多个子节点;STEP3:取STEP2裂解后的子节点,若该子节点存在STEP1提及的分子键,则重复STEP2步骤,否则将该子节点标记为叶子节点;若所有子节点裂解后不再产生新的子节点,则分子裂解完成;STEP4:进行碎片化时只保留最终碎片而不保留中间过程,碎片分析好后合并成为构建块,放入碎裂结果中。第二步:在所有分子碎裂结果中选取特定骨架,生成分子骨架库,其骨架选取规则为:若碎片只包含小的官能团该碎片不保留;保留环结构;保留含有双键、三键的碎片。3.根据权利1所述的基于化学可行性校验的有机分子虚拟筛选空间构建方法,其特征在于,步骤S3中对分子进行广度遍历,到达指定层数后对分子进行裂解,其规则为:以指定基团为...

【专利技术属性】
技术研发人员:刘建唐岳川田杰
申请(专利权)人:中国工程物理研究院化工材料研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1