一种基于选择性采样学习的多目标分子优化方法及系统技术方案

技术编号:37415413 阅读:18 留言:0更新日期:2023-04-30 09:39
本发明专利技术公开了一种基于选择性采样学习的多目标分子优化方法,包括:初始化分子生成模型;基于初始化的分子生成模型进行分子采样,每次分子采样会采样一个批次的分子形成第一分子集;计算第一分子集内每个分子的第一指标、第二指标和第三指标;根据预设第一指标阈值、第二指标阈值和第三指标阈值与第一指标、第二指标和第三指标的比较结果对第一分子集中的每个分子进行过滤,对均达到标准的分子被保留,任一指标没有达到的分子被丢弃;循环直到过滤后获得的分子数量等于或高于第一分子数量阈值后停止循环,获得第二分子集;基于第一评价标准筛选第二分子集获得第三分子集;将第三分子集用于分子生成模型的训练和参数更新。还公开对应系统及应用。新。还公开对应系统及应用。新。还公开对应系统及应用。

【技术实现步骤摘要】
一种基于选择性采样学习的多目标分子优化方法及系统


[0001]本专利技术属于生物基因和人工智能药物研究
,尤其涉及一种基于选择性采样学习的多目标分子优化方法及系统。

技术介绍

[0002]在药物分子合成与优化领域中,要保证一款药物的安全性和有效性,则需要确保多项指标达到临床要求,这些指标包括与特定蛋白质靶点结合的活性、药物进入体内的毒性和药物代谢速度等等。在新药研发过程中,首先需要找到苗头化合物,之后会对其进行多指标优化,而这个优化过程往往是专家根据经验来进行,速度较慢并且效率有限,因此如何自动化地进行优化,并高效地提升苗头化合物的各项指标则至关重要。随着机器学习的兴起,AI新药研发这一交叉领域得到了很好的发展,这一领域也涌现了很多关于分子优化的方法。目前常用的方法有基于强化学习的方法和基于蒙特卡洛树搜索的方法,共同点都是关注药物研发中的关键指标,然后使用计算的方法将其变成优化目标并进行模型训练,最终达到优化分子多个指标的目的。
[0003]基于强化学习的方法通常是将分子表示成基于分子图的图形式。在训练的过程中,模型会将分子子图作为强化学习中的“状态”,对分子子图进行诱导和补全,让生成的分子在关键指标上满足期待,进而完成对分子的优化。但实际上,只要对一个分子进行微小的改造,就可能会让其在活性和毒性等多方面产生巨大的变化。因此,在知道最终分子各项属性的前提下,无法准确地评估中间分子的各项属性,这也就给强化学习这一类的方法带来了很多局限性。
[0004]基于蒙特卡洛树搜索的方法的核心是将分子表示成一颗搜索树的节点,并使用蒙特卡洛的方法进行搜索,寻找在多指标上均满足要求的分子。然而这类方法的计算量比较大,对计算效率的要求比较高。与此同时,这类方法能够优化和产出的分子数量并不确定,取决于搜索树的实际拓展情况,这种产出结果的不稳定性并不能满足实际的使用需求。
[0005]因此,上述的现有技术确实有待提出更佳解决方案的必要性。

技术实现思路

[0006]针对以上现有技术中的不足,提供一种基于选择性采样学习的多目标分子优化方法及系统,该方法及系统不依赖某一种具体的分子生成模型,可迁移性强,能够适配多种分子生成的模型,在多种优化目标下都能达到预期效果;并且该策略还可以灵活调整优化目标,在实际药物研发项目中能适应特异性和多变的业务需求,提高分子生成模型生成分子的多个指标。
[0007]经过实验以及在不同分子生成模型上的验证,对于一个分子生成模型而言,生成分子的各种属性会与训练数据的各种属性相似。基于这个特点,本专利技术提出了基于选择性采样学习的多目标分子优化策略,该策略会通过采样和筛选的方法,不断挑选出符合特定优化目标的分子,并让模型学习,从而达到多目标优化的目的。
[0008]本专利技术一方面提供了一种基于选择性采样学习的多目标分子优化方法,包括:
[0009]S1,初始化分子生成模型;
[0010]S2,基于初始化的分子生成模型进行分子采样,每次分子采样会采样一个批次的分子形成第一分子集;
[0011]S3,计算第一分子集内每个分子的第一指标、第二指标和第三指标;
[0012]S4,根据预设好的第一指标阈值、第二指标阈值和第三指标阈值,分别将所述第一指标、第二指标和第三指标与所述第一指标阈值、第二指标阈值和第三指标阈值比较,根据比较结果对所述第一分子集中的每个分子进行过滤,对所述第一指标、第二指标和第三指标均达到第一指标阈值、第二指标阈值和第三指标阈值的标准的分子被保留,所述第一指标、第二指标和第三指标中任一指标没有达到所述第一指标阈值、第二指标阈值和第三指标阈值的标准的分子被丢弃;
[0013]S5,设定第一分子数量阈值,循环S1

S4,直到过滤后获得的分子数量等于或高于所述第一分子数量阈值后停止所述循环,获得第二分子集;
[0014]S6,基于第一评价标准再次筛选所述第二分子集获得第三分子集;
[0015]S7,将第三分子集用于所述分子生成模型的训练和参数更新。
[0016]优选的,所述第一指标为物化属性,所述第二指标为ADMET,所述第三指标为活性。
[0017]优选的,所述第一评价标准为:保留所述第二分子集M1中活性高于整体中位数的分子作为第三分子集。
[0018]优选的,所述初始化的分子生成模型为图形的深度生成模型DGMG、子图生成的连接树变分自动编码器JTNN、GCPN、MRNN或PS

VAE。
[0019]优选的,所述S1实施前还包括提前使用公开数据集ZINC对初始化的分子生成模型进行预训练。
[0020]优选的,所述方法还包括:
[0021]S8,在所述分子生成模型的训练和参数更新结束后,使用训练好的所述分子生成模型生成了多个分子,并对所述多个分子进行指标评估。
[0022]优选的,所述S8包括:
[0023]S81,确定本次优化实验的优化目标;
[0024]S82,确定每个优化目标对应的打分函数;
[0025]S83,使用训练好的所述分子生成模型生成了多个分子,并对所述多个分子基于所述打分函数进行指标评估。
[0026]本专利技术的第二方面提供一种基于选择性采样学习的多目标分子优化系统,包括:
[0027]模型初始化模块(101),用于初始化分子生成模型;
[0028]第一分子集生成模块(102),用于基于初始化的分子生成模型进行分子采样,每次分子采样会采样一个批次的分子形成第一分子集;
[0029]计算模块(103),用于计算第一分子集内每个分子的第一指标、第二指标和第三指标;
[0030]比较过滤模块(104),用于根据预设好的第一指标阈值、第二指标阈值和第三指标阈值,分别将所述第一指标、第二指标和第三指标与所述第一指标阈值、第二指标阈值和第三指标阈值比较,根据比较结果对所述第一分子集中的每个分子进行过滤,对所述第一指
标、第二指标和第三指标均达到第一指标阈值、第二指标阈值和第三指标阈值的标准的分子被保留,所述第一指标、第二指标和第三指标中任一指标没有达到所述第一指标阈值、第二指标阈值和第三指标阈值的标准的分子被丢弃;
[0031]第二分子集生成模块(105),用于设定第一分子数量阈值,直到过滤后获得的分子数量等于或高于所述第一分子数量阈值后停止所述循环,获得第二分子集,本实施例将第二分子集记为M1;
[0032]第三分子集生成模块(106),基于第一评价标准再次筛选所述第二分子集获得第三分子集;
[0033]模型训练模块(107),用于将第三分子集用于所述分子生成模型的训练和参数更新。
[0034]优选的,所述系统还包括:
[0035]指标评估模块(108),用于在所述分子生成模型的训练和参数更新结束后,使用训练好的所述分子生成模型生成了多个分子,并对所述多个分子进行指标评估。
[0036]本专利技术的第三方面在于提供基于选择性采本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于选择性采样学习的多目标分子优化方法,其特征在于,包括:S1,初始化分子生成模型;S2,基于初始化的分子生成模型进行分子采样,每次分子采样会采样一个批次的分子形成第一分子集;S3,计算第一分子集内每个分子的第一指标、第二指标和第三指标;S4,根据预设好的第一指标阈值、第二指标阈值和第三指标阈值,分别将所述第一指标、第二指标和第三指标与所述第一指标阈值、第二指标阈值和第三指标阈值比较,根据比较结果对所述第一分子集中的每个分子进行过滤,对所述第一指标、第二指标和第三指标均达到第一指标阈值、第二指标阈值和第三指标阈值的标准的分子被保留,所述第一指标、第二指标和第三指标中任一指标没有达到所述第一指标阈值、第二指标阈值和第三指标阈值的标准的分子被丢弃;S5,设定第一分子数量阈值,循环S1

S4,直到过滤后获得的分子数量等于或高于所述第一分子数量阈值后停止所述循环,获得第二分子集;S6,基于第一评价标准再次筛选所述第二分子集获得第三分子集;S7,将第三分子集用于所述分子生成模型的训练和参数更新。2.根据权利要求1所述的一种基于选择性采样学习的多目标分子优化方法,其特征在于,所述第一指标为物化属性,所述第二指标为ADMET,所述第三指标为活性。3.根据权利要求2所述的一种基于选择性采样学习的多目标分子优化方法,其特征在于,所述第一评价标准为:保留所述第二分子集M1中活性高于整体中位数的分子作为第三分子集。4.根据权利要求3所述的一种基于选择性采样学习的多目标分子优化方法,其特征在于,所述初始化的分子生成模型为图形的深度生成模型DGMG、子图生成的连接树变分自动编码器JTNN、GCPN、MRNN或PS

VAE。5.根据权利要求1所述的一种基于选择性采样学习的多目标分子优化方法,其特征在于,所述S1实施前还包括提前使用公开数据集ZINC对初始化的分子生成模型进行预训练。6.根据权利要求1所述的一种基于选择性采样学习的多目标分子优化方法,其特征在于,所述方法还包括:S8,在所述分子生成模型的训练和参数更新结束后,使用训练好的所述分子生成模型...

【专利技术属性】
技术研发人员:刘勇柳俊宏王鹏磊李欣泽
申请(专利权)人:星希尔生物科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1