System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于扩散模型的多目标分子生成方法和系统技术方案_技高网
当前位置: 首页 > 专利查询>湖南大学专利>正文

一种基于扩散模型的多目标分子生成方法和系统技术方案

技术编号:40706211 阅读:4 留言:0更新日期:2024-03-22 11:06
本发明专利技术公开了一种基于扩散模型的多目标分子生成方法,包括:获取带有标签的活性分子数据集,将活性分子数据集输入到预先建立好的子结构搜索模型,以获取活性分子数据集的语义子结构S,将语义子结构转换成含噪语义子结构简化分子线性输入规范SMILES序列y<subgt;noise</subgt;,并将该含噪语义子结构SMILES序列y<subgt;noise</subgt;进一步转换为含噪语义子结构词元y<subgt;0</subgt;,将含噪语义子结构序列y<subgt;0</subgt;输入预先训练好的扩散模型,以获取多目标分子。本发明专利技术能够解决现有基于生成对抗网络的模型虽然能够生成看似高质量的样本,但是其难以训练,而且训练容易坍缩,从而导致生成样本唯一性很差的技术问题。

【技术实现步骤摘要】

本专利技术属于生物医药,更具体地,涉及一种基于扩散模型的多目标分子生成方法和系统


技术介绍

1、药物从研发到上市需经过药物发现、预临床研究、临床试验等多个阶段。在药物发现阶段,科研人员通过实验筛选或计算机虚拟筛选从大量化合物中确定潜在的药物候选分子。这些候选分子还需经过进一步的药效实验验证。传统依赖实验筛选的随机高通量方法存在效率低的问题,这类方法需要研发人员逐一合成大量候选化合物,进行药效实验以找到潜在药物分子,整个筛选流程周期长、成本高。计算机辅助的虚拟筛选如分子动力学模拟也可用于药物发现。这类方法可以评估更多化合物,不需要逐一合成,但是对每个化合物进行精确的量子化学计算要求计算资源巨大,也难以处理复杂生物大分子。近年来,基于深度学习的分子生成方法提供了一种更高效的筛选思路。这类方法使用神经网络对已有药物数据进行训练,学习编码药物分子的化学结构特征。然后根据网络对药效的预测,有选择性地生成新分子。

2、目前基于深度学习的分子生成研究有两种方法,一种是基于变分自编码器或生成式对抗网络的模型,其直接建模数据分布,这类方法通过编码分子结构的语义特征,并加入分子性质标签,学习数据联合分布。然后可以根据采样或搜索这个学习到的联合分布,生成新的分子;另一类方法是基于语言模型的模型(例如transformer模型),这类方法利用大规模分子数据进行预训练,学习编码分子smiles表示的语法及化学语义特征。然后根据这种语言模型采样生成新的分子smiles字符串。

3、然而,上述两种方法均存在一些不可忽略的缺陷:>

4、第一,基于生成对抗网络的模型虽然能够生成看似高质量的样本,但是其难以训练,而且训练容易坍缩,从而导致生成样本唯一性很差;

5、第二、基于变分自编码器的模型建模复杂数据分布时,可能会过度平滑样本分布,导致生成样本多样性不足,这会导致生成样本的多样性不高;

6、第三,语言模型容易出现“数据饥饿”现象,也即需要更多的数据来训练模型,而在药物研发领域,高质量的小分子数据集样本数量很少,语言模型会对小样本数据集过拟合严重,进而导致生成的样本新颖性很低;

7、第四,现有基于变分自编码器或语言模型更注重单一药效或性质的优化。而高质量的药物候选物需要同时兼顾多个性能指标(如药效、毒性、合成难易度等),因此该模型在处理这类多目标分子生成问题上还存在明显不足。


技术实现思路

1、针对现有技术的以上缺陷或改进需求,本专利技术提供了一种基于扩散模型的多目标分子生成方法和系统,其目的在于,解决现有基于生成对抗网络的模型虽然能够生成看似高质量的样本,但是其难以训练,而且训练容易坍缩,从而导致生成样本唯一性很差的技术问题,以及现有基于变分自编码器的模型建模复杂数据分布时,可能会过度平滑样本分布,导致生成样本多样性不足、生成样本的多样性不高的技术问题,以及现有语言模型需要更多的数据来训练模型,而在药物研发领域,高质量的小分子数据集样本数量很少,语言模型会对小样本数据集过拟合严重,进而导致生成的样本新颖性很低的技术问题,以及现有基于变分自编码器或语言模型更注重单一药效或性质的优化。而高质量的药物候选物需要同时兼顾多个性能指标,导致该模型在处理这类多目标分子生成问题时存在明显不足的技术问题c。

2、为实现上述目的,按照本专利技术的一个方面,提供了一种基于扩散模型的多目标分子生成方法,包括以下步骤:

3、(1)获取带有标签的活性分子数据集,将活性分子数据集输入到预先建立好的子结构搜索模型,以获取活性分子数据集的语义子结构s。

4、(2)将步骤(1)得到的语义子结构转换成含噪语义子结构简化分子线性输入规范smiles序列ynoise,并将该含噪语义子结构smiles序列ynoise进一步转换为含噪语义子结构词元y0。

5、(3)将步骤(2)获取的含噪语义子结构序列y0输入预先训练好的扩散模型,以获取多目标分子。

6、优选地,步骤(2)具体为,首先使用分子处理软件rdkit将步骤(2)获取的图格式的语义子结构s转换成语义子结构smiles序列y;随后,在语义子结构序列y的活性位点位置附近添加随机长度的随机原子,以获得含噪语义子结构smiles序列ynoise;最后,使用扩散模型中预先建立的词表将含噪语义子结构smiles序列ynoise进行编码,以获取独热编码形式的含噪语义子结构序列y0。

7、优选地,步骤(3)包括以下子步骤:

8、(3-1)设置时刻t=t,从扩散模型预先建立的词表随机采样获取t时刻长度为l的含噪序列xt,其中t表示总采样步数,且有t=100,l表示序列长度。

9、(3-2)判断是否有t<1,如果是则转入步骤(3-6),否则将含噪序列xt和时刻t输入到扩散模型中,以获取输出然后进入步骤(3-3)。

10、(3-3)将步骤(3-2)获取的输出输入扩散模型,以获取t-1时刻的含噪序列xt-1,然后进入步骤(3-4);

11、(3-4)判断是否有t<γ,如果是则进入步骤(3-5),其中γ表示截断时间,且有γ=10,否则获取步骤(2)获取的含噪语义子结构序列y0在t-1时刻的特征yt-1,将步骤(3-3)获取的t-1时刻的含噪序列xt-1与特征yt-1通过线性插值进行特征融合,以获取融合后的t-1时刻的含噪序列xt-1,然后进入步骤(3-5);

12、(3-5)设置时刻t=t-1,xt=xt-1,并返回步骤(3-2);

13、(3-6)获取t=0时刻的序列x0,并进入步骤(3-7);

14、(3-7)通过扩散模型预先建立的词表将步骤(3-6)获取的序列x0解码成smiles序列,以获取多目标分子。

15、优选地,子结构搜索模型是通过以下步骤训练得到的:

16、(4-1)获取gsk3活性分子数据集和jnk3活性分子数据集作为子结构搜索模型的输入,使用该gsk3活性分子数据集训练活性打分器,并利用训练好的活性打分器和蒙特卡洛树搜索mcts算法获取gsk3活性分子数据集中的活性打分器sg和语义子结构集合ssg;

17、(4-2)使用步骤(4-1)获取的jnk3活性分子数据集训练活性打分器,并利用训练好的活性打分器和蒙特卡洛树搜索mcts算法获取jnk3活性分子数据集的活性打分器sj以及语义子结构集合ssj;

18、(4-3)将步骤(4-1)得到的gsk3活性分子数据集中的语义子结构集合ssg和步骤(4-2)得到的jnk3活性分子数据集中的语义子结构集合ssj融合成一个多目标融合的语义子结构集合,作为子结构搜索模型的输出。

19、优选地,步骤(4-1)具体包括以下步骤:

20、(4-1-1)获取gsk3活性分子数据集,并在预先建立的预训练分子数据集中随机获取数量为该gsk3活性分子数据集100倍的多个非活性分子构成非gsk3活性分子数据集;

21、(4-本文档来自技高网...

【技术保护点】

1.一种基于扩散模型的多目标分子生成方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于扩散模型的多目标分子生成方法,其特征在于,步骤(2)具体为,首先使用分子处理软件Rdkit将步骤(2)获取的图格式的语义子结构S转换成语义子结构SMILES序列y;随后,在语义子结构序列y的活性位点位置附近添加随机长度的随机原子,以获得含噪语义子结构SMILES序列ynoise;最后,使用扩散模型中预先建立的词表将含噪语义子结构SMILES序列ynoise进行编码,以获取独热编码形式的含噪语义子结构序列y0。

3.根据权利要求1或2所述的基于扩散模型的多目标分子生成方法,其特征在于,步骤(3)包括以下子步骤:

4.根据权利要求1至3中任意一项所述的基于扩散模型的多目标分子生成方法,其特征在于,子结构搜索模型是通过以下步骤训练得到的:

5.根据权利要求4所述的基于扩散模型的多目标分子生成方法,其特征在于,步骤(4-1)具体包括以下步骤:

6.根据权利要求5所述的基于扩散模型的多目标分子生成方法,其特征在于,步骤(4-1-7)包括以下子步骤:

7.根据权利要求4所述的基于扩散模型的多目标分子生成方法,其特征在于,步骤(4-3)包括以下子步骤:

8.根据权利要求1所述的基于扩散模型的多目标分子生成方法,其特征在于,扩散模型是通过以下步骤建立的:

9.根据权利要求8所述的基于扩散模型的多目标分子生成方法,其特征在于,

10.一种基于扩散模型的多目标分子生成系统,其特征在于,包括:

...

【技术特征摘要】

1.一种基于扩散模型的多目标分子生成方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于扩散模型的多目标分子生成方法,其特征在于,步骤(2)具体为,首先使用分子处理软件rdkit将步骤(2)获取的图格式的语义子结构s转换成语义子结构smiles序列y;随后,在语义子结构序列y的活性位点位置附近添加随机长度的随机原子,以获得含噪语义子结构smiles序列ynoise;最后,使用扩散模型中预先建立的词表将含噪语义子结构smiles序列ynoise进行编码,以获取独热编码形式的含噪语义子结构序列y0。

3.根据权利要求1或2所述的基于扩散模型的多目标分子生成方法,其特征在于,步骤(3)包括以下子步骤:

4.根据权利要求1至3中任意一项所述的基于扩散模...

【专利技术属性】
技术研发人员:宋勃升陈述高曾湘祥刘元盛刘益萍
申请(专利权)人:湖南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1