药物属性预测方法、装置、电子设备及存储介质制造方法及图纸

技术编号:35343909 阅读:16 留言:0更新日期:2022-10-26 12:08
本发明专利技术提供一种药物属性预测方法、装置、电子设备及存储介质,首先获取待预测药物的目标分子结构数据;然后将目标分子结构数据输入至药物属性预测模型,得到待预测药物的药物属性信息。采用的药物属性预测模型通过对药物预训练模型进行微调得到,药物预训练模型则是通过分子属性预测预训练、原子属性预测预训练以及分子对比学习预训练同步训练得到,如此可以保证药物预训练模型在药物属性预测任务上的性能与泛化性,可以降低药物预训练模型的迁移难度,缩短药物预测模型的构建时长,而且也会提高微调阶段得到的药物预测模型的预测准确性,为药物预测模型的广泛应用提供保障。为药物预测模型的广泛应用提供保障。为药物预测模型的广泛应用提供保障。

【技术实现步骤摘要】
药物属性预测方法、装置、电子设备及存储介质


[0001]本专利技术涉及药物属性预测
,尤其涉及一种药物属性预测方法、装置、电子设备及存储介质。

技术介绍

[0002]近年来随着人工智能技术的发展,该技术被广泛应用于药物研发的各个阶段,如药物靶标识别、药物设计、药物重定位以及生物医学信息分析等。人工智能技术以强大的数据分析和建模能力为传统药物研发方法中的效率低下和不确定性问题提供了新的解决方案,同时也降低了药物研发过程中的偏见和人为干预。
[0003]在人工智能领域中最常使用的是机器学习技术。然而,在药物属性预测过程中结合机器学习技术时存在一个普遍性的问题——小样本问题。小样本是指由于药物研发各阶段的实验成本较高,相关数据集内样本的数目较少,但同时由于药物样本数据包含的是药物分子的结构和组成,数据维度较高。高维度的药物特征数据和小样本数量给深度学习模型的参数优化带来了挑战。
[0004]药物预训练是解决药物相关任务上数据的小样本问题的重要方法。药物预训练指的是先将模型在大量无标签数据上完成设定的自监督训练任务,增强模型的药物表征能力。在预训练完成后再将模型应用到药物属性预测任务上,这一阶段称为微调阶段。药物预训练方法本质上是通过完成预训练任务为模型在微调阶段的应用提供一个领域相关的参数初始化。
[0005]现有的药物预训练方法中,由于预训练阶段和微调阶段完成的任务往往存在较大差异,这种任务间的差异决定了预训练阶段得到的药物预训练模型在迁移到微调阶段时需要通过大量的参数更新来适应微调任务,不仅增加了药物预训练模型的迁移难度,进而导致药物预测模型的构建过程耗时过长,而且也会降低微调阶段得到的药物预测模型的预测准确性不高,不利于药物预测模型的广泛应用。

技术实现思路

[0006]本专利技术提供一种药物属性预测方法、装置、电子设备及存储介质,用以解决现有技术中存在的缺陷。
[0007]本专利技术提供一种药物属性预测方法,包括:
[0008]获取待预测药物的目标分子结构数据;
[0009]将所述目标分子结构数据输入至药物属性预测模型,得到所述待预测药物的药物属性信息;
[0010]其中,所述药物属性预测模型是基于携带有药物属性标签的药物样本的第一类样本分子结构数据,对药物预训练模型进行训练得到;所述药物预训练模型是在初始模型的基础上,采用如下预训练方法同步训练得到:
[0011]基于各化合物样本的原始分子的分子属性标签以及各原始分子中目标原子经缺
陷处理后得到的缺陷分子的第二类样本分子结构数据,进行分子属性预测预训练;
[0012]基于所述各原始分子中所述目标原子的原子属性标签以及各缺陷分子的第二类样本分子结构数据,进行原子属性预测预训练;
[0013]基于所述各缺陷分子的第二类样本分子结构数据以及所述各原始分子的第三类样本分子结构数据,进行分子对比学习预训练。
[0014]根据本专利技术提供的一种药物属性预测方法,所述药物预训练模型基于如下步骤训练得到:
[0015]基于所述各原始分子的分子属性标签、所述各原始分子中所述目标原子的原子属性标签和所述各缺陷分子的第二类样本分子结构数据,计算所述初始模型的原子属性预测损失以及分子属性预测损失;
[0016]基于所述各缺陷分子的第二类样本分子结构数据和所述各原始分子的第三类样本分子结构数据,计算所述初始模型的对比学习损失;
[0017]基于所述原子属性预测损失、所述分子属性预测损失和所述对比学习损失,确定所述初始模型的整体损失,并基于所述整体损失,对所述初始模型进行训练,得到所述药物预训练模型。
[0018]根据本专利技术提供的一种药物属性预测方法,所述基于所述各缺陷分子的第二类样本分子结构数据和所述各原始分子的第三类样本分子结构数据,计算所述初始模型的对比学习损失,包括:
[0019]基于所述各缺陷分子和所述各原始分子,构建正样本对和负样本对;
[0020]将所述正样本对对应的各个结构数据输入至所述初始模型,得到所述初始模型输出的所述正样本对对应的各个表示向量;
[0021]将所述负样本对对应的各个结构数据输入至所述初始模型,得到所述初始模型输出的所述负样本对对应的各个表示向量;
[0022]基于所述正样本对对应的各个表示向量之间的相似度以及所述负样本对对应的各个表示向量之间的相似度,计算所述正样本对与所述负样本对之间的对比学习损失。
[0023]根据本专利技术提供的一种药物属性预测方法,所述基于所述各缺陷分子和所述各原始分子,构建正样本对和负样本对,包括:
[0024]对于目标原始分子,基于所述目标原始分子,以及所述目标原始分子对应的一个缺陷分子,构建一个正样本对;
[0025]基于所述目标原始分子,以及所述各原始分子中除所述目标原始分子外的其他原始分子对应的一个缺陷分子,构建一个负样本对。
[0026]根据本专利技术提供的一种药物属性预测方法,所述目标分子结构数据、所述第一类样本分子结构数据、所述第二类样本分子结构数据以及所述第三类样本分子结构数据,均基于分子图结构表示,所述分子图结构中包括分子级节点以及原子级节点,所述分子级节点与所述原子级节点连接。
[0027]根据本专利技术提供的一种药物属性预测方法,所述各原始分子的分子属性标签包括回归任务标签,所述目标原子的原子属性标签包括分类任务标签。
[0028]根据本专利技术提供的一种药物属性预测方法,所述初始模型包括基于Transformer编码器构建的模型。
[0029]本专利技术还提供一种药物属性预测装置,包括:
[0030]数据获取模块,用于获取待预测药物的目标分子结构数据;
[0031]预测模块,用于将所述目标分子结构数据输入至药物属性预测模型,得到所述待预测药物的药物属性信息;
[0032]其中,所述药物属性预测模型是基于携带有药物属性标签的药物样本的第一类样本分子结构数据,对药物预训练模型进行训练得到;所述药物预训练模型是在初始模型的基础上,采用如下预训练方法同步训练得到:
[0033]基于各化合物样本的原始分子的分子属性标签以及各原始分子中目标原子经缺陷处理后得到的缺陷分子的第二类样本分子结构数据,进行分子属性预测预训练;
[0034]基于所述各原始分子中所述目标原子的原子属性标签以及各缺陷分子的第二类样本分子结构数据,进行原子属性预测预训练;
[0035]基于所述各缺陷分子的第二类样本分子结构数据以及所述各原始分子的第三类样本分子结构数据,进行分子对比学习预训练。
[0036]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的药物属性预测方法。
[0037]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的药物属性预测方法。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种药物属性预测方法,其特征在于,包括:获取待预测药物的目标分子结构数据;将所述目标分子结构数据输入至药物属性预测模型,得到所述待预测药物的药物属性信息;其中,所述药物属性预测模型是基于携带有药物属性标签的药物样本的第一类样本分子结构数据,对药物预训练模型进行训练得到;所述药物预训练模型是在初始模型的基础上,采用如下预训练方法同步训练得到:基于各化合物样本的原始分子的分子属性标签以及各原始分子中目标原子经缺陷处理后得到的缺陷分子的第二类样本分子结构数据,进行分子属性预测预训练;基于所述各原始分子中所述目标原子的原子属性标签以及各缺陷分子的第二类样本分子结构数据,进行原子属性预测预训练;基于所述各缺陷分子的第二类样本分子结构数据以及所述各原始分子的第三类样本分子结构数据,进行分子对比学习预训练。2.根据权利要求1所述的药物属性预测方法,其特征在于,所述药物预训练模型基于如下步骤训练得到:基于所述各原始分子的分子属性标签、所述各原始分子中所述目标原子的原子属性标签和所述各缺陷分子的第二类样本分子结构数据,计算所述初始模型的原子属性预测损失以及分子属性预测损失;基于所述各缺陷分子的第二类样本分子结构数据和所述各原始分子的第三类样本分子结构数据,计算所述初始模型的对比学习损失;基于所述原子属性预测损失、所述分子属性预测损失和所述对比学习损失,确定所述初始模型的整体损失,并基于所述整体损失,对所述初始模型进行训练,得到所述药物预训练模型。3.根据权利要求2所述的药物属性预测方法,其特征在于,所述基于所述各缺陷分子的第二类样本分子结构数据和所述各原始分子的第三类样本分子结构数据,计算所述初始模型的对比学习损失,包括:基于所述各缺陷分子和所述各原始分子,构建正样本对和负样本对;将所述正样本对对应的各个结构数据输入至所述初始模型,得到所述初始模型输出的所述正样本对对应的各个表示向量;将所述负样本对对应的各个结构数据输入至所述初始模型,得到所述初始模型输出的所述负样本对对应的各个表示向量;基于所述正样本对对应的各个表示向量之间的相似度以及所述负样本对对应的各个表示向量之间的相似度,计算所述正样本对与所述负样本对之间的对比学习损失。4.根据权利要求3所述的药物属性预测方法,其特征在于,所述基于所述各缺陷分子和所述各原始分子,构建正样本对和负样...

【专利技术属性】
技术研发人员:马喜波蔡引江
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1