药物属性预测方法、装置、电子设备及存储介质制造方法及图纸

技术编号：35343909 阅读：16 留言：0更新日期：2022-10-26 12:08

本发明专利技术提供一种药物属性预测方法、装置、电子设备及存储介质，首先获取待预测药物的目标分子结构数据；然后将目标分子结构数据输入至药物属性预测模型，得到待预测药物的药物属性信息。采用的药物属性预测模型通过对药物预训练模型进行微调得到，药物预训练模型则是通过分子属性预测预训练、原子属性预测预训练以及分子对比学习预训练同步训练得到，如此可以保证药物预训练模型在药物属性预测任务上的性能与泛化性，可以降低药物预训练模型的迁移难度，缩短药物预测模型的构建时长，而且也会提高微调阶段得到的药物预测模型的预测准确性，为药物预测模型的广泛应用提供保障。为药物预测模型的广泛应用提供保障。为药物预测模型的广泛应用提供保障。

全部详细技术资料下载

【技术实现步骤摘要】
药物属性预测方法、装置、电子设备及存储介质

[0001]本专利技术涉及药物属性预测
，尤其涉及一种药物属性预测方法、装置、电子设备及存储介质。

技术介绍

[0002]近年来随着人工智能技术的发展，该技术被广泛应用于药物研发的各个阶段，如药物靶标识别、药物设计、药物重定位以及生物医学信息分析等。人工智能技术以强大的数据分析和建模能力为传统药物研发方法中的效率低下和不确定性问题提供了新的解决方案，同时也降低了药物研发过程中的偏见和人为干预。
[0003]在人工智能领域中最常使用的是机器学习技术。然而，在药物属性预测过程中结合机器学习技术时存在一个普遍性的问题——小样本问题。小样本是指由于药物研发各阶段的实验成本较高，相关数据集内样本的数目较少，但同时由于药物样本数据包含的是药物分子的结构和组成，数据维度较高。高维度的药物特征数据和小样本数量给深度学习模型的参数优化带来了挑战。
[0004]药物预训练是解决药物相关任务上数据的小样本问题的重要方法。药物预训练指的是先将模型在大量无标签数据上完成设定的自监督训练任务，增强模型的药物表征能力。在预训练完成后再将模型应用到药物属性预测任务上，这一阶段称为微调阶段。药物预训练方法本质上是通过完成预训练任务为模型在微调阶段的应用提供一个领域相关的参数初始化。
[0005]现有的药物预训练方法中，由于预训练阶段和微调阶段完成的任务往往存在较大差异，这种任务间的差异决定了预训练阶段得到的药物预训练模型在迁移到微调阶段时需要通过大量的参数更新来适应微调任务，不...

【技术保护点】

【技术特征摘要】
1.一种药物属性预测方法，其特征在于，包括：获取待预测药物的目标分子结构数据；将所述目标分子结构数据输入至药物属性预测模型，得到所述待预测药物的药物属性信息；其中，所述药物属性预测模型是基于携带有药物属性标签的药物样本的第一类样本分子结构数据，对药物预训练模型进行训练得到；所述药物预训练模型是在初始模型的基础上，采用如下预训练方法同步训练得到：基于各化合物样本的原始分子的分子属性标签以及各原始分子中目标原子经缺陷处理后得到的缺陷分子的第二类样本分子结构数据，进行分子属性预测预训练；基于所述各原始分子中所述目标原子的原子属性标签以及各缺陷分子的第二类样本分子结构数据，进行原子属性预测预训练；基于所述各缺陷分子的第二类样本分子结构数据以及所述各原始分子的第三类样本分子结构数据，进行分子对比学习预训练。2.根据权利要求1所述的药物属性预测方法，其特征在于，所述药物预训练模型基于如下步骤训练得到：基于所述各原始分子的分子属性标签、所述各原始分子中所述目标原子的原子属性标签和所述各缺陷分子的第二类样本分子结构数据，计算所述初始模型的原子属性预测损失以及分子属性预测损失；基于所述各缺陷分子的第二类样本分子结构数据和所述各原始分子的第三类样本分子结构数据，计算所述初始模型的对比学习损失；基于所述原子属性预测损失、所述分子属性预测损失和所述对比学习损失，确定所述初始模型的整体损失，并基于所述整体损失，对所述初始模型进行训练，得到所述药物预训练模型。3.根据权利要求2所述的药物属性预测方法，其特征在于，所述基于所述各缺陷分子的第二类样本分子结构数据和所述各原始分子的第三类样本分子结构数据，计算所述初始模型的对比学习损失，包括：基于所述各缺陷分子和所述各原始分子，构建正样本对和负样本对；将所述正样本对对应的各个结构数据输入至所述初始模型，得到所述初始模型输出的所述正样本对对应的各个表示向量；将所述负样本对对应的各个结构数据输入至所述初始模型，得到所述初始模型输出的所述负样本对对应的各个表示向量；基于所述正样本对对应的各个表示向量之间的相似度以及所述负样本对对应的各个表示向量之间的相似度，计算所述正样本对与所述负样本对之间的对比学习损失。4.根据权利要求3所述的药物属性预测方法，其特征在于，所述基于所述各缺陷分子和所述各原始分子，构建正样本对和负样...

【专利技术属性】
技术研发人员：马喜波，蔡引江，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人