一种学习分子表征的自监督方法及系统技术方案

技术编号：43373555 阅读：39 留言：0更新日期：2024-11-19 17:53

本发明专利技术公开了一种学习分子表征的自监督方法及系统，方法包括：S1、从PubChem中抽取分子的化学结构编码，生成预处理数据集；S2、基于transform er encoder构建用于预训练的初始深度学习模型InChINet；S3、将所述预处理数据集输入InChINet模型中对模型进行训练，得到预训练后的InChINet模型；S4、基于所述预训练后的InChINet模型得到待检测分子的分子表征。本发明专利技术的InChINet模型以低成本快速高效地输出高质量的分子表征，能够精准地预测分子性质、药物‑药物相互作用，可以应用于药物发现中的各个环节，加速了药物发现进程。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算化学、生化科学与人工智能等，具体涉及一种学习分子表征的自监督方法及系统。

技术介绍

1、药物发现是一个复杂而耗时的过程，从广阔的分子空间中筛选药物需要极高的成本。为了加快这一过程，研究人员提出了各种计算机辅助药物发现(cadd)方法。尽管在协助药物发现方面取得了成功，但由于巨大的计算成本和耗时的步骤，许多传统的cadd方法很难应用于制药行业。而近年来人工智能在药物发现中的应用，例如分子性质预测、ddi预测、药物分子生成等，因其低成本和惊人的速度而越来越受到关注。因此，作为这些研究的基本挑战之一，设计强大有效的分子表征是药物发现的一项重要任务。

2、传统的分子表征方法，如扩展连接指纹(ecfp)，使用固定的二进制哈希函数应用于每个原子及其邻域，这些方法专注于局部特征因此可能无法捕获全局信息。而近年来机器学习和深度学习的出现为获取有效的分子表征提供了一个新的思路，且已有很多基于机器学习和深度学习开发分子表征的工作。例如，给定指纹(fp)矢量，构建深度神经网络(dnn)来预测分子性质。除了fps之外，字符串形式和...

【技术保护点】

1.一种学习分子表征的自监督方法，其特征在于，所述方法包括：

2.根据权利要求1所述的学习分子表征的自监督方法，其特征在于，所述S3中，将所述预处理数据集输入InChINet模型中对模型进行训练，得到预训练后的InChINet模型具体包括：

3.根据权利要求2所述的学习分子表征的自监督方法，其特征在于，基于分子的化学结构编码将分子嵌入为输入向量的方法具体包括：

4.根据权利要求2所述的学习分子表征的自监督方法，其特征在于，将编码后的所述输入向量投影到联合嵌入空间，获得SMILES和InChI的最终嵌入的方法具体包括：

5.根据权利要求2所述...

【技术特征摘要】

1.一种学习分子表征的自监督方法，其特征在于，所述方法包括：

2.根据权利要求1所述的学习分子表征的自监督方法，其特征在于，所述s3中，将所述预处理数据集输入inchinet模型中对模型进行训练，得到预训练后的inchinet模型具体包括：

3.根据权利要求2所述的学习分子表征的自监督方法，其特征在于，基于分子的化学结构编码将分子嵌入为输入向量的方法具体包括：

4.根据权利要求2所述的学习分子表征的自监督方法，其特征在于，将编码后的所述输入向量投影到联合嵌入空间，获得...

【专利技术属性】
技术研发人员：袁永娜，康佳和，刘振宇，
申请(专利权)人：兰州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人