【技术实现步骤摘要】
本专利技术涉及计算化学、生化科学与人工智能等,具体涉及一种学习分子表征的自监督方法及系统。
技术介绍
1、药物发现是一个复杂而耗时的过程,从广阔的分子空间中筛选药物需要极高的成本。为了加快这一过程,研究人员提出了各种计算机辅助药物发现(cadd)方法。尽管在协助药物发现方面取得了成功,但由于巨大的计算成本和耗时的步骤,许多传统的cadd方法很难应用于制药行业。而近年来人工智能在药物发现中的应用,例如分子性质预测、ddi预测、药物分子生成等,因其低成本和惊人的速度而越来越受到关注。因此,作为这些研究的基本挑战之一,设计强大有效的分子表征是药物发现的一项重要任务。
2、传统的分子表征方法,如扩展连接指纹(ecfp),使用固定的二进制哈希函数应用于每个原子及其邻域,这些方法专注于局部特征因此可能无法捕获全局信息。而近年来机器学习和深度学习的出现为获取有效的分子表征提供了一个新的思路,且已有很多基于机器学习和深度学习开发分子表征的工作。例如,给定指纹(fp)矢量,构建深度神经网络(dnn)来预测分子性质。除了fps之外,字符串形式和
...【技术保护点】
1.一种学习分子表征的自监督方法,其特征在于,所述方法包括:
2.根据权利要求1所述的学习分子表征的自监督方法,其特征在于,所述S3中,将所述预处理数据集输入InChINet模型中对模型进行训练,得到预训练后的InChINet模型具体包括:
3.根据权利要求2所述的学习分子表征的自监督方法,其特征在于,基于分子的化学结构编码将分子嵌入为输入向量的方法具体包括:
4.根据权利要求2所述的学习分子表征的自监督方法,其特征在于,将编码后的所述输入向量投影到联合嵌入空间,获得SMILES和InChI的最终嵌入的方法具体包括:
5
...【技术特征摘要】
1.一种学习分子表征的自监督方法,其特征在于,所述方法包括:
2.根据权利要求1所述的学习分子表征的自监督方法,其特征在于,所述s3中,将所述预处理数据集输入inchinet模型中对模型进行训练,得到预训练后的inchinet模型具体包括:
3.根据权利要求2所述的学习分子表征的自监督方法,其特征在于,基于分子的化学结构编码将分子嵌入为输入向量的方法具体包括:
4.根据权利要求2所述的学习分子表征的自监督方法,其特征在于,将编码后的所述输入向量投影到联合嵌入空间,获得...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。