当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于对比学习的分子图表示学习方法技术

技术编号:28128404 阅读:41 留言:0更新日期:2021-04-19 11:46
本发明专利技术公开了一种基于对比学习的分子图表示学习方法,包括:获取每个分子的分子指纹表示,计算每两个分子指纹之间的相似度;收集全量的化学官能团信息,为分子中的每个原子匹配对应的官能团;用异构图对分子图建模;利用结构感知分子编码器中的RGCN编码分子中每个原子的表示及其所属官能团的表示,通过聚合函数将分子映射到特征空间,得到具有结构感知的特征表示;根据分子之间的指纹相似度,选取正、负样本,在特征空间中进行对比学习;在大样本分子数据集上利用对比学习的方法进行训练,得到具有结构感知的分子编码器,应用于下游分子属性的预测任务。本发明专利技术有助于捕捉更丰富的分子结构信息,解决分子属性预测的问题。解决分子属性预测的问题。解决分子属性预测的问题。

【技术实现步骤摘要】
一种基于对比学习的分子图表示学习方法


[0001]本专利技术属于图表示学习领域,尤其是涉及一种基于对比学习的分子图表示学习方法。

技术介绍

[0002]在过去几年中,图表示学习(Graph Representation Learning)已成为分析图结构数据的热门研究领域。图表示学习旨在学习一种编码函数,该函数充分利用图数据的优势,将具有复杂结构的图数据转换为保留多样化图属性和结构特征的低维空间中的密集表示。
[0003]传统的无监督图表示学习方法,利用随机游走方法将图转化为节点序列,建模了中心节点与邻居节点之间的共现关系。但是这类学习框架有两个明显缺点:一是编码器之间缺少参数共享,会占用过多计算资源;二是模型缺乏泛化能力,难以推广应用于新图。
[0004]近年来,使用图神经网络(Graph Neural Network,GNN)进行图表示学习受到了广泛的关注。图神经网络通常通过邻域状态的加权总和来更新节点的隐藏状态。通过节点之间的信息传递,图神经网络能够捕捉来自其邻域的信息。
[0005]分子图是一类天然具有丰富结构信本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于对比学习的分子图表示学习方法,其特征在于,包括以下步骤:(1)获取每个分子的分子指纹表示,计算每两个分子指纹之间的相似度;(2)收集全量的化学官能团信息,为分子中的每个原子匹配对应的官能团;其中,当某个原子属于多个官能团时,优先匹配包含原子个数多的官能团;(3)用异构图对分子图建模,异构图为包含不同类型节点和边的图,不同原子对应不同的节点类型,不同键对应不同的边类型;(4)构建结构感知分子编码器,利用结构感知分子编码器中的关系图卷积网络RGCN编码分子中每个原子的表示及其所属官能团的表示,通过聚合函数将分子映射到特征空间,得到具有结构感知的特征表示;(5)根据分子之间的指纹相似度,选取正、负样本,在特征空间中进行对比学习;(6)通过在大样本分子数据集上利用对比学习的方法进行训练,得到具有结构感知的分子编码器,应用于下游分子属性的预测任务。2.根据权利要求1所述的基于对比学习的分子图表示学习方法,其特征在于,步骤(1)中,通过Rdkit将分子的SMILES表示转化为分子指纹;所述的分子指纹选择Morgan指纹、MACCs指纹和拓扑指纹中的一种。3.根据权利要求2所述的基于对比学习的分子图表示学习方法,其特征在于,步骤(1)中,两个分子指纹之间的相似度计算采用谷本系数,公式为:其中,a和b分别表示在A、B分子中显示1的数量,c表示A、B分子中同时显示1的数量。4.根据权利要求1所述的基于对比学习的分子图表示学习方法,其特征在于,步骤(4)的具体过程为:将具有初始化节点特征和官能团特征的异构图作为结构感知分子编码器的输入,结构感知分子编码器中的关系图卷积网络RGCN通过对不同类型的边计算和聚合信息,以及对不同类型的节点整合不同边所聚合的信息来进行信息传递;得到每个原子及其所属官能团的特征表示后,再将节点与官能团的特征进行聚合,得到分子的具有结构感知的特征表示。5.根据权利要求1所述的基于对...

【专利技术属性】
技术研发人员:陈华钧杨海宏方尹庄祥
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1