一种基于子图网络和对比学习的化合物性质预测方法技术

技术编号:36066715 阅读:31 留言:0更新日期:2022-12-24 10:33
一种基于子图网络和对比学习的化合物性质预测方法,包括:1)化合物数据采集,通过下载网络上现有的公开分子化合物数据集进行训练;2)子图网络变换,按照SGN规则对原始图网络进行一阶、二阶子图变换,获得子图网络结构;3)图编码器编码,通过GIN网络对原始图和一阶、二阶子图网络进行编码,提取图级表示向量;4)映射头提取网络特征并进行特征融合;5)计算对比损失,利用归一化的温度标量交叉熵损失NT

【技术实现步骤摘要】
一种基于子图网络和对比学习的化合物性质预测方法


[0001]本专利技术涉及对比自监督学习、网络科学以及数据挖掘
,涉及一种化合物性质预测方法。

技术介绍

[0002]现实世界的许多系统都可以用网络表示,如生物网络、社交网络等。这些网络以图的形式展现,获取有效的图级表示能在实际任务中发挥着重要作用,实现高效的分类或预测功能,例如化学领域的化合物性质预测等。在化学领域中,少量的分子或蛋白质已被人们探索并认知,但仍存在大量化合物数据的作用与性质是未知的。对这些数据进行精准标注需要耗费大量人力、物力与时间,并且高度依赖于少数标签数据的模型容易导致过拟合和泛化能力差等问题。因此,人们将自监督学习应用到表征化学结构中,以实现无监督模式下对分子或蛋白质性质的预测分类。
[0003]图结构数据的自监督学习因其能够提高未标记图的泛化性、转移性以及鲁棒性而引起人们兴趣,包括对比学习。现有的基于对比学习的图分类算法大多通过随机增删节点、连边和特征掩蔽来实现数据增强,这在实际应用中容易破坏图的实际语义信息。另一方面,现有GNN算法大多只关注节点级或图级信本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于子图网络和对比学习的化合物性质预测方法,其特征在于,包括以下步骤:S1:化合物数据获取,通过下载网络上现有的公开分子化合物数据集进行训练;S2:子图网络变换,按照SGN规则对原始图进行一阶、二阶子图变换,获得子图网络结构;S3:图编码器编码,通过GIN网络对原始图和一阶、二阶子图网络进行编码,提取图级表示向量;S4:映射头提取网络特征并进行特征融合,通过共享的3层感知器MLP提取特征,得到3个网络表征向量,分别来自于原始图网络、一阶子图网络和二阶子图网络。将3个表征向量融合作为增广视图最终的图级表示;S5:计算对比损失,利用归一化的温度标量交叉熵损失NT

Xent计算增广视图与原始图之间的对比损失。要求原始图与它自身的增广视图相似度最大,与其他图的增广视图的相似度尽可能小。通过不断迭代,损失函数值降低,到达一定阈值,结束模型训练;S6:将数据集中图数据输入无监督学习模式下训练好的编码器中获取最终图表示。使用最终图表示和已知的图标签进行有监督的随机森林分类器的训练,最后通过十折交叉验证获得图分类精度和图预测标签。高的图分类精度表明系统能准确识别未知分子或蛋白质性质所归属类别,获取的图预测标签则成功实现分子性质预测任务。2.如权利要求1所述的一种基于子图网络和对比学习的化合物性质预测方法,其特征在于,所述步骤S1中,本发明需要在公开硝基化合物数据集MUTAG、小鼠致癌性数据集PTC、抗肿瘤数据集NCI1和蛋白质数据集PROTEIN上进行模型训练和测试,这些数据集可通过图神经网络库PyG的TUDataset自行加载。下载的每种数据集中均已将现实世界的分子或蛋白质结构转化为图论中的图结构,包含节点、连边、图标签等等信息。其中节点相当于原子,连边相当于化学键,图标签相当于对应化合物的化学属性。3.如权利要求1所述的一种基于子图网络和对比学习的化合物性质预测方法,其特征在于,所述步骤S2包括以下步骤:S2.1:一阶子图网络变换。本发明根据SGN规则执行子图变换,能够将节点级图网络转换为包含边信息的子图级网络。具体来说,将一个无标签图集合G=(V,E)视为原始网络,其中V={v1,v2,

,v
n
}是节点集合,E∈V
×
V是连边集合,N
i
表示成对连接的节点N
i
=(v
j
,v
k
)。子图网络变换函数将所有原始网络的连边转换为新网络的节点,并根据连边两端节点类属性重新定义新节点的类标签,构建了一个新的节点集满足V
s
={N
i
|i=0,1,2,

,n}。同时,如果原始网络中两条连边共用一个节点,则在子图网络中对应两节点相连。根据上述规则,由原始网络获得一阶子图网络作为一种增广视图。S2.2:二阶子图网络变换。二阶子图网络在一阶子图的基础上按照SGN规则变换得到,即取二阶子图网络作为另一种增广视图。4.如权利要求1所述的一种基于子图网络和对比学习的化合物性质预测方法,其特征在于,所述步骤S3包括以下步骤:S3

1:将原始网络G、一阶子图和二阶子图输入到三个同类型但是独立的3层图同构神经网络GIN中,获得节点级表示。GIN网络可以将来自同一原始网络的增广视图
映射为相似的嵌入,以捕获图结构层次的相似性。它使用K层GINConv进行邻接节点聚合,当层数越多时,节点嵌入的感受野越大。节点表征捕获距离节点K的邻接节点信息,计算出节点v的第k层表示点v的第k层表示其中,ε是可学习的参数,N(v)是节点v的邻居节点,k表示第k层。S3

2:然后,对节点表示做图池化来得到图级表示,选用全局平均池化,对每一层的所有节点特征取均值,横向拼接K层节点特征,获得相应的特征向量。5.如权利要求1所述的一种基于子图网络和对比学习的化...

【专利技术属性】
技术研发人员:宣琦邵佳飞王金焕
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1