一种基于图池化对比学习的网络分类算法制造技术

技术编号：40574729 阅读：4 留言：0更新日期：2024-03-06 17:15

本发明专利技术公开了一种基于图池化对比学习的网络分类算法，涉及数据挖掘技术领域，先利用图注意力机制学习到每个节点相应的注意力分数，根据注意力分数对节点进行重要性排序并对分数较低的节点进行抛弃。将本图所保留的节点作为正样本，将其他图被丢弃的部分节点作为负样本，网络的嵌入表达作为目标节点，然后两两计算相似性分数，进行对比学习。负样本选择选择方法在对比学习中能够保留一定的图间信息，通过将本图的目标节点与正样本和负样本进行对比学习，能够更好地利用图内信息，在网络分类任务中克服了传统节点丢弃池化方法未能充分利用图内和图间信息的缺陷，在相同数据集下的模型训练结果，在各项性能指标上均超过现有技术。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据挖掘，可应用于网络分类等应用场景，具体而言，涉及一种用于网络分类任务的基于图池化对比学习的算法。

技术介绍

1、现实世界拥有大量的网络结构，例如，社交网络和分子结构等都可以抽象为节点和边组成的图结构，因此，对这些图的结构或者性能分析具有重要现实意义核应用价值。在图分析中，对不同图进行分类的是一个重要研究方向。例如，通过探索蛋白质网络的属性可以预测蛋白质是酶或非酶等。

2、图核方法是传统网络分类的一种主流方法。图核方法思想是通过图核(定义在图空间上的对称正定函数)来计算图的相似度，基于图核的分类方法一般可包括：基于子树的图核方法、基于路径的图核方法、基于子图的图核方法等。它们共同的思想是将图分解为子结构,通过对不同图的子图结构来计算图的相似度进而进行网络分类。然而这种方法由于依赖于固定特征，很难完整捕捉到图的结构和节点特征信息特征，因此，这类方法的在网络分类任务上的性能比较受限。

3、基于深度神经网络的图表达学习方法因为能够方便地获取到图的结构和节点特征信息特征，使得基于深度学习的图数据建模方法开始被应用于网络分类问题研究。在这类方法中，图池化是一个重要的信息约简机制。图池化中的一种主要方法就是进行节点丢弃，该方法首先对每个节点进行打分，然后在每个池化步骤中丢弃分数较低的节点。这种方法的操作简单，同时可以减少噪声节点的影响。

4、然而，上述基于深度学习的节点丢弃池化方法在网络分类任务中有不足之处，其中之一是没有很好的利用到图内信息和图间信息(本专利技术通过实验证明了这种信息在网

技术实现思路

1、本专利技术在于提供一种基于图池化对比学习的网络分类算法，其能够解决上述问题。

2、为了解决上述的问题，本专利技术采取的技术方案如下：

3、本专利技术提供了一种基于图池化对比学习的网络分类算法，包括以下步骤：

4、s1、确定目标图数据集ω，包含网络是网络g的子网络，其中i∈(1,n)，n为数据集中子网络的数量，网络分类的目的即为对进行分类，初始化目标图数据集ω的节点特征向量，通过图神经网络传播聚合后获得所有节点及物品的嵌入表示，节点的低维嵌入表示为e；

5、s2、通过节点的低维嵌入表示e计算目标图数据集ω的注意力分数z，根据注意力分数z和池化率k，从网络g中按照注意力分数高低的方式选取出保留的节点集vg和丢弃的节点集rg，保留节点的个数为网络g中所有节点个数乘以池化率k，中被保留的节点嵌入记为中被丢弃的节点嵌入记为

6、s3、通过取中节点的低维嵌入表示e每个维度最大值，得到网络级目标嵌入表示通过取中节点的低维嵌入表示e每个维度平均值，得到网络级目标嵌入表示

7、s4、取被保留的节点嵌入中所有节点嵌入表示作为正样本

8、s5、在网络g中选取随机选取中被丢弃的节点嵌入中的节点嵌入表示，作为负样本负样本数量为正样本数量的两倍；

9、s6、利用网络级目标嵌入表示和正样本计算余弦相似度，得到第一组网络级目标嵌入的评分利用网络级目标嵌入表示和负样本计算余弦相似度，得到第二组网络级目标嵌入的评分

10、s7、根据两组网络级目标嵌入的评分和对模型的loss训练函数进行更新；

11、s8、判断基于图池化对比学习的网络分类模型是否完成目标轮次的迭代训练，若是，则执行步骤s9，否则跳转至步骤s1；

12、s9、保存训练完成的基于图池化对比学习的网络分类模型，用于图数据的分类。

13、在本专利技术的一较佳实施方式中，步骤s1中，图神经网络传播聚合使用三层的gcn。

14、在本专利技术的一较佳实施方式中，步骤s2中，池化率k∈(0,1)，根据池化率和注意力分数丢弃网络g中重要性较低的节点。

15、在本专利技术的一较佳实施方式中，步骤s3中，

16、在本专利技术的一较佳实施方式中，步骤s6中，网络级目标嵌入的评分计算公式为

17、

18、在本专利技术的一较佳实施方式中，步骤s7中，训练loss函数的更新公式为

19、

20、

21、n为和中正负样本的总共数量；

22、其中，σ(·)为sigmoid函数，为的正样本集合，为的负样本集合。

23、与现有技术相比，本专利技术的有益效果是：

24、为一种新的基于图池化对比学习的网络分类算法(graph classificationmethod based on graph pooling contrast learning,gc2gcpl)，涉及数据挖掘
，先利用图注意力机制学习到每个节点相应的注意力分数，根据注意力分数对节点进行重要性排序并对分数较低的节点进行抛弃。将本图所保留的节点作为正样本，将其他图被丢弃的部分节点作为负样本，网络的嵌入表达作为目标节点，然后两两计算相似性分数，进行对比学习。负样本选择选择方法在对比学习中能够保留一定的图间信息，通过将本图的目标节点与正样本和负样本进行对比学习，能够更好地利用图内信息，在网络分类任务中克服了传统节点丢弃池化方法未能充分利用图内和图间信息的缺陷，在大部分数据集上模型性能指标均有提高。

25、本专利技术选择5个经典网络分类数据集，生物化学网络：d&d包含蛋白质结构的图。节点代表氨基酸，标签表示蛋白质是酶还是非酶。proteins也是一组蛋白质数据，图的标签表示该蛋白质数据是否为酶。mutag是关于化学硝基化合物的数据集标签表示该物质芳香族还是杂芳族。社交网络：imdb数据集每个节点代表一个演员，每条边代表两个演员是否出现在同一个电影里。imdb-binar类别有两个：爱情片和动作片，如果同时是爱情片和动作片，就会归类为动作片。imdb-multi则在爱情片和动作片的基础上，加了一个科幻片类别。

26、选择8种使用了图池化技术的方法作为性能对比模型，将数据集划分为三份，其中80％的数据集用于训练。10％的数据集用于训练中的验证，对每个模型都采取同样的初始节点特征。使用adam优化器学习率设置为1e-4，节点保留率设置为0.5，使用不同的随机种子重复实验10次，每个随机种子取10次结果，一共100次测试结果报告准确率结果。在表1中报告了本专利技术算法在5个真实图数据集上与基线算法在网络分类任务上进行对比，以标准差来表示波动数值，其中加黑的结果为最好结果。

27、表1总体性能比较

28、

29、为使本专利技术的上述目的、特征和优点能更明显易懂，下文特举本专利技术实施例，并配合本文档来自技高网...

【技术保护点】

1.一种基于图池化对比学习的网络分类算法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于图池化对比学习的网络分类算法，其特征在于，步骤S1中，图神经网络传播聚合使用三层的GCN。

3.根据权利要求1所述一种基于图池化对比学习的网络分类算法，其特征在于，步骤S2中，池化率K∈(0,1)，根据池化率和注意力分数丢弃网络G中重要性较低的节点。

4.根据权利要求1所述一种基于图池化对比学习的网络分类算法，其特征在于，步骤S3中，

5.根据权利要求1所述一种基于图池化对比学习的网络分类算法，其特征在于，步骤S6中，网络级目标嵌入的评分计算公式为

6.根据权利要求1所述一种基于图池化对比学习的网络分类算法，其特征在于，步骤S7中，训练Loss函数的更新公式为

【技术特征摘要】

1.一种基于图池化对比学习的网络分类算法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于图池化对比学习的网络分类算法，其特征在于，步骤s1中，图神经网络传播聚合使用三层的gcn。

3.根据权利要求1所述一种基于图池化对比学习的网络分类算法，其特征在于，步骤s2中，池化率k∈(0,1)，根据池化率和注意力分数丢弃网络g中重要性...

【专利技术属性】
技术研发人员：胡能兵，蔡彪，唐小川，
申请(专利权)人：成都理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人