一种多通道图神经网络伪标签选择方法技术

技术编号:36108833 阅读:10 留言:0更新日期:2022-12-28 14:10
本发明专利技术提供一种多通道图神经网络伪标签选择方法。该方法包括:步骤1:构建训练集和多通道图神经网络;步骤2:采用所述训练集数据对所述多通道图神经网络进行训练;其中,一个图数据作为一个通道的输入;步骤3:将未标注的图数据分别作为训练好的多通道神经网络的各个通道的输入并得到各个通道输出的图数据节点的伪标签集合;步骤4:计算各个通道输出的伪标签集合的交集,使用所述交集中的伪标签对所述图数据未标注的节点进行标注后,将其加入至训练集数据;步骤5:重复步骤2至步骤4,直至达到终止条件;步骤6:将N个图神经网络的输出进行聚合,然后使用注意力机制得到最终的输出。然后使用注意力机制得到最终的输出。然后使用注意力机制得到最终的输出。

【技术实现步骤摘要】
一种多通道图神经网络伪标签选择方法


[0001]本专利技术涉及图神经网络
,尤其涉及一种多通道图神经网络伪标签选择方法。

技术介绍

[0002]伪标签学习是一种有效的半监督学习方式,使用模型的类别预测作为要进行训练的标签,使未标记的数据得到利用。基于伪标签的半监督方法通常需要迭代地训练模型数次,不断采纳模型预测结果扩大标记训练集规模。Rizve等人认为直接使用任务模型预测的后验概率确定伪标签不准确,因为深度网络预测的后验概率不能真实反应预测的准确度,当模型生成高置信度的错误预测时,这些都是错误的预测将会进一步加强模型的偏差,引入大量的错误伪标签,经过半监督训练的迭代传播,导致模型性能的恶化。
[0003]伪标签学习被引入到图神经网络中,现有的研究往往通过人为卡阈值的方式来获得高置信度的伪标签,而忽略低置信度的标签,但是阈值往往很难确定。2019年,Vashishth等人提出ConfGCN,基于图卷积神经网络(Graph Convolutional Networks,GCN)中设置的关于标签的置信度估计标签得分,确定邻域聚合期间一个节点对另一个节点的影响,从而获得各向异性能力。Qin等人提出了一种新的用于半监督学习的估计标签图卷积网络(Graph Convolution with Estimated Labels,E

GCN),利用给定的标签和估计的标签来同时和联合地进行拓扑优化的图卷积。Sun等人提出多阶段自监督模型(Multi

Stage Self Supervised,M3S),在每一阶段通过找到置信度最大的前个节点加入到有标签的节点集合中来不断扩大监督信号,并应用DeepCluster和对齐机制探索的置信度最大的前t个的标签和DeepCluster的伪标签一致的情况下,将该节点加入下一阶段的训练。t的大小是难以确定的,并且t的改变会对模型的性能有显著的影响。

技术实现思路

[0004]以往的伪标签学习方法,当模型生成高置信度的错误预测时,这些错误的预测将会进一步加强模型的偏差,引入大量的错误伪标签,为了解决该问题,本专利技术提供一种多通道图神经网络伪标签选择方法,基于“伪标签错误的地方,往往是不同分类器预测结果不同的地方”这一客观事实,利用多通道模型的一致性,来选择出可靠的伪标签。
[0005]本专利技术提供的一种多通道图神经网络伪标签选择方法,包括:
[0006]步骤1:构建训练集和多通道图神经网络,所述训练集包括图数据若干已标注的节点,每个被标注节点有一个类别标签;其中,所述多通道图神经网络包括N个图神经网络,每个图神经网络作为一个通道;
[0007]步骤2:采用所述训练集数据对所述多通道图神经网络进行训练;其中,一个图数据作为一个通道的输入;
[0008]步骤3:将未标注的图数据节点分别作为训练好的多通道神经网络的各个通道的输入并得到各个通道输出的图数据节点的伪标签集合;
[0009]步骤4:计算各个通道输出的伪标签集合的交集,使用所述交集中的伪标签对所述图数据未标注的节点进行标注后,将其加入至训练集数据;
[0010]步骤5:重复步骤2至步骤4,直至达到终止条件;
[0011]步骤6:将N个图神经网络的输出进行聚合,然后使用注意力机制得到最终的输出。
[0012]进一步地,步骤1中,采用图数据增强方式构建训练集,所述图数据增强方式包括节点删除、边缘扰动、属性掩盖和划分为多个子图中的至少一种方式。
[0013]进一步地,在对所述多通道图神经网络进行训练时,损失函数采用图神经网络输出的嵌入向量与节点类别标签的交叉熵函数。
[0014]本专利技术的有益效果:
[0015]伪标签错误的地方,往往是分类器预测不同结果的地方,反之,如果多个分类器的预测结果均包括某个伪标签,则可以认为该伪标签是可靠的,是真正具有高置信度的。基于此,本专利技术提供的一种多通道图神经网络伪标签选择方法,基于多通道一致性可以更准确地筛选出可靠的伪标签,即通过计算各个通道输出的伪标签集合的交集,将交集中的伪标签作为可靠的伪标签加入到训练集,可以实现提高图神经网络半监督分类性能的目的。
附图说明
[0016]图1为本专利技术实施例提供的一种多通道图神经网络伪标签选择方法的流程示意图之一;
[0017]图2为本专利技术实施例提供的一种多通道图神经网络伪标签选择方法的流程示意图之二;
[0018]图3为本专利技术实施例提供的采用图数据增强方式构建训练集的示意图。
具体实施方式
[0019]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0020]实施例1
[0021]如图1所示,本专利技术实施例提供一种多通道图神经网络伪标签选择方法,包括以下步骤:
[0022]S101:构建训练集和多通道图神经网络,所述训练集包括图数据若干已标注的节点,每个被标注节点有一个类别标签;其中,所述多通道图神经网络包括N个图神经网络,每个图神经网络作为一个通道;
[0023]S102:采用所述训练集数据对所述多通道图神经网络进行训练;其中,一个图数据作为一个通道的输入;
[0024]S103:将未标注的图数据节点分别作为训练好的多通道神经网络的各个通道的输入并得到各个通道输出的图数据节点的伪标签集合;
[0025]S104:计算各个通道输出的伪标签集合的交集,使用所述交集中的伪标签对所述图数据未标注的节点进行标注后,将其加入至训练集数据;
[0026]S105:重复步骤S102至步骤S104,直至达到终止条件;
[0027]S106:将N个图神经网络的输出进行聚合,然后使用注意力机制得到最终的输出。
[0028]可以理解,伪标签错误的地方,往往是分类器预测不同结果的地方,反之,如果多个分类器的预测结果均包括某个伪标签,则可以认为该伪标签是可靠的,是真正具有高置信度的。基于此,本专利技术实施例提供的一种多通道图神经网络伪标签选择方法,基于多通道一致性可以更准确地筛选出可靠的伪标签,即通过计算各个通道输出的伪标签数据集的交集,将交集中的伪标签作为可靠的伪标签加入到训练集中,可以实现提高图神经网络半监督分类性能的目的。
[0029]实施例2
[0030]在上述实施例1的基础上,如图2所示,来进一步阐述本专利技术的技术方案,本专利技术实施例具体包括以下步骤:
[0031]S201:通过图数据增强方式来构建训练集,并构建多通道图神经网络;
[0032]具体地,采用图数据增强方式对一个已标注的图数据进行处理,得到所述图数据的多个不同的图视图,一个图视图即为一个新的已标注的图数据;所述图数据增强方式包括节点删除、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多通道图神经网络伪标签选择方法,其特征在于,包括:步骤1:构建训练集和多通道图神经网络,所述训练集包括图数据若干已标注的节点,每个被标注节点有一个类别标签;其中,所述多通道图神经网络包括N个图神经网络,每个图神经网络作为一个通道;步骤2:采用所述训练集数据对所述多通道图神经网络进行训练;其中,一个图数据作为一个通道的输入;步骤3:将未标注的图数据节点分别作为训练好的多通道神经网络的各个通道的输入并得到各个通道输出的图数据节点的伪标签集合;步骤4:计算各个通道输出的伪标签集合的交集,使用所述交集中的伪标签对所述图数据未标注的节...

【专利技术属性】
技术研发人员:闫镔石舒豪白禄鑫陈健乔凯王林元宋宝杰海金金
申请(专利权)人:中国人民解放军战略支援部队信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1