一种基于结构感知的半监督图节点分类方法技术

技术编号：40259507 阅读：10 留言：0更新日期：2024-02-02 22:50

本发明专利技术公开了一种基于结构感知的半监督图节点分类方法，以及相应的半监督学习框架。该方法旨在应对图结构数据中标注数据有限以及对下游节点分类任务适应性不足的问题。该方法的步骤包括：1.通过无监督任务目标进行图节点的自监督学习，降低节点表示对标签的依赖性，以弥补标注数据的不足；2.构建适用于下游节点分类任务的半监督学习架构；3.基于结构感知的半监督图节点分类方法完成对节点的分类。以更有效的方式利用图结构数据中的有限标注数据，并解决节点表示模型在下游任务中的适应性不足的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种图神经网络应用领域中的节点分类方法，更确切地说本专利技术涉及一种基于结构感知的半监督图节点分类方法。

技术介绍

1、近年来，随着图神经网络(gnn)的研究深入，图数据的表示学习领域取得了显著的进展。图表示学习在深入理解和挖掘复杂关系网络数据信息中扮演着至关重要的角色。其核心目标是将图结构数据中的节点、边或整个图的要素信息转化为连续数值型的向量表示，以便在这些数值型的向量上执行更复杂的机器学习任务。比如常见的节点分类、链接预测、图分类等任务。与传统的数据表示学习方法相比，图表示学习能够更有效地捕捉实体或事件之间的复杂关系。其相关的应用为社交网络分析、推荐系统、生物信息学等多领域提供了强大的分析工具。

2、然而，尽管图表示学习取得了较大的进展，但是其在实际应用中仍然面临一个重要的挑战，即标签数据的有限性。在大多数情况下，获取大规模的标签数据是一项耗时且费力的昂贵任务。在图表示学习中，尤其是对于节点级别的任务，例如节点分类，大量标记数据是推动模型性能的关键因素之一。然而，实际情况中往往存在着标签数据严重不足的问题，这导致了向量表示模型的能力受限，难以处理未经充分标记的节点，进而进一步影响其相关应用的性能表现。

3、因此，为了克服带标签数据的不足，研究人员开始探索半监督图表示学习方法，以更充分地利用未标记的数据。旨在通过结合标签和未标签数据，提高模型性能，使得图表示学习在真实世界的复杂网络中更具实用性。通过解决标签数据不足的问题，半监督图表示学习有望推动图数据分析领域的发展，并为解决实际问题提供高效的解决方案。

4、目前，图的节点级表示学习方法在面向分类任务时主要采用两阶段训练的方式：(1)第一阶段，用无监督(自监督)方式生成节点表示：

5、第一阶段通常采用无监督(自监督)的表示学习方法来初步生成节点的表示，降低节点表示对标签的依赖性。比如常见的有基于互信息理论的算法，训练一个编码模型来最大化节点的高阶全局表示和输入的局部部分表示的互信息，以及通过图增强方法产生多视图，对比不同视图之间的节点和图来生成节点的表示。

6、(2)第二阶段，将节点表示用于监督式学习目标来构建分类任务模型：

7、第二阶段通常假设第一阶段得到的节点的向量表示足够有效，然后在分类目标的指导下，将得到的向量表示直接用于训练分类模型来解决分类任务。分类模型常采用的有单层/多层神经网络，支持向量机模型、knn等。

8、尽管目前已经进行了一些关于半监督式表示学习的研究，但仍存在许多值得深入探索的方面，主要体现在以下两个方面：

9、1.一些采用两阶段训练方式的方法，首先通过无监督方法对节点进行预训练生成表示，然后将这些表示固定后直接用于训练适应于下游任务的分类模型。在第二阶段，分类模型的性能更多地取决于第一阶段获得的节点表示。然而，由于第一阶段的训练目标与真实的下游任务目标可能存在差距，有时导致模型在第二阶段性能不如预期。

10、2.另一些尝试如自然语言处理(nlp)领域那样采用预训练微调方式的方法，例如使用无监督目标和大量相关数据集预训练生成节点表示的模型，并在监督式任务中对无监督方式获得的节点向量表示模型进行微调。探索如何更有效地迁移通用信息，使得模型能够更好地适应下游任务，是预训练微调模式追求的一个关键方向。然而，当前由于指导模型训练的预训练任务目标与下游任务目标之间有时存在较大差距，可能会导致模型对下游任务的适应性不足，进而导致应用性能表现不如人意。

11、这表明现有的许多方法虽然也能同半监督模式类似，使得学得的节点表示降低对标签信息的依赖性，但有时忽视了图的表示学习模型和下游任务目标间的差异性，为了追求节点表示能更好的适应下游任务，我们需要进一步优化图节点表示的生成过程，以匹配下游的节点分类任务。

技术实现思路

1、本专利技术所要解决的问题是：通过半监督学习的架构，针对图结构数据中标注数据的有限性和对下游节点分类任务的适应性，提出一种基于结构感知的半监督图节点分类方法。

2、为达到上述目标，本专利技术是采用如下技术方案实现的：

3、1.所述的基于结构感知的半监督图节点分类方法，包括如下步骤：

4、(1)数据处理和特征提取

5、首先，对原始数据进行预处理，构建图网络结构。其中节点表示实体，边表示实体之间的关系。原始数据可以为文献引文网络、帖子和用户之间的关系组成的网络等。原始图数据经过预处理后以得到能够较为全面反映给定图信息的输入数据。以非加权无向图为例，给定图g＝(v,e)，其中v＝{v1,v2,...,vn}，vi表示抽象出来的第i个实体对应的节点，图的邻接矩阵设为a，对于非加权无向图来说，如果ai,j＝1表示节点i和节点j之间存在一条边，如果ai,j＝0则表示节点间不存在边。

6、对于图结构数据的特征提取，不仅可以从全图的连接关系中学习节点间的特征表示，还可以在预处理阶段生成抽象的实体自身的属性特征。具体而言，我们可以通过nlp领域的特征向量生成技术，为每个实体节点初始化其自身的属性特征向量，设其为x＝{x1,x2,...xn}，其中表示节点vi对应的初始化的属性向量，d对应向量的维度大小。这包括了使用文本嵌入、独热编码等方法，例如在引文网络中，可以考虑标题和关键词的文本嵌入、作者的独热编码以及发表年份等信息。这样的预处理步骤能够为节点提供更加丰富的原始属性信息，为图的后续特征学习提供更全面的输入。

7、图的特征提取过程涉及对节点和边的表示进行学习，以获得整体图的节点级表示。这涵盖了对节点特征和边特征的综合学习，旨在捕捉图结构中的复杂关系和拓扑信息。通过节点级表示学习，模型能够有效地表达节点间的相互作用，实现对整个图的特征提取和表示学习，为后续任务如节点分类、链接预测等提供更有意义的特征表示。对于给定图的n个节点，节点级的表示学习的目标是学习每个顶点的映射函数f，使得zi＝f(xi),其中zi为实体节点vi在向量空间中的表示。zi对应的向量维度d通常远小于初始化的节点的嵌入维度d。

8、(2)以链接预测作为自监督任务以生成图的结构特征向量

9、在无监督(自监督)方式下生成图的结构特征向量允许系统在没有明确标签的情况下学习图结构中的丰富信息。通过自监督任务，系统可以利用图的内在结构和拓扑信息，无需类别标签即可生成结构特征向量。其步骤如下：

10、1)节点采样：对于节点数量多，内存占用较大的任务可采用分批采样法。在每轮训练迭代前，从图中随机选择一批节点作为锚点，并以选中的节点进行扩散，对每个锚点执行随机游走或者多阶邻居采样的方式，沿着锚点的边扩散来选择一定数量的邻居节点，最终形成包含描点及其一定数量和阶数的邻居节点的局部子图。

11、2)消息传递：消息传递的方式对子图的信息局部聚合和更新。针对每个锚点，将其邻居节点的表示进行聚合。这可以通过对邻居节点的表示进行池化、平均、拼接等操作来实现。之后将聚合得到的信息本文档来自技高网...

【技术保护点】

1.一种基于结构感知的半监督图节点分类方法，其特征在于：包括如下步骤：

【技术特征摘要】

1.一种基于结构感知的半监督图节点分...

【专利技术属性】
技术研发人员：王英，陈子豪，马涪元，李莹姬，
申请(专利权)人：吉林大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人