一种基于图拓扑的过采样方法技术

技术编号：39050472 阅读：11 留言：0更新日期：2023-10-12 19:43

本发明专利技术公开了一种基于图拓扑的过采样方法。在该方法中为了能更好的解决图神经网络的数据特性带来的训练困难问题，本发明专利技术采用图拓扑的方法来解决，并利用图变分自编码器来解决过采样问题，首先获取不平衡的图数据，并搭建并训练图变分自编码器。然后，利用图变分自编码器的编码器和解码器的权重，构建生成对抗网络模型，并对其进行训练。在训练过程中，使用少数类标签和噪声作为网络输入，生成对应标签的少数类节点以及过采样节点的边。本发明专利技术能够有效的为不平衡图数据生成高质量的少数类节点，使不平衡图成为平衡图，并帮助分类器提高不平衡场景下的分类性能。衡场景下的分类性能。衡场景下的分类性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于图拓扑的过采样方法

[0001]本专利技术属于不平衡学习和神经网络领域，特别涉及一种基于图拓扑的过采样方法。

技术介绍

[0002]近年来图神经网络取得了惊人的成就，得益于它能有效的对图结构的数据进行编码使得图神经网络在现实生活中的广泛应用例如，药物发现及使用，文本分类，异常检测，推荐系统，等诸多领域。图神经网络的一个经典任务是节点分类，其目标是正确的分类每个节点属于哪个类。但是现实世界中的图数据往往是类不平衡的，训练样本的节点数通常呈现长尾类分布，头部类的样本数量有时会是尾部类样本数量的数百倍。这将会导致分类器倾向于多数类并造成少数类分类性能不佳。尾部类的样本虽然稀少但是十分重要，例如在异常检测中，使用长尾分布的数据集训练GNN会导致任务失败。
[0003]处理不平衡分类问题的主要目标是用不平衡的数据构建无偏分类器，其方法可以分为两类，采样方法和算法方法，采样方法主要是通过对少数类进行过采样，对多数类进行欠采样，或者是同时结合了过采样与欠采样优点的混合采样。在过采样方法中，SMOTE是一种被广泛使用的采样方法，其核心思想是从现有的少数类方法中直接人工合成少数类样本。算法方法专注于设计一种更有效的算法来解决不平衡的分类问题。解决方案包括深度学习、成本敏感学习和阈值移动。他们修改模型结构和决策策略来处理问题。其中最常用的是成本敏感学习法，它利用成本矩阵来计算特定类分类错误的代价，从而修正分类器的分类边界。除此之外还有诸多经典算法，如support vector machines(SVMs)，GAN等方法...

【技术保护点】

【技术特征摘要】
1.一种基于图拓扑的过采样方法，其特征在于，具体步骤如下：步骤1，获取不平衡的图数据；步骤2，利用图数据，搭建并训练图变分自编码器；步骤3，使用图变分自编码器中的编码器和解码器的权重，搭建生成对抗网络模型；步骤4，训练生成对抗网络模型；步骤5，使用少数类标签和噪声作为网络输入，生成对应标签的少数类节点以及过采样节点的边。2.根据权利要求1所述的一种基于图拓扑的过采样方法，其特征在于所述步骤2中搭建并训练图变分自编码器，其具体步骤如下：步骤2.1，使用两层GCN建立编码器，其第一层GCN从原始图数据中提取隐藏层特征，第二层使用两个GCN分别提均值和标准差，每层GCN使用ReLU激活函数，其过程表示为：二层使用两个GCN分别提均值和标准差，每层GCN使用ReLU激活函数，其过程表示为：其中，，，其中是权重矩阵，，和共享权重；步骤2.2，生成模型简单的采用两个隐表示的内积，其过程表示为：其中其中是的元素，是sigmoid函数；步骤2.3，将图数据输入编码器，解码器输出图数据每个节点的均值和方差后，在方差上添加高斯噪声后与均值相加得到，增强编码器的鲁棒性；步骤2.4，使用作为嵌入图数据的嵌入在特征空间中的潜表示；步骤2.5，使用解码器解码潜表示，将生成图数据；步骤2.6，使用生成的图数据与原始图数据的邻接矩阵概率尽可能大，同时最小化KL损失，使用该方法构建的损失函数训练变分自编码器；步骤2.7，设置ADAM作为优化器，设置迭代次数为500次，开始训练。3.根据权利要求1所述的一种基于图拓扑的过采样方法，其特征在于所述步骤3中搭建对抗生成网络，其具体步骤如下：步骤3.1，构建ACGAN网络的生成器模型，使用图变分自编码器中的编码器获取原始图的潜表示，只用噪声...

【专利技术属性】
技术研发人员：董明刚，武天昊，
申请(专利权)人：桂林理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人