一种基于图拓扑的过采样方法技术

技术编号:39050472 阅读:11 留言:0更新日期:2023-10-12 19:43
本发明专利技术公开了一种基于图拓扑的过采样方法。在该方法中为了能更好的解决图神经网络的数据特性带来的训练困难问题,本发明专利技术采用图拓扑的方法来解决,并利用图变分自编码器来解决过采样问题,首先获取不平衡的图数据,并搭建并训练图变分自编码器。然后,利用图变分自编码器的编码器和解码器的权重,构建生成对抗网络模型,并对其进行训练。在训练过程中,使用少数类标签和噪声作为网络输入,生成对应标签的少数类节点以及过采样节点的边。本发明专利技术能够有效的为不平衡图数据生成高质量的少数类节点,使不平衡图成为平衡图,并帮助分类器提高不平衡场景下的分类性能。衡场景下的分类性能。衡场景下的分类性能。

【技术实现步骤摘要】
一种基于图拓扑的过采样方法


[0001]本专利技术属于不平衡学习和神经网络领域,特别涉及一种基于图拓扑的过采样方法。

技术介绍

[0002]近年来图神经网络取得了惊人的成就,得益于它能有效的对图结构的数据进行编码使得图神经网络在现实生活中的广泛应用例如,药物发现及使用,文本分类,异常检测,推荐系统,等诸多领域。图神经网络的一个经典任务是节点分类,其目标是正确的分类每个节点属于哪个类。但是现实世界中的图数据往往是类不平衡的,训练样本的节点数通常呈现长尾类分布,头部类的样本数量有时会是尾部类样本数量的数百倍。这将会导致分类器倾向于多数类并造成少数类分类性能不佳。尾部类的样本虽然稀少但是十分重要,例如在异常检测中,使用长尾分布的数据集训练GNN会导致任务失败。
[0003]处理不平衡分类问题的主要目标是用不平衡的数据构建无偏分类器,其方法可以分为两类,采样方法和算法方法,采样方法主要是通过对少数类进行过采样,对多数类进行欠采样,或者是同时结合了过采样与欠采样优点的混合采样。在过采样方法中,SMOTE是一种被广泛使用的采样方法,其核心思想是从现有的少数类方法中直接人工合成少数类样本。算法方法专注于设计一种更有效的算法来解决不平衡的分类问题。解决方案包括深度学习、成本敏感学习和阈值移动。他们修改模型结构和决策策略来处理问题。其中最常用的是成本敏感学习法,它利用成本矩阵来计算特定类分类错误的代价,从而修正分类器的分类边界。除此之外还有诸多经典算法,如support vector machines(SVMs),GAN等方法
[0004]基于图节点的不平衡分类问题,近年来也提出了一些方法来处理。ImGAGN提出利用GAN网络生成次要节点的与生成节点之间的权重矩阵,当矩阵中的值大于设定的阈值时,则视为两个节点之间存在一条边的关系。同时利用权重矩阵插值生成节点特征。该方法主要针对二分类问题,在多类不平衡问题中需要训练多个模型。GraphSMOTE通过对次要类中两个节点之间插值合成少数类节点,并使用预训练的边缘预测器确定合成节点与两个源节点站之间的连接性。但该方法仅使用少数类生成少数类,在长尾分布中,尾部类的节点数过少,因此该方法合成的节点样本多样性收到极大的挑战。GraphENS通过选取少数类节点和目标节点的一阶邻域节点合成少数类样本,并通过节点特征显著性混合所选节点特征,生成少数类节点的特征。该方法虽然显著的增加了样本的多样性。但是该方法中合成的节点的邻居仅限于少数类节点和其选中的目标节点的一阶邻居之间,生成节点的多样性依然受限。无法有效的提高过采样样本的多样性。

技术实现思路

[0005]为了解决现有技术的不足,实现过采样节点的特征多样性,本专利技术采用如下的技术方案:
[0006]一种基于图拓扑的过采样方法,其特征在于,具体步骤如下:
[0007]步骤1,获取不平衡的图数据;
[0008]步骤2,利用图数据,搭建并训练图变分自编码器;
[0009]步骤3,使用图变分自编码器中的编码器和解码器的权重,搭建生成对抗网络模型;
[0010]步骤4,训练生成对抗网络模型;
[0011]步骤5,使用少数类标签和噪声作为网络输入,生成对应标签的少数类节点,以及过采样节点的边。
[0012]进一步地,在所述步骤2中搭建并训练图变分自编码器,其具体步骤如下:
[0013]步骤2.1,使用两层GCN建立编码器,其第一层GCN从原始图数据中提取隐藏层特征,第二层使用两个GCN分别提均值和标准差,每层GCN使用ReLU激活函数,其过程表示为:
[0014][0015][0016]其中,μ=GCN
μ
(X,A),logσ=GCN
σ
(X,A),其中W
i
是权重矩阵ReLU(
·
)=MAX(0,
·
),GCN
μ
和GCN
σ
共享权重W0;
[0017]步骤2.2,生成模型简单的采用两个隐表示的内积,其过程表示为:
[0018][0019]其中p(A
ij
=1|z
i
,z
j
)=σ(z
iT
z
j
)其中A
ij
是A的元素,σ(
·
)是sigmoid函数;
[0020]步骤2.3,将图数据输入编码器,解码器输出图数据每个节点的均值和方差后,在方差上添加高斯噪声后与均值相加得到Z,增强编码器的鲁棒性;
[0021]步骤2.4,使用Z作为嵌入图数据的嵌入在特征空间中的潜表示;
[0022]步骤2.5,使用解码器解码潜表示Z,将Z生成图数据;
[0023]步骤2.6,使用生成的图数据与原始图数据的邻接矩阵概率尽可能大,同时最小化KL损失,使用该方法构建的损失函数训练变分自编码器;
[0024]步骤2.7,设置ADAM作为优化器,设置迭代次数为500次,开始训练。
[0025]进一步地,在所述步骤3中搭建对抗生成网络,其具体步骤如下:
[0026]步骤3.1,构建ACGAN网络的生成器模型,使用图变分自编码器中的编码器获取原始图的潜表示,只用噪声数据通过两层全连接网络生成过采样节点的潜表示,将原始图的潜表示和生成的潜表示拼接后,使用图变分自编码器中的解码器生成过采样图的权重矩阵,使用权重矩阵与原始图的节点特征相乘获得过采样节点的节点特征,同时设置阈值,当权重矩阵中的值高于阈值时置为1,其他为0,得到过采样图的邻接矩阵,其中全连接网络的输出维度分别为256和128;
[0027]步骤3.2,构建ACGAN网络的判别器模型,使用两层GCN网络作为分类器,其中GCN网络的输出维度分别是256,128,在第二层GCN网络后连接两个全连接神经网络,分别输出样本类别和是否属于过采样节点。
[0028]进一步地,在所述步骤4训练生成对抗网络模型,其具体步骤如下:
[0029]步骤4.1,将噪声通过生成器G生成带有对应标签的样本X
fake
=G(c,z);
[0030]步骤4.2,别器分别给出生成数据在源和类标签上的概率分布,P(S|X),P(C|X)=D(X);
[0031]步骤4.3,损失函数L
s
和L
C
分别描述原和分类损失。分类器的目标是最大化L
s
+L
c
而生成器的目标是最大化L
s

L
c
,其中L
s
和L
C
分别呗定义为,
[0032]L
S
=E[logP(S=real|X
real
)]+E[logP(S=fake|X
fake
)][0033]L
c
=E[logP(C=c|X
real
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图拓扑的过采样方法,其特征在于,具体步骤如下:步骤1,获取不平衡的图数据;步骤2,利用图数据,搭建并训练图变分自编码器;步骤3,使用图变分自编码器中的编码器和解码器的权重,搭建生成对抗网络模型;步骤4,训练生成对抗网络模型;步骤5,使用少数类标签和噪声作为网络输入,生成对应标签的少数类节点以及过采样节点的边。2.根据权利要求1所述的一种基于图拓扑的过采样方法,其特征在于所述步骤2中搭建并训练图变分自编码器,其具体步骤如下:步骤2.1,使用两层GCN建立编码器,其第一层GCN从原始图数据中提取隐藏层特征,第二层使用两个GCN分别提均值和标准差,每层GCN使用ReLU激活函数,其过程表示为:二层使用两个GCN分别提均值和标准差,每层GCN使用ReLU激活函数,其过程表示为:其中,,,其中是权重矩阵,,和共享权重;步骤2.2,生成模型简单的采用两个隐表示的内积,其过程表示为:其中其中是的元素,是sigmoid函数;步骤2.3,将图数据输入编码器,解码器输出图数据每个节点的均值和方差后,在方差上添加高斯噪声后与均值相加得到,增强编码器的鲁棒性;步骤2.4,使用作为嵌入图数据的嵌入在特征空间中的潜表示;步骤2.5,使用解码器解码潜表示,将生成图数据;步骤2.6,使用生成的图数据与原始图数据的邻接矩阵概率尽可能大,同时最小化KL损失,使用该方法构建的损失函数训练变分自编码器;步骤2.7,设置ADAM作为优化器,设置迭代次数为500次,开始训练。3.根据权利要求1所述的一种基于图拓扑的过采样方法,其特征在于所述步骤3中搭建对抗生成网络,其具体步骤如下:步骤3.1,构建ACGAN网络的生成器模型,使用图变分自编码器中的编码器获取原始图的潜表示,只用噪声...

【专利技术属性】
技术研发人员:董明刚武天昊
申请(专利权)人:桂林理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1