当前位置: 首页 > 专利查询>山西大学专利>正文

一种基于图对比学习的引文网络节点分类方法及系统技术方案

技术编号:39502985 阅读:8 留言:0更新日期:2023-11-24 11:34
本发明专利技术涉及引文网络节点分类技术领域,提供了一种基于图对比学习的引文网络节点分类方法及系统,方法包括:将引文网络图数据利用数据增强获得两个增强视图,经编码器获得增强视图节点嵌入表示;基于原始图数据利用

【技术实现步骤摘要】
一种基于图对比学习的引文网络节点分类方法及系统


[0001]本专利技术涉及引文网络节点分类
,尤其涉及一种基于图对比学习的引文网络节点分类方法及系统


技术介绍

[0002]大数据时代,图
(
网络
)
数据无处不在,图数据可以自然的表达对象之间的复杂关系,适用于现实世界中的复杂应用场景

有效的分析和挖掘图数据,对相关产业的发展可以起到巨大的推动作用

在图机器学习领域,图卷积神经网络
GCN(Graph Convolutional Networks)
旨在学习节点的低维嵌入表示,在节点分类中取得了良好效果,且已成为图表示学习的强有力工具

然而,大多数
GCN
方法属于监督学习或半监督学习范畴,需要大量高质量的节点标签进行有效的模型优化

但是,在实际应用中,收集高质量标签十分困难和昂贵

例如引文网络是典型的网络大数据,其由文献间引用和被引用的关系构成

引文网络数据可以用来描述科学领域的发展

学科间的关系等,其节点分类任务有更要的意义,但是引文网络往往面临着获取标记成本非常高的问题,传统的监督学习或半监督的方法对于引文网络节点分类任务具有极大的限制

[0003]基于挖掘自身监督信息的图对比学习,可以有效的缓解标记数据依赖,已成为图表示学习的关键技术之一,图对比学习通过挖掘自身信息在嵌入空间学习特征表示,为下游任务提供具有判别性的表征

因此,通过图对比学习可以获得具有判别性的特征表示,提高引文网络中的节点分类任务的性能

然而现有的大多数图对比学习方法通常在嵌入空间拉近正例,推远负例,且将除锚点之外的其他样本视为负例,忽略了负例中存在与正例相似的样本即伪负例,从而引入偏差,影响特征表示质量以及下游任务引文网络节点分类的性能

针对图对比学习中的伪负例偏差问题,目前的研究工作主要利用伪负例消除机制,通过聚类和课程学习等方式逐步检测并且删除伪负样例,尽管这些方法在一定程度上缓解了图对比学习负采样中的伪负例问题,但这样的策略伪负例选择准确性低,依赖聚类结果和数据分布的先验知识,且预定义的选择过程不一定符合数据分布的实际规律,从而导致图对比学习嵌入表示的判别性较弱,影响节点分类的性能,导致图对比学习在引文网络节点分类任务难以很好应用

因此,开发一种更加高效的图对比学习方法,缓解伪负例偏差的影响,提高图对比学习在引文网络节点分类任务中的性能,已成为当前领域中亟待解决的问题之一


技术实现思路

[0004]为缓解现有图对比学习技术中伪负例偏差对引文网络节点分类任务性能的影响,本专利技术所要解决的技术问题为:提出一种基于图对比学习的引文网络节点分类方法及系统,以提升引文网络节点分类的性能

[0005]为了解决上述技术问题,本专利技术采用的技术方案为:一种基于图对比学习的引文网络节点分类方法,包括以下步骤:
[0006]S11
:获取引文网络原始视图数据
G

(V,E)
;通过两个增强函数,分别获得原始视图数据的第一增强视图和第二增强视图,然后通过编码器获得节点的嵌入表示;其中,
V
表示节点集合,
E
表示边集合,其中,任意一个节点在第一增强视图中的嵌入
u
i
被视为锚,在第二增强视图中的嵌入
v
i
视为正例,两个增强视图中其他节点嵌入视为负例;
[0007]S12
:在引文网络原始图数据上构建
PU
数据
(x,y,s)
,其中
x
为节点样本,
y∈{0,1}

s∈{0,1}
为二进制标签,然后对同一视图内的所有节点进行无监督聚类,基于聚类结果对所有节点设置伪标签,属于同一类的节点共享相同的伪标签;
[0008]S13
:引入
PU
学习方法,将获取到的节点特征和伪标签输入
PU
学习概率估计器;获得节点样本相对于锚点为正例的概率表示
p(y

1|x)

[0009]S14
:计算原始视图中节点样本的负例倾向评分,根据各个节点的负例倾向评分和对应的增强视图中样本相对于锚点的余弦相似度,计算各个节点在第一增强视图和第二增强视图对应的负例衡量指标;
[0010]S15
:根据两个增强视图中的负例衡量指标分别计算各个节点在两个增强视图中的加权图对比损失,并根据所有节点在两个增强视图中的加权图对比损失计算总损失,通过总损失进行训练获得节点的优化嵌入表示;
[0011]S16
:将获取到的节点新的嵌入表示输入逻辑回归节点分类模型,经过
softmax
操作获得优化的图对比学习引文网络任务节点分类结果

[0012]所述步骤
S12
中,利用
K

means
聚类算法,在节点的嵌入表示的基础上进行无监督节点聚类,根据聚类结果,将锚点所在类的标签设置为
y
=1,其他所有类的伪标签设置为
y

0。
[0013]所述步骤
S13
中,
PU
学习概率估计器采用
SVM
分类器

[0014]所述步骤
S14
中,根据节点样本的负例倾向评分函数计算负例倾向评分
e
,节点样本的负例倾向评分函数的计算公式为:
[0015]e(x)
=1‑
p(y

1|x)

[0016]负例衡量指标
m
ik
(x)
的计算公式为:
[0017][0018]其中,
α
表示折衷参数,
e
ik
(x)
表示第
k
个样本
x
k
相对锚点
x
i
的负例倾向评分,
s
ik
(x)
表示第
k
个样本
x
k
相对锚点
x
i
的余弦相似度,
N
表示节点的数量

[0019]样本
x
k
相对于锚点
x
i
的余弦相似度的计算公式为:
[0020][0021]其中,
|
·
|
表示向量的
L2范数,
·
表示向本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于图对比学习的引文网络节点分类方法,其特征在于,包括以下步骤:
S11
:获取引文网络原始视图数据
G

(V,E)
;通过两个增强函数,分别获得原始视图数据的第一增强视图和第二增强视图,然后通过编码器获得节点的嵌入表示;其中,
V
表示节点集合,
E
表示边集合,其中,任意一个节点在第一增强视图中的嵌入
u
i
被视为锚,在第二增强视图中的嵌入
v
i
视为正例,两个增强视图中其他节点嵌入视为负例;
S12
:在引文网络原始图数据上构建
PU
数据
(x,y,s)
,其中
x
为节点样本,
y∈{0,1}

s∈{0,1}
为二进制标签,然后对同一视图内的所有节点进行无监督聚类,基于聚类结果对所有节点设置伪标签,属于同一类的节点共享相同的伪标签;
S13
:引入
PU
学习方法,将获取到的节点特征和伪标签输入
PU
学习概率估计器;获得节点样本相对于锚点为正例的概率表示
p(y

1|x)

S14
:计算原始视图中节点样本的负例倾向评分,根据各个节点的负例倾向评分和对应的增强视图中样本相对于锚点的余弦相似度,计算各个节点在第一增强视图和第二增强视图对应的负例衡量指标;
S15
:根据两个增强视图中的负例衡量指标分别计算各个节点在两个增强视图中的加权图对比损失,并根据所有节点在两个增强视图中的加权图对比损失计算总损失,通过总损失进行训练获得节点的优化嵌入表示;
S16
:将获取到的节点新的嵌入表示输入逻辑回归节点分类模型,经过
softmax
操作获得优化的图对比学习引文网络任务节点分类结果
。2.
根据权利要求1所述的一种基于图对比学习的引文网络节点分类方法,其特征在于,所述步骤
S12
中,利用
K

means
聚类算法,在节点的嵌入表示的基础上进行无监督节点聚类,根据聚类结果,将锚点所在类的标签设置为
y
=1,其他所有类的伪标签设置为
y

0。3.
根据权利要求1所述的一种基于图对比学习的引文网络节点分类方法,其特征在于,所述步骤
S13
中,
PU
学习概率估计器采用
SVM
分类器
。4.
根据权利要求1所述的一种基于图对比学习的引文网络节点分类方法,其特征在于,所述步骤
S14
中,根据节点样本的负例倾向评分函数计算负例倾向评分
e
,节点样本的负例倾向评分函数的计算公式为:
e(x)
=1‑
p(y

1|x)
;负例衡量指标
m
ik
(x)
的计算公式为:其中,
α
表示折衷参数,
e
ik
(x)
表示第
k
个样本
x
k
相对锚点
x
i
的负例倾向评分,
s
ik
(x)
表示第
k
个样本
x
k
相对锚点
x
i
的余弦相似度,
N
表示节点的数量
。5.
根据权利要求4所述的一种基于图对比学习的引文网络节点分类方法,其特征在于,样本
x
k
相对于锚点
x
i
的余弦相似度的计算公式为:其中,
|
·
|
表示向量的
L2范数,
·
表示向量的点积,
...

【专利技术属性】
技术研发人员:梁吉业李志强王杰梁建青
申请(专利权)人:山西大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1