【技术实现步骤摘要】
一种基于图对比学习的引文网络节点分类方法及系统
[0001]本专利技术涉及引文网络节点分类
,尤其涉及一种基于图对比学习的引文网络节点分类方法及系统
。
技术介绍
[0002]大数据时代,图
(
网络
)
数据无处不在,图数据可以自然的表达对象之间的复杂关系,适用于现实世界中的复杂应用场景
。
有效的分析和挖掘图数据,对相关产业的发展可以起到巨大的推动作用
。
在图机器学习领域,图卷积神经网络
GCN(Graph Convolutional Networks)
旨在学习节点的低维嵌入表示,在节点分类中取得了良好效果,且已成为图表示学习的强有力工具
。
然而,大多数
GCN
方法属于监督学习或半监督学习范畴,需要大量高质量的节点标签进行有效的模型优化
。
但是,在实际应用中,收集高质量标签十分困难和昂贵
。
例如引文网络是典型的网络大数据,其由文献间引用和被引用的关系构成
。
引文网络数据可以用来描述科学领域的发展
、
学科间的关系等,其节点分类任务有更要的意义,但是引文网络往往面临着获取标记成本非常高的问题,传统的监督学习或半监督的方法对于引文网络节点分类任务具有极大的限制
。
[0003]基于挖掘自身监督信息的图对比学习,可以有效的缓解标记数据依赖,已成为图表示学习的关键技术之一,图对比学习通过挖掘自身信息在嵌入 ...
【技术保护点】
【技术特征摘要】
1.
一种基于图对比学习的引文网络节点分类方法,其特征在于,包括以下步骤:
S11
:获取引文网络原始视图数据
G
=
(V,E)
;通过两个增强函数,分别获得原始视图数据的第一增强视图和第二增强视图,然后通过编码器获得节点的嵌入表示;其中,
V
表示节点集合,
E
表示边集合,其中,任意一个节点在第一增强视图中的嵌入
u
i
被视为锚,在第二增强视图中的嵌入
v
i
视为正例,两个增强视图中其他节点嵌入视为负例;
S12
:在引文网络原始图数据上构建
PU
数据
(x,y,s)
,其中
x
为节点样本,
y∈{0,1}
,
s∈{0,1}
为二进制标签,然后对同一视图内的所有节点进行无监督聚类,基于聚类结果对所有节点设置伪标签,属于同一类的节点共享相同的伪标签;
S13
:引入
PU
学习方法,将获取到的节点特征和伪标签输入
PU
学习概率估计器;获得节点样本相对于锚点为正例的概率表示
p(y
=
1|x)
;
S14
:计算原始视图中节点样本的负例倾向评分,根据各个节点的负例倾向评分和对应的增强视图中样本相对于锚点的余弦相似度,计算各个节点在第一增强视图和第二增强视图对应的负例衡量指标;
S15
:根据两个增强视图中的负例衡量指标分别计算各个节点在两个增强视图中的加权图对比损失,并根据所有节点在两个增强视图中的加权图对比损失计算总损失,通过总损失进行训练获得节点的优化嵌入表示;
S16
:将获取到的节点新的嵌入表示输入逻辑回归节点分类模型,经过
softmax
操作获得优化的图对比学习引文网络任务节点分类结果
。2.
根据权利要求1所述的一种基于图对比学习的引文网络节点分类方法,其特征在于,所述步骤
S12
中,利用
K
‑
means
聚类算法,在节点的嵌入表示的基础上进行无监督节点聚类,根据聚类结果,将锚点所在类的标签设置为
y
=1,其他所有类的伪标签设置为
y
=
0。3.
根据权利要求1所述的一种基于图对比学习的引文网络节点分类方法,其特征在于,所述步骤
S13
中,
PU
学习概率估计器采用
SVM
分类器
。4.
根据权利要求1所述的一种基于图对比学习的引文网络节点分类方法,其特征在于,所述步骤
S14
中,根据节点样本的负例倾向评分函数计算负例倾向评分
e
,节点样本的负例倾向评分函数的计算公式为:
e(x)
=1‑
p(y
=
1|x)
;负例衡量指标
m
ik
(x)
的计算公式为:其中,
α
表示折衷参数,
e
ik
(x)
表示第
k
个样本
x
k
相对锚点
x
i
的负例倾向评分,
s
ik
(x)
表示第
k
个样本
x
k
相对锚点
x
i
的余弦相似度,
N
表示节点的数量
。5.
根据权利要求4所述的一种基于图对比学习的引文网络节点分类方法,其特征在于,样本
x
k
相对于锚点
x
i
的余弦相似度的计算公式为:其中,
|
·
|
表示向量的
L2范数,
·
表示向量的点积,
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。