一种面向图模型表征学习的结构知识探测方法技术

技术编号:39575993 阅读:10 留言:0更新日期:2023-12-03 19:27
本发明专利技术公开了一种面向图模型表征学习的结构知识探测方法

【技术实现步骤摘要】
一种面向图模型表征学习的结构知识探测方法


[0001]本专利技术涉及图神经网络
,更具体地,涉及一种面向图模型表征学习的结构知识探测方法


技术介绍

[0002]图神经网络在社会的各个领域都有应用

目前,存在多种图学习方法,而不同的方法性能各有优劣

例如,图表示学习方法在节点分类

链路预测和图分类等经典下游任务上表现出不同的性能

然而,目前还没有研究分析和解释通过不同的图表示学习方法在学习嵌入中实际编码了什么样的图属性

[0003]图的应用范围广泛,如文献引用情况

蛋白质分类预测等

在现有技术中,研究者开发了许多图表示学习方法,例如
GNN(
图神经网络
)、LightGCN(
轻量级图卷积网络
)


这些方法在不同的任务中表现出不同的性能

然而,还没有进行更深一层的研究,即无法揭示针对不同的图表示学习方法嵌入编码了不同图属性的原因

[0004]综上,目前还没有研究调查和解释通过不同的图表示学习方法在学习嵌入中实际编码了什么样的图属性

而主流方法缺乏对图的固有属性
(
如图的结构信息
)
是否被编码到学习节点和图的表示中进行系统的评估


技术实现思路

[0005]本专利技术的目的是克服上述现有技术的缺陷,提供一种面向图模型表征学习的结构知识探测方法

该方法包括以下步骤:
[0006]针对不同的数据集,获取基于多种类型的图神经网络的图嵌入模型,以提取图结构信息,所述图结构信息包括节点信息和图嵌入表示;
[0007]对于不同的下游任务,基于设定的损失目标预训练所述图嵌入模型,并在训练过程中,利用图结构探针来探测所述图嵌入模型捕获图结构的能力,获得探测结果;
[0008]针对目标下游任务,基于所述探测结果,选择图嵌入模型的类型

[0009]与现有技术相比,本专利技术的优点在于,提出了一个基于知识探针的图探针
(GraphProbe)
,用于研究和解释基于图神经网络的众多方法中,每种方法是否正确编码了结构层次的图知识

本专利技术根据图的内在属性,在图的结构层次上设计了结构类型的探针,在结构性方面对
GNN
模型方法的知识表示学习进行系统评估,用于研究在基于
GNN
的不同方法的图表示学习中编码了什么样的图知识,提升了图表示学习的可解释性

[0010]通过以下参照附图对本专利技术的示例性实施例的详细描述,本专利技术的其它特征及其优点将会变得清楚

附图说明
[0011]被结合在说明书中并构成说明书的一部分的附图示出了本专利技术的实施例,并且连同其说明一起用于解释本专利技术的原理

[0012]图1是根据本专利技术一个实施例的面向图模型表征学习的结构知识探测方法的流程图;
[0013]图2是根据本专利技术一个实施例的面向图模型表征学习的结构知识探测方法的过程示意图

具体实施方式
[0014]现在将参照附图来详细描述本专利技术的各种示例性实施例

应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置

数字表达式和数值不限制本专利技术的范围

[0015]以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本专利技术及其应用或使用的任何限制

[0016]对于相关领域普通技术人员已知的技术

方法和设备可能不作详细讨论,但在适当情况下,所述技术

方法和设备应当被视为说明书的一部分

[0017]在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制

因此,示例性实施例的其它例子可以具有不同的值

[0018]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论

[0019]本专利技术在图的结构层次上设计了结构类型的探针,以研究在基于
GNN
的不同方法的图表示学习中编码了什么样的图知识,从而有效分析哪种方法提取的特征更好,并揭示背后的原因

[0020]具体地,结合图1和图2所示,所提供的面向图模型表征学习的结构知识探测方法包括以下步骤:
[0021]步骤
S110
,分析不同的图表示方法与下游任务性能之间的关联性

[0022]图神经网络
(GNN)
可以用于学习图结构数据,提取和发掘图结构数据中的特征和模式

图的应用类型包括引用网络

蛋白质生物网络和社交网络等

[0023]以基于蛋白质生物网络进行图分类为例,为了分析不同的图表示方法与下游任务之间的关联性,利用两个基准数据集,验证了7种经典的基于
GNN
的模型,并与多层感知器
MLP
进行了对比

两个基准数据集分别是
MUTAG

ENZYMES。MUTAG
数据集是一个分子图形数据集
。ENZYMES
数据集是根据生物分子蛋白质结构而构建的图数据集合,例如包含
600
个图,然后每个图代表一个酶
。7
种基于
GNN
的模型分别是
Chebyshev、SSGCN、GCN、LightGCN、GraphSAGE、GAT

GIN。
[0024]表1:不同图神经网络的性能对比
[0025][0026]表1给出了7种代表性的图学习方法以及多层感知器
MLP
在不同下游任务上的正常表现

对不同的下游任务采用常用的度量,例如用于节点分类的准确度
(ACC)
,用于链路预测的
Recall@20
,以及用于图分类的准确度
(ACC)。
在表1中,最优的结果用粗体突出显示,次优的结果用下划线突出显示

最差的结果用
*
突出显示

[0027]通过实验分析可知,对于图分类任务,在
MUTAG
数据集上,最好的方法是
GraphSAGE、GIN

MLP
,最差的方法是
GAT。
然而,在酶的数据集
(ENZYMES)
上得到了不同的结果,最好的方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种面向图模型表征学习的结构知识探测方法,包括以下步骤:针对不同的数据集,获取基于多种类型的图神经网络的图嵌入模型,以提取图结构信息,所述图结构信息包括节点信息和图嵌入表示;对于不同的下游任务,基于设定的损失目标预训练所述图嵌入模型,并在训练过程中,利用图结构探针来探测所述图嵌入模型捕获图结构的能力,获得探测结果;针对目标下游任务,基于所述探测结果,选择图嵌入模型的类型
。2.
根据权利要求1所述的方法,其特征在于,根据以下步骤获得所述图嵌入模型捕获图结构的能力:通过读出操作聚合节点表示来构建图表示特征
H
k
:其中,
Readout
表示读出操作,
G
表示图结构,
k
表示图嵌入模型的索引,
V
表示点集,表示所有点集的特征;针对一对图
G
m

G
n
,利用余弦相似度计算图表示特征的相似度:其中,表示图
G
m

G
n
的余弦相似度,是图
G
m
的图表示特征,是图
G
n
的图表示特征;使用
Jaccard
相似度,计算一对图
G
m

G
n
的结构级的图相似度:其中,是图
G
m

G
n
的结构级相似度,
WL(G
n
)
是对应于
G
n

WL
子树核算法输出的图标签,
WL(G
m
)
是对应于
G
m

WL
子树核算法输出的图标...

【专利技术属性】
技术研发人员:吕子钰黄兴宇赵明宇
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1