基于双视图超关系嵌入框架的知识图谱补全方法技术

技术编号:35453254 阅读:34 留言:0更新日期:2022-11-03 12:09
本发明专利技术提出一种基于双视图超关系嵌入框架的知识图谱补全方法,包括,构建基于双视图超关系知识图谱的数据集,数据集包括实例视图集、本体视图集以及跨视图链接集;将数据集输入DH

【技术实现步骤摘要】
基于双视图超关系嵌入框架的知识图谱补全方法


[0001]本专利技术属于信息技术及数据业务领域。

技术介绍

[0002]知识图谱是大规模语义网络知识库,采取符号化的知识表示方式,利用三元组(subject,relation,object)来描述具体的知识,并以有向图的形式对其进行表示和存储,具有语义丰富、结构友好、易于理解等优点。由于在表达人类先验知识上具有优良的特性,知识图谱近年来在自然语言处理、问答系统、推荐系统等诸多领域取得了广泛且成功的应用。然而,知识图谱通常存在链接缺失问题,这限制了知识图谱在相关下游任务中的应用。为解决该问题,知识图谱补全任务应运而生。知识图谱补全旨在根据知识图谱中已有事实推断出新的事实,从而使得知识图谱更完整。知识图谱嵌入是解决知识图谱补全问题的重要方法之一,它通过将知识图谱中的实体和关系嵌入到连续向量空间,从而在方便计算的同时保留知识图谱中的结构信息。因此,一个好的知识图谱嵌入方法对知识图谱的应用会起到很大帮助。
[0003]在现实世界的知识图谱中,层级关系和超关系是描述事实的两个重要关系,其结构如图2、图3所示。然而,当前并没有针对联合建模这两个关系的研究,导致超关系知识图谱嵌入方法在实际嵌入中的受到很多限制。
[0004]目前现存的知识图谱嵌入方法主要有分为三类,一类是单视图三元组知识图谱嵌入方法,这种传统的知识图谱嵌入方法主要在单视图上建模三元组信息;另一类是单视图超关系知识图谱嵌入方法,这种方法对传统方法进行了改进,使其能用于超关系知识图谱中。超关系知识图谱中的事实由一个主三元组(s,r,o)和其辅助的键值对(ai:vi)组成,但仍仅限于单视图情况;第三类是双视图三元组知识图谱嵌入方法,其可以联合建模视图中的层级和逻辑信息,但不能用于超关系知识图谱中。后两种方法都在某一方面对传统方法做出了改进,即使得传统方法能应用于更符合现实的超关系知识图谱中以及改进了传统方法会弱化实体之间的层级信息的问题,但这两种方法都只是解决了部分问题,导致二者在知识图谱链接预测和实体分类任务上还有待改进。
[0005]针对上述问题,本专利技术提出了一种双视图超关系知识图谱(DH

KG)嵌入结构,如图4所示,该结构通过双视图结构来联合建模知识图谱中的超关系和实体之间的层级关系,以更加全面的学习到实体之间的联系,从而更好的进行链接预测和实体分类任务。

技术实现思路

[0006]本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。
[0007]为此,本专利技术的第一个目的在于提出一种基于双视图超关系嵌入框架的知识图谱补全方法,用于更好的进行链接预测和实体分类任务。
[0008]为达上述目的,本专利技术第一方面实施例提出了一种基于双视图超关系嵌入框架的知识图谱补全方法,包括:
[0009]S101:构建基于双视图超关系知识图谱的数据集,所述数据集包括实例视图集、本体视图集以及跨视图链接集;
[0010]S102:将所述数据集输入DH

KG嵌入模型,其中,所述DH

KG嵌入模型包括GRAN编码器、跨视图链接学习网络和联合学习网络;
[0011]S103:通过所述GRAN编码器进行视图内超关系学习,通过超图领域聚合技术以及跨视图损失进行跨视图联系学习,通过联合实例视图集、本体视图集和跨视图连接集分别对应的损失函数进行联合学习,得到训练完成的DH

KG嵌入模型;
[0012]S104:通过所述训练完成的DH

KG嵌入模型进行知识图谱的链接预测和实体分类。
[0013]另外,根据本专利技术上述实施例的基于双视图超关系嵌入框架的知识图谱补全方法还可以具有以下附加的技术特征:
[0014]进一步地,在本专利技术的一个实施例中,所述构建基于双视图超关系知识图谱的数据集,包括:
[0015]获取超关系知识图谱数据集,将所述超关系知识图谱数据集中的实体作为实例视图实体集;
[0016]根据第一预设关系获取所述实例视图实体集的尾实体集作为本体视图概念集或跨视图连接集;通过第二预设关系获取所述本体视图概念集的尾实体集,并将所述本体视图概念集的尾实体集与所述本体视图概念集的并集作为本体视图实体集;
[0017]从实例视图中获取实例视图超关系事实集,并从所述实例视图超关系事实集中获取实例视图关系集;从本体视图中获取本体视图超关系事实集,并从所述本体视图超关系事实集中获取本体视图关系集;
[0018]根据所述实例视图实体集、实例视图超关系事实集、实例视图关系集构建实例视图,根据所述本体视图实体集、本体视图超关系事实集、本体视图关系集构建本体视图,根据所述实例视图、本体视图、跨视图连接集生成基于双视图超关系知识图谱的数据集。
[0019]进一步地,在本专利技术的一个实施例中,所述通过所述GRAN编码器进行视图内超关系学习,包括:
[0020]通过GRAN模型更新实体嵌入,利用更新后的实体嵌入进行实体或者关系预测,并计算出每个子视图内的损失。
[0021]进一步地,在本专利技术的一个实施例中,所述通过GRAN模型更新实体嵌入,包括:
[0022]通过GRAN模型将一个超关系事实作为一个异构图,然后使用mask学习策略构建模型输入;
[0023]通过GRAN使用边偏向的全连接注意力来学习所述异构图;
[0024]通过GRAN编码器更新所有超关系事实的实体嵌入向量;
[0025]其中,在l层GRAN编码器更新后的节点嵌入向量GRAN_E为:
[0026]X
(l)
=GRAN_E(X
(l

1)
),
[0027]其中,是第l层GRAN的输出结果。
[0028]进一步地,在本专利技术的一个实施例中,所述利用更新后的实体嵌入进行实体或者关系预测,并计算出每个子视图内的损失,包括:
[0029]取出MASK位置的节点嵌入向量h,然后进行一个两层的线性变换操作,
[0030][0031]其中,与输入的嵌入向量矩阵共享参数,而与输入的嵌入向量矩阵共享参数,而则是可自学习的参数,是对所有实体的预测得分,即在整个事实中由v个实体;
[0032]加上标签平滑,根据p来得出预测值与标签之间的交叉熵损失:
[0033][0034]其中,p
t
是预测出的得分向量p第个位置的值,y
t
是标签向量y第t个位置的值。
[0035]进一步地,在本专利技术的一个实施例中,所述通过超图领域聚合技术以及跨视图损失进行跨视图联系学习,包括:
[0036]通过所述GRAN编码器,获取所有超关系事实中实体的节点嵌入,将所述节点嵌入输入HGNN超图学习模型;
[0037]HGNN中从(k

1)层到第k层的消息传递过程定义如下:
[0038][0039]U
(k)
...

【技术保护点】

【技术特征摘要】
1.一种基于双视图超关系嵌入框架的知识图谱补全方法,其特征在于,包括以下步骤:构建基于双视图超关系知识图谱的数据集,所述数据集包括实例视图集、本体视图集以及跨视图链接集;将所述数据集输入DH

KG嵌入模型,其中,所述DH

KG嵌入模型包括GRAN编码器、跨视图链接学习网络和联合学习网络;通过所述GRAN编码器进行视图内超关系学习,通过超图领域聚合技术以及跨视图损失进行跨视图联系学习,通过联合实例视图集、本体视图集和跨视图连接集分别对应的损失函数进行联合学习,得到训练完成的DH

KG嵌入模型;通过所述训练完成的DH

KG嵌入模型进行知识图谱的链接预测和实体分类。2.根据权利要求1所述的方法,其特征在于,所述构建基于双视图超关系知识图谱的数据集,包括:获取超关系知识图谱数据集,将所述超关系知识图谱数据集中的实体作为实例视图实体集;根据第一预设关系获取所述实例视图实体集的尾实体集作为本体视图概念集或跨视图连接集;通过第二预设关系获取所述本体视图概念集的尾实体集,并将所述本体视图概念集的尾实体集与所述本体视图概念集的并集作为本体视图实体集;从实例视图中获取实例视图超关系事实集,并从所述实例视图超关系事实集中获取实例视图关系集;从本体视图中获取本体视图超关系事实集,并从所述本体视图超关系事实集中获取本体视图关系集;根据所述实例视图实体集、实例视图超关系事实集、实例视图关系集构建实例视图,根据所述本体视图实体集、本体视图超关系事实集、本体视图关系集构建本体视图,根据所述实例视图、本体视图、跨视图连接集生成基于双视图超关系知识图谱的数据集。3.根据权利要求1所述的方法,其特征在于,所述通过所述GRAN编码器进行视图内超关系学习,包括:通过GRAN模型更新实体嵌入,利用更新后的实体嵌入进行实体或者关系预测,并计算出每个子视图内的损失。4.根据权利要求3所述的方法,其特征在于,所述通过GRAN模型更新实体嵌入,包括:通过GRAN模型将一个超关系事实作为一个异构图,然后使用mask学习策略构建模型输入;通过GRAN使用边偏向的全连接注意力来学习所述异构图;通过GRAN编码器更新所有超关系事实的实体嵌入向量;其中,在l层GRAN编码器更新后的节点嵌入向量GRAN_E为:X
(l)
=GRAN E(X
(l

1)
),其中,是第l层GRAN的输出结果。5.根据权利要求3所述的方法,其特征在于,所述利用更新后的实体嵌入进行实体或者关系预测,并计算出每个子视图内的损失,包括:取出MASK位置的节点嵌入向量h,然后进行一个两层的线性变换操作,
其中,与输入的嵌入向量矩阵共享参数,而与输入的嵌入向量矩阵共享参数,而则是可自学习的参数,是对所有实体的预测得分,即在整个事实中由v个实体;加上标签平滑,根据p来得出预测值与标签之间的交叉熵损失:其中,p
t
是预测出的得分向量p第个位置的值,y
t
是标签向量y第t个位置的值。6.根据权利要求1所述的方法,其特征在于,...

【专利技术属性】
技术研发人员:鄂海红罗浩然宋美娜谭玲姚天宇周庚显
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1