一种基于超平面投影与关系路径邻域的知识图谱补全方法技术

技术编号:37709017 阅读:20 留言:0更新日期:2023-06-02 00:00
本发明专利技术公开了一种基于超平面投影与关系路径邻域的知识图谱补全方法,包括如下步骤:1)利用三元组的结构信息对知识图谱进行嵌入;2)加入路径的邻域信息;3)加入关系的映射属性;4)设计TransH

【技术实现步骤摘要】
一种基于超平面投影与关系路径邻域的知识图谱补全方法


[0001]本专利技术属于知识表示学习与知识图谱补全
,具体涉及一种基于关系路径邻域的知识图谱补全方法。

技术介绍

[0002]知识图谱(Knowledge Graph)存储了真实世界中的大量事实,是由实体(节点)和关系(不同类型的边)组成的多关系图,通常以三元组(头实体,关系,尾实体)的形式表示,可以用字母表示为(h,r,t)。如今,已经有很多知识图谱被构建出来,例如WordNet、Freebase和Yago等,这些知识图谱已经广泛应用于知识推理、问答和推荐系统等各个领域。
[0003]由于知识库规模的不断扩大和数据更新周期的不断缩短,知识图谱中不可能包含真实世界中所有的知识,所以我们需要根据知识图谱中已存在的知识来预测缺失的知识,这个任务称为知识图谱的补全(KGC),包括链接预测和三元组分类任务。
[0004]为了对知识图谱进行补全,知识表示学习被提了出来,它的主要思想是首先利用知识表示学习模型对知识图谱中三元组的实体和关系进行嵌入,然后再利用评分函数对三元组进行打分,最后按照从高到低的顺序排列评分结果,从而完成知识图谱的补全工作。
[0005]由于传统的知识表示学习方法具有较强的知识图谱建模能力,备受学者们的关注。然而,这些传统的知识表示学习模型存在一些缺陷。一方面,这些较典型的模型由于受到翻译规则的限制,导致这些模型无法对复杂多样的实体进行建模;另一方面,这些模型在对知识图谱进行嵌入时只关注三元组的结构信息,将单个三元组事实作为输入,他们学习到实体的信息很有限,向量的表达能力不强,所以模型不能够很好地表示知识图谱中的实体和关系,导致这些模型在解决知识图谱补全方面的问题仍然不够理想。近年来,为了增强模型的知识表示学习能力,人们使用了各种多模态信息,如文本描述、类型约束、可视化信息、实体属性、逻辑规则和关系路径等。使用这些辅助信息与三元组的结构信息相结合,可以显著提高模型的知识表示能力。但是,这种多元信息也存在以下几个方面的问题:(1)多元信息的质量良莠不齐,现有的模型缺乏有效的方法从中提取有用的信息;(2)多源信息的种类十分丰富,但是这些丰富的信息没有被充分利用;(3)忽略了三元组中头实体和尾实体的异质性(即知识图谱中的同一关系下的头实体和尾实体的数量差异有时候会非常大,而目前的模型没有考虑到这种差异对实体建模的影响)。

技术实现思路

[0006]本专利技术的目的是针对现有知识表示模型存在的问题,而提供一种基于超平面投影和路径邻域的知识图谱补全方法,这种方法在TransH模型的基础上加入了关系映射属性;又结合路径的邻域信息,基于大规模知识图谱的路径邻域进行建模,提高模型的表示学习能力,从而提升知识图谱补全的效果。
[0007]实现本专利技术目的的技术方案是:
[0008]一种基于超平面投影与关系路径邻域的知识图谱补全方法,包括如下步骤:
[0009]1)利用三元组的结构信息对知识图谱进行嵌入:给定一个三元组(h,r,t),通过使用TransH的超平面投影的思想将实体投影到特定于关系的超平面中,投影后的头实体和尾实体分别表示为:w
r
是超平面的法向量,d
r
是关系对应的平移操作,TransH的评分函数定义为:f
r
(h,t)=||h

+d
r

t

||;
[0010]2)加入路径的邻域信息:对于一个三元组中的头实体或尾实体,它们周围都有很多路径,为了使模型能够利用最有价值的路径邻域信息,需要计算每条路径的权重;路径的权重值越大,说明该路径的信息最有价值,对于一个三元组中的头实体,与尾实体的连接方式有两种:第一,头实体与尾实体直接相连形成直接路径;第二,头实体和尾实体间接相连形成间接路径,即不能直接组成三元组,关系缺失;对于尾实体,同头实体;那么,在进行实体和关系的嵌入时就需要考虑路径对实体嵌入的影响,这种影响主要表现在二次嵌入,其中二次嵌入是实体和关系的计算;因此,在计算权重时,也分两种情况:对于直接路径直接选取最短的路径,然后将最短的路径值取倒数作为权重;对于间接路径,选择路径之间的结点在五个范围之内的(不必要选择过多的结点,因为结点太多的话路径会很长,在训练的时候会消耗大量的时间和占用很多内存),然后将结点相连的每条路径的关系进行累加,选取值最小的那条,最后将最小的值取倒数作为权重;
[0011]3)加入关系的映射属性:借鉴TransM的思想,TransM认为每个训练三元组与表示映射程度的权重相联系,三元组的映射性质在很大程度上取决于头实体与尾实体的关系,因此,权重是特定于关系的;为了能够提高模型对复杂关系的处理能力,对不同的关系赋予不同的权重,这样模型能够区分不同的关系;在计算权重时,需要计算每个头实体对应出现的尾实体的平均数量t
r
qh
r
和每个尾实体对应出现的头实体的平均数量h
r
qt
r
,然后按照公式(1)为每个关系计算权重
[0012]4)将基于超平面投影与关系路径邻域的知识图谱补全模型—TransH

RPN的得分函数设计为:其中
[0013]5)在进行模型训练的时候,采用概率法进行头尾实体的替换,同时,在选择实体时,根据实体的相似度来选择;
[0014]5.1)采用概率法进行头尾实体的替换:为了减少假的负三元组的产生,对于多对一的关系,选择高的概率替换尾实体;对于一对多的关系,选择高的概率替换头实体,给定一个关系和与之相关的所有正样本的三元组(h,r,t),首先计算出每个头实体对应出现的尾实体的平均数量t
r
qh
r
;以及每个尾实体对应出现的头实体的平均数量h
r
qt
r
,当采用概率法时,则按照的伯努利分布来抽样;在利用正例三元组构造负例三元组时,以概率q替换头实体,以概率1

q替换尾实体,使总的概率为1,且抽样方式符合伯努利分布;
[0015]对于每个关系r,计算每个头实体对应的尾实体的平均数量t
r
qh
r
和每个尾实体对应的头实体的平均数量h
r
qt
r
;当t
r
qh
r
<1.5且h
r
qt
r
<1.5,表示关系r是一对一的;当t
r
qh
r
>1.5且h
r
qt
r
>1.5,表示关系r是多对多的;当t
r
qh
r
≥1.5且h
r
qt
r
<1.5,表示关系r是一对多的;当t
r
qh
r
<1.5且h
r
qt
r
≥1.5,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于超平面投影与关系路径邻域的知识图谱补全方法,其特征在于,包括如下步骤:1)利用三元组的结构信息对知识图谱进行嵌入:给定一个三元组(h,r,t),通过使用TransH的超平面投影的思想将实体投影到特定于关系的超平面中,投影后的头实体和尾实体分别表示为:w
r
是超平面的法向量,d
r
是关系对应的平移操作,TransH的评分函数定义为:f
r
(h,t)=||h

+d
r

t

||;2)加入路径的邻域信息:为了提高模型的表示能力,加入了路径的邻域信息;三元组中的头实体和尾实体周围有多条路径,为了使模型能够利用最有价值的路径邻域信息,需要计算每条路径的权重,路径的权重值越大,说明该路径的信息是最有价值;对于一个三元组中的头实体,与尾实体的连接方式有两种:第一,头实体与尾实体直接相连形成直接路径;第二,头实体和尾实体间接相连形成间接路径,即不能直接组成三元组,关系缺失;对于尾实体,同头实体;那么,在进行实体和关系的嵌入时就需要考虑路径对实体嵌入的影响,这种影响主要表现在二次嵌入,其中二次嵌入是实体和关系的计算;因此,在计算权重时,也分两种情况:对于直接路径直接选取最短的路径,然后将最短的路径值取倒数作为权重;对于间接路径,选择路径之间的结点在五个范围之内,然后将结点相连的每条路径的关系进行累加,选取值最小的那条,最后将最小的值取倒数作为权重;3)加入关系的映射属性:借鉴TransM的思想,TransM认为每个训练三元组与表示映射程度的权重相联系,三元组的映射性质取决于三元组中头实体与尾实体的关系,因此,权重是特定于关系的;为了能够提高模型对复杂关系的处理能力,对不同的关系赋予不同的权重,这样模型能够区分不同的关系;计算权重时,需要计算每个头实体对应出现的尾实体的平均数量t
r
qh
r
和每个尾实体对应出现的头实体的平均数量h
r
qt
r
,然后按照公式(1)为每个关系计算权重4)将基于超平面投影与关系路径邻域的知识图谱补全模型—TransH

RPN的得分函数设计为:其中5)在进行模型训练的时候,采用概率法进行头尾实体的替换,同时,在选择实体时,根据实体的相似度来选择;5.1)采用概率法进行头尾实体的替换:为了减少假的负三元组的产生,对于多对一的关系,选择高的概率替换尾实体;对于一对多的关系,选择高的概率替换头实体;给定一个关系和与之相关的所有正样本的三元组(h,r,t),首先计算出每个头实体对应出现的尾实体的平均数量t
r
qh
r
;以及每个尾实体对应出现的头实体的平均数量h
r
qt
r
,当采用概率法时,则按照的伯努利分布来抽样,在利用正例三元组构造负例三元组时,以概率q替换头实体,以概率1

q替换尾实体,使总的概率为1,且抽样方式符合伯努利分布;对于每个关系r,计算每个头实体对应的尾实体的平均数量t
r
qh
r
和每个尾实体对应的头实体的平均数量h
r
qt
r
;当t
r
qh
r
<1.5且h
r
qt
r
<1.5,...

【专利技术属性】
技术研发人员:韩亚丹陆广泉
申请(专利权)人:广西师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1