【技术实现步骤摘要】
一种基于超平面投影与关系路径邻域的知识图谱补全方法
[0001]本专利技术属于知识表示学习与知识图谱补全
,具体涉及一种基于关系路径邻域的知识图谱补全方法。
技术介绍
[0002]知识图谱(Knowledge Graph)存储了真实世界中的大量事实,是由实体(节点)和关系(不同类型的边)组成的多关系图,通常以三元组(头实体,关系,尾实体)的形式表示,可以用字母表示为(h,r,t)。如今,已经有很多知识图谱被构建出来,例如WordNet、Freebase和Yago等,这些知识图谱已经广泛应用于知识推理、问答和推荐系统等各个领域。
[0003]由于知识库规模的不断扩大和数据更新周期的不断缩短,知识图谱中不可能包含真实世界中所有的知识,所以我们需要根据知识图谱中已存在的知识来预测缺失的知识,这个任务称为知识图谱的补全(KGC),包括链接预测和三元组分类任务。
[0004]为了对知识图谱进行补全,知识表示学习被提了出来,它的主要思想是首先利用知识表示学习模型对知识图谱中三元组的实体和关系进行嵌入,然后再利用评分函数对三元组进行打分,最后按照从高到低的顺序排列评分结果,从而完成知识图谱的补全工作。
[0005]由于传统的知识表示学习方法具有较强的知识图谱建模能力,备受学者们的关注。然而,这些传统的知识表示学习模型存在一些缺陷。一方面,这些较典型的模型由于受到翻译规则的限制,导致这些模型无法对复杂多样的实体进行建模;另一方面,这些模型在对知识图谱进行嵌入时只关注三元组的结构信息,将单个三元组事实作为 ...
【技术保护点】
【技术特征摘要】
1.一种基于超平面投影与关系路径邻域的知识图谱补全方法,其特征在于,包括如下步骤:1)利用三元组的结构信息对知识图谱进行嵌入:给定一个三元组(h,r,t),通过使用TransH的超平面投影的思想将实体投影到特定于关系的超平面中,投影后的头实体和尾实体分别表示为:w
r
是超平面的法向量,d
r
是关系对应的平移操作,TransH的评分函数定义为:f
r
(h,t)=||h
⊥
+d
r
‑
t
⊥
||;2)加入路径的邻域信息:为了提高模型的表示能力,加入了路径的邻域信息;三元组中的头实体和尾实体周围有多条路径,为了使模型能够利用最有价值的路径邻域信息,需要计算每条路径的权重,路径的权重值越大,说明该路径的信息是最有价值;对于一个三元组中的头实体,与尾实体的连接方式有两种:第一,头实体与尾实体直接相连形成直接路径;第二,头实体和尾实体间接相连形成间接路径,即不能直接组成三元组,关系缺失;对于尾实体,同头实体;那么,在进行实体和关系的嵌入时就需要考虑路径对实体嵌入的影响,这种影响主要表现在二次嵌入,其中二次嵌入是实体和关系的计算;因此,在计算权重时,也分两种情况:对于直接路径直接选取最短的路径,然后将最短的路径值取倒数作为权重;对于间接路径,选择路径之间的结点在五个范围之内,然后将结点相连的每条路径的关系进行累加,选取值最小的那条,最后将最小的值取倒数作为权重;3)加入关系的映射属性:借鉴TransM的思想,TransM认为每个训练三元组与表示映射程度的权重相联系,三元组的映射性质取决于三元组中头实体与尾实体的关系,因此,权重是特定于关系的;为了能够提高模型对复杂关系的处理能力,对不同的关系赋予不同的权重,这样模型能够区分不同的关系;计算权重时,需要计算每个头实体对应出现的尾实体的平均数量t
r
qh
r
和每个尾实体对应出现的头实体的平均数量h
r
qt
r
,然后按照公式(1)为每个关系计算权重4)将基于超平面投影与关系路径邻域的知识图谱补全模型—TransH
‑
RPN的得分函数设计为:其中5)在进行模型训练的时候,采用概率法进行头尾实体的替换,同时,在选择实体时,根据实体的相似度来选择;5.1)采用概率法进行头尾实体的替换:为了减少假的负三元组的产生,对于多对一的关系,选择高的概率替换尾实体;对于一对多的关系,选择高的概率替换头实体;给定一个关系和与之相关的所有正样本的三元组(h,r,t),首先计算出每个头实体对应出现的尾实体的平均数量t
r
qh
r
;以及每个尾实体对应出现的头实体的平均数量h
r
qt
r
,当采用概率法时,则按照的伯努利分布来抽样,在利用正例三元组构造负例三元组时,以概率q替换头实体,以概率1
‑
q替换尾实体,使总的概率为1,且抽样方式符合伯努利分布;对于每个关系r,计算每个头实体对应的尾实体的平均数量t
r
qh
r
和每个尾实体对应的头实体的平均数量h
r
qt
r
;当t
r
qh
r
<1.5且h
r
qt
r
<1.5,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。