【技术实现步骤摘要】
一种基于知识图谱邻域结构的图谱完备化方法
本专利技术属于知识图谱表示与推理
,特别涉及一种基于知识图谱邻域结构的图谱完备化方法。
技术介绍
随着互联网的快速普及,互联网上的内容出现多元化以及组织结构松散的问题,导致人们无法有效快速地获取信息和知识。2012年Google提出知识图谱,为互联网时代知识化打开了新的局面。如今知识图谱技术已经被作为关键技术之一,在智能问答和个性化推荐等领域被大量使用。知识图谱完备化技术是针对现有知识图谱仍存在大量的三元组缺失的问题提出的。已有研究方法主要包括以下3类:1)基于图谱向量的方法,2)基于图结构的方法,3)基于深度学习的方法。基于图谱向量的代表模型为TransE/TransR/TransD系列模型。TransE模型首次提出将三元组中的关系作为对应的头实体到尾实体之间的翻译,从而将实体和关系映射至低维向量空间内进行表示;同一个实体面对不同关系的时候可能具有不同的方面语义,TransR模型通过特定的关系矩阵对将实体映射到对应的不同关系向量空间内,使其具有多类向量表示;TransD模型在TransR模型的基础上,考虑到关系也会 ...
【技术保护点】
1.一种基于知识图谱邻域结构的图谱完备化方法,其特征在于,包括:1)知识图谱中的实体要素嵌入模型Entity2vec构建:依次将知识图谱中的每个实体v视为源实体,采用随机游走的方式对实体v周围的相邻实体进行选择,游走步数设定为固定值η,游走结束时原知识图谱即被转换为规模为|E|×η的实体序列矩阵,其中每一行表示实体v及其通过随机游走得到的相邻实体结点的序列,|E|为知识图谱中所有实体的数目,在该实体序列矩阵上选取实体v的邻域Ne(v),然后基于实体v与其邻域Ne(v)建立概率模型将实体v映射到对应的实体向量空间内,使得在知识图谱中相邻的实体在其实体向量空间内也处于相邻的位置 ...
【技术特征摘要】
1.一种基于知识图谱邻域结构的图谱完备化方法,其特征在于,包括:1)知识图谱中的实体要素嵌入模型Entity2vec构建:依次将知识图谱中的每个实体v视为源实体,采用随机游走的方式对实体v周围的相邻实体进行选择,游走步数设定为固定值η,游走结束时原知识图谱即被转换为规模为|E|×η的实体序列矩阵,其中每一行表示实体v及其通过随机游走得到的相邻实体结点的序列,|E|为知识图谱中所有实体的数目,在该实体序列矩阵上选取实体v的邻域Ne(v),然后基于实体v与其邻域Ne(v)建立概率模型将实体v映射到对应的实体向量空间内,使得在知识图谱中相邻的实体在其实体向量空间内也处于相邻的位置,将Entity2vec模型训练得到头实体h的向量表示hent和尾实体t的向量表示tent;2)知识图谱中的关系要素嵌入模型Relation2vec构建:依次将知识图谱中的每个关系r视为源关系,采用随机游走的方式对关系r周围的相邻关系进行选择,游走步数设定为固定值β,游走结束时原知识图谱即被转换为规模为|R|×β的关系序列矩阵,其中每一行表示关系r及其通过随机游走得到的相邻关系结点的序列,|R|为知识图谱中所有关系的数目,在该关系序列矩阵上选取关系r的邻域Ne(r),然后基于关系r与其邻域Ne(r)建立概率模型将关系r映射到对应的关系向量空间内,使得在知识图谱中相邻的关系在其关系向量空间内也处于相邻的位置,将Relation2vec模型训练得到关系r的向量表示rrel;3)关系与实体之间的线性映射:为每个关系r定义映射矩阵Mr,将实体表示向量映射到对应的关系向量空间内得到联合向量空间,在该联合向量空间建立评价函数对三元组联合模型进行训练;4)在训练过程中,使用基于邻域的负样本采样算法,实现联合向量空间中相邻的三元组在训练过程中采集到的负实体结点同样处于相邻的位置;5)基于知识图谱完备化的链式预测:根据已知三元组的头结点与关系对尾结点进行预测,或是根据已知三元组的尾结点与关系对头结点进行预测,最终得到知识图谱完备化结果。2.根据权利要求1所述基于知识图谱邻域结构的图谱完备化方法,其特征在于,所述步骤1)中,将所述实体序列矩阵视作是采用实体作为词汇的语料集合,指定窗口大小对实体v进行邻域截取得到实体v的邻域Ne(v),基于该邻域信息,建立Entity2vec模型如下所示:式中V表示知识图谱中的实体集合,ai表示实体v的邻域里第i个相邻实体,Zv为归一化项,u表示归一化项中遍历实体集合时的实体,ai为实体v的邻域里第i个相邻实体的向量表示,v为实体v的向量表示,u为u的向量表示;通过最小化上述模型公式来进行训练,模型训练结束后,实体v的向量表示v为最终训练结果,当v作为头实体h时表示为hent,当v作为尾实体t时表示为tent。3.根据权利要求1所述基于知识图谱邻域结构的图谱完备化方法,其特征在于,所述步骤2)中,指定窗口大小对关系r进行邻域截取得到关系r的邻域Ne(r),基于该邻域信息,建立Relation2vec模型如下所示:式中E表示...
【专利技术属性】
技术研发人员:杜友田,李雪莲,曹富媛,王雪,
申请(专利权)人:西安交通大学,
类型:发明
国别省市:陕西,61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。