当前位置: 首页 > 专利查询>清华大学专利>正文

一种知识图谱表示学习方法技术

技术编号:14869911 阅读:52 留言:0更新日期:2017-03-21 02:01
本发明专利技术公开了一种知识图谱表示学习方法,该方法包括:利用实体向量与关系向量之间基于平移的模型,定义关系三元组(head,relation,tail)中实体向量与关系向量之间的相互关联;利用神经网络分类模型,定义特性三元组(entity,attribute,value)中实体向量与特性向量之间的相互关联;通过评价函数将实体向量、关系向量和特性向量关联起来,并最小化评价函数,以学习实体向量、关系向量和特性向量,达到优化目标。采用本发明专利技术能够精确表示实体、关系和特性之间的联系。

【技术实现步骤摘要】

本专利技术涉及自然语言处理以及知识图谱领域,特别涉及一种知识图谱表示学习方法
技术介绍
随着社会飞速发展,我们已经进入信息爆炸时代,每天都会有海量新的实体与信息产生。互联网作为当今最为便捷的信息获取平台,用户对有效信息筛选与归纳的需求日益迫切,如何从海量数据中获取有价值的信息成为一个难题。知识图谱于此应运而生。知识图谱将世界上所有人物、地名、书名、球队名等专有名词与事物表示为实体,将实体之间的内在联系表示为关系,旨在将数据库中的海量知识表示为实体之间利用关系作为桥梁的三元关系组。例如,北京是中国的首都这一知识,在知识图谱中则利用三元组关系(北京,是……首都,中国)进行表示。知识图谱能够对一个关键词的不同语义建立不同的实体,消除语言多义性的干扰,同时能够展现目标实体与其它相关实体之间更深更广的内在联系,被广泛运用于数据挖掘、信息检索、问答系统等多个领域。由于现有实体规模巨大,且实体与关系每日都在变化与增加,难以人工维护与挖掘新的信息,对知识图谱的表示与自动补全是当今重要的研究热点。知识图谱实体数量巨大,网络结构稀疏性严重。而近年来在知识图谱的研究上取得了显著的进展,表示学习运用于知识图谱中,将所有实体与关系映射到一个低维连续向量空间中,解决了之前知识图谱学习时产生的稀疏性与效率问题。但是,目前已有的知识图谱表示学习方法在学习时将实体之间的关系和实体的特性混为一谈,使用同一种模型进行建模,无法精确的表示实体、关系和特性之间的相互联系。
技术实现思路
有鉴于此,本专利技术的专利技术目的是:解决现有技术中存在的无法精确表示实体、关系和特性之间联系的问题,以提高知识图谱表示的质量。为达到上述目的,本专利技术的技术方案具体是这样实现的:本专利技术提供了一种知识图谱表示学习方法,该方法包括:利用实体向量与关系向量之间基于平移的模型,定义关系三元组(head,relation,tail)中实体向量与关系向量之间的相互关联;利用神经网络分类模型,定义特性三元组(entity,attribute,value)中实体向量与特性向量之间的相互关联;通过评价函数将实体向量、关系向量和特性向量关联起来,并最小化评价函数,以学习实体向量、关系向量和特性向量,达到优化目标。由上述的技术方案可见,本专利技术将关系和特性区分对待,所以知识图谱采用关系三元组和特性三元组的形式来表示知识。因此,本专利技术采用实体向量与关系向量之间基于平移的模型,来表示关系三元组中的实体向量和关系向量之间的相互关联;采用神经网络分类模型,来表示特性三元组中的实体向量和特性向量之间的相互关联;然后通过评价函数将实体向量、关系向量和特性向量关联起来,并优化该评价函数,在达到优化目标时,就可以同时学习到知识图谱中的每个实体向量、关系向量和特性向量,从而精确的表示实体、关系和特性之间的相互联系。附图说明图1为知识图谱中包含关系三元组和特性三元组的示例图。图2为本专利技术知识图谱表示学习方法的流程示意图。图3a为根据现有技术知识图谱表示学习方法得到的三元组表示知识的示例图。图3b为根据本专利技术知识图谱表示学习方法得到的三元组表示知识的示例图。具体实施方式为使本专利技术的目的、技术方案、及优点更加清楚明白,以下参照附图并举实施例,对本专利技术进一步详细说明。现有技术中,并不区分关系和特性,将特性也作为关系的一种,知识图谱主要采用(实体1,关系,实体2)三元组的形式来表示知识,即采用关系三元组(head,relation,tail)来表示。因此现有技术中只采用一种模型来表示关系三元组中的实体向量和关系向量之间的相互关联,知识图谱表示学习方法在学习时将实体之间的关系和实体的特性无法区分开,无法精确的表示实体、关系和特性之间的相互联系。本专利技术将关系和特性区分对待,所以知识图谱采用关系三元组和特性三元组的形式来表示知识。关系三元组用(head,relation,tail)来表示,关系用来连接两个实体,刻画两个实体之间的关联。特性三元组用(entity,attribute,value)来表示,每个特性-值(a,v)用来刻画对应实体的内在特性。在知识图谱中,关系三元组中节点表示实体,连边表示关系;特性三元组中连边表示特性,连边的一端节点表示实体,连边的另一端节点表示该实体的特性值。图1为知识图谱中包含关系三元组和特性三元组的示例图。其中,圆圈表示的节点“克林顿”与“希拉里”都为实体,他们之间的连边为“妻子”关系。另外,我们可以看到,两个实体各自都有属于自己的特性,如“职业”,“性别”,“出生地”等,对于实体“克林顿”职业的特性值为美国总统,对于实体“希拉里”职业的特性值为美国国务卿。实施例一本专利技术公开了一种知识图谱表示学习方法,其流程示意图如图2所示,该方法包括:步骤21、利用实体向量与关系向量之间基于平移的模型,定义关系三元组(head,relation,tail)中实体向量与关系向量之间的相互关联。其中,利用实体向量与关系向量之间基于平移的模型,定义关系三元组中实体向量与关系向量之间的相互关联的方法包括:S211、定义关系三元组概率为p(h|r,t,X)=exp(g(h,r,t))Σh‾exp(g(h‾,r,t));]]>表示知识图谱中任意实体;是关系三元组概率函数的归一化因子,指遍历知识图谱中所有实体h,使得归一化因子为1。p(h|r,t,X)=exp(g(h,r,t))Σh‾exp(g(h‾,r,t))]]>是softmax函数。S212、利用实体向量与关系向量之间基于平移的模型,定义衡量关系r和实体对(h,t)之间相互联系的函数g。实体向量与关系向量之间基于平移的模型可以有多种,例如,TransE和TransR等,如果采用的是TransE的能量函数,那么g可以定义为:g(h,r,t)=-||h+r-t||L1/L2+b1如果采用的是TransR的能量函数,那么g可以定义为:g(h,r,t)=-||hMr+r-tMr||L1/L2+b1其中,L1为L1范式,L2为L2范式,Mr为TransR模型中与关系相关的投影矩阵,b1为一个偏置常数,用于使得g函数返回值的均值保持在0左右。需要说明的是,本专利技术实施例中将关系三元组概率表示为p(h|r,t,X),还可以用p(t|r,h,X)或p(r|h,t,X)代替。X为r,h,t的向量表示。步骤22、利用神经网络分类模型,定义特性三元组(entity,attribute,val本文档来自技高网
...

【技术保护点】
一种知识图谱表示学习方法,该方法包括:利用实体向量与关系向量之间基于平移的模型,定义关系三元组(head,relation,tail)中实体向量与关系向量之间的相互关联;利用神经网络分类模型,定义特性三元组(entity,attribute,value)中实体向量与特性向量之间的相互关联;通过评价函数将实体向量、关系向量和特性向量关联起来,并最小化评价函数,以学习实体向量、关系向量和特性向量,达到优化目标。

【技术特征摘要】
1.一种知识图谱表示学习方法,该方法包括:
利用实体向量与关系向量之间基于平移的模型,定义关系三元组(head,relation,
tail)中实体向量与关系向量之间的相互关联;
利用神经网络分类模型,定义特性三元组(entity,attribute,value)中实体向量与特
性向量之间的相互关联;
通过评价函数将实体向量、关系向量和特性向量关联起来,并最小化评价函数,以学习
实体向量、关系向量和特性向量,达到优化目标。
2.如权利要求1所述的方法,其特征在于,
利用实体向量与关系向量之间基于平移的模型,定义关系三元组中实体向量与关系向
量之间的相互关联的方法包括:
定义关系三元组概率为表示知识图谱中任意实
体;
利用实体向量与关系向量之间基于平移的模型,定义衡量关系r和实体对(h,t)之间相
互联系的函数g。
3.如权利要求2所述的方法,其特征在于,
利用神经网络分类模型,定义特性三元组中实体向量与特性向量之间的相互关联的方
法包括:
定义第一特性三元组概率为表示知识图谱中任
意实体;
利用神经网络分类模型,定义衡量特性-值(a,v)和实体e之间相互联系的函数k。
4.如权利要求3所述的方法,其特征在于,当神经网络分类模型为单层神经网络模型
时,k(e,a,v)=-||f(eWa+ba)-Vav||L1/L2+b2;
Wa和ba为单层神经网络模型中的模型参数;||f(eWa+ba)-Vav||L1/L2表示将实体e的表示
向量通过一个单层的神经网络模型投影到对应特性a的子空间中,然后计算投影后的向量
和对应特性值v的表示向量之间的相似度;b2为一个偏置常数,用于使得k函数返回值的均
值保持在0左右。
5.如权利要求4所述的方法,其特征在于,在定义函数k之后,该方法进一步包括:
定义第二特性三元组概...

【专利技术属性】
技术研发人员:孙茂松林衍凯刘知远栾焕博刘奕群马少平
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1