基于多步关系路径的知识图谱表示学习方法技术

技术编号:19692369 阅读:330 留言:0更新日期:2018-12-08 11:19
本发明专利技术公开一种基于多步关系路径的知识图谱表示学习方法,其考虑了关系路径被准确表示的必要性,利用长短时记忆网络结构对关系路径中的多个关系进行依次迭代组合操作,很好地表示了实体对之间的直接关系和路径关系的相互关联,丰富了实体对之间的语义信息。采用改进的路径约束分配资源算法,计算实体对之间每条路径的可靠性,利用计算得到的可靠性根据阈值滤除不可靠的路径,从而得到可靠的关系路径,使头实体到尾实体的可达性计算更详尽准确。本发明专利技术解决现有技术对于关系路径建模相对粗糙使路径长度受限无法很好反应实体对之间复杂语义信息的问题,具有良好的可扩展性。

【技术实现步骤摘要】
基于多步关系路径的知识图谱表示学习方法
本专利技术涉及知识图谱及深度学习
,具体涉及一种基于多步关系路径的知识图谱表示学习方法。
技术介绍
人们通常以网络的形式组织知识库中的知识,网络中每个节点代表实体(人名、地名、机构名、概念等),而每条边代表实体间的关系。因此,大部分知识往往都可以用三元组(实体1,关系,实体2)来表示,对应着知识库网络中的一条边及其连接的2个实体。这是知识库的通用表示方式,例如万维网(W3C)发布的资源描述框架(resourcedescriptionframework,RDF)技术标准,就是以三元组表示为基础的。知识库是推动人工智能学科发展和支撑智能信息服务应用(如智能搜索、智能问答、个性化推荐等)的重要基础技术。为了改进信息服务质量,国内外互联网公司(特别是搜索引擎公司)纷纷推出知识库产品,如谷歌知识图谱、微软BingSatori、百度知心以及搜狗知立方等。在谷歌提出知识图谱(knowledgegraphs)的概念后,以三元组结构表示知识的形式广受认可。知识图谱也由此产生。知识表示学习是面向知识图谱中实体和关系的表示学习。表示学习旨在将研究对象的语义信息表示为稠密低维实值向量。在该低维向量空间中,2个对象距离越近则说明其语义相似度越高。表示学习技术可以在低维空间中高效计算实体和关系的语义联系,有效解决数据稀疏问题,使知识获取、融合和推理的性能得到显著提升。但现有的表示学习模型仅仅考虑了实体之间的直接关系,实体之间还存在大量多步关系路径表明他们之间的语义关系。已有解决方案仅加入两到三步路径,无法很好地反映KBs中的复杂推理,并且对路径的建模比较粗糙,不能有效区分每个关系所对应的关系路径。因此,有必要对关系路径建模做进一步改进,以更好地提升知识表示学习的区分性,同时能够应用于大规模知识图谱中。
技术实现思路
本专利技术针对现有知识表示学习方法存在路径表示粗糙而无法有效表示知识图谱中多步路径语义信息的问题,提供一种基于多步关系路径的知识图谱表示学习方法。为解决上述问题,本专利技术是通过以下技术方案实现的:基于多步关系路径的知识图谱表示学习方法,具体包括步骤如下:步骤1、定义关系路径中关系间的组合操作,根据递归构成关系路径的嵌入,通过改进的路径约束分配资源算法来测量关系路径的可靠性;步骤2、基于翻译模型,建立知识图谱中三元组的实体向量与关系向量的关系得分函数,以及实体向量与路径向量的路径得分函数,并根据关系得分函数和路径得分函数建立三元组的总得分函数;步骤3、建立实体向量与关系向量或实体向量与路径向量的得分函数的损失函数,并通过最小化损失函数,学得实体、关系和路径的向量表示。上述步骤1中,所定义的关系路径中关系间的组合操作为长短时记忆网络。上述步骤1中,改进的路径约束分配资源算法的具体过程是:首先,统计头实体和尾实体链接的概率λ;然后,将传统路径约束分配资源算法的传统迭代公式中的概率1替换为上述统计得到的概率λ,得到改进的路径约束分配资源算法的改进迭代公式;最后,通过给定头实体h的初始资源,并利用改进迭代公式来对路径p进行一步一迭代,得到最终流入尾实体t的资源该路径的可靠性R(p|h,t)。上述步骤2中,所建立的关系得分函数E(h,r,t)为:所建立的路径得分函数E(h,p,t)为:总的得分函数G(h,r,t)为:其中:h表示头实体,t表示尾实体,r表示关系,p表示路径,L1表示L1范式,L2表示L2范式,h表示头实体向量,t表示尾实体向量,r表示关系向量,p表示路径向量,R(p|h,t)表示给定头尾实体对(h,t)的关系路径p的可靠性,Z表示归一化因子,P(h,t)表示连接头尾实体对(h,t)的多步关系路径p的集合。上述步骤2中,翻译模型为TransE翻译模型。上述步骤3中,所建立的损失函数L为:其中:(h,r,t)表示正例关系三元组,(h,r,t)表示正例路径三元组,S={(h,r,t)}∪{(h,p,t)}表示正例三元组集合;(h′,r′,t′)表示随机替换掉头实体h、关系r或尾实体t所构建的负例关系三元组,(h,p′,t)表示随机替换掉路径p所构建的负例路径三元组;L(h,r,t)表示关系三元组(h,r,t)基于边际的损失函数,L(h,p,t)表示路径三元组(h,p,t)基于边际的损失函数,R(p|h,t)表示给定头尾实体对(h,t)的关系路径p的可靠性,Z表示归一化因子,γ为设定的边际值,S-={(h′,r,t)}∪{(h,r′,t)}∪{(h,r,t′)}∪{(h,p′,t)}表示负例三元组集合;E(h,r,t)表示正例关系三元组(h,r,t)的得分函数,E(h′,r′,t′)表示负例关系三元组(h′,r′,t′)的得分函数,E(h,p,t)表示正例路径三元组(h,r,t)的得分函数,E(h,p′,t)表示负例路径三元组的得分函数。与现有技术相比,本专利技术考虑了关系路径被准确表示的必要性,利用长短时记忆网络(longshorttermmemory,LSTM)结构对关系路径中的多个关系进行依次迭代组合操作,很好地表示了实体对之间的直接关系和路径关系的相互关联,丰富了实体对之间的语义信息。本专利技术采用改进的路径约束分配资源(PCRA)算法即im-PCRA算法,计算实体对之间每条路径的可靠性,利用计算得到的可靠性根据阈值滤除不可靠的路径,从而得到可靠的关系路径;im-PCRA算法在PCRA算法的基础上对每步关系的概率用PageRank技术处理,使头实体到尾实体的可达性计算更详尽准确。本专利技术解决现有技术对于关系路径建模相对粗糙使路径长度受限无法很好反应实体对之间复杂语义信息的问题,具有良好的可扩展性。附图说明图1为知识图谱中关系三元组和路径三元组的示例图。图2为本专利技术知识图谱表示学习方法的流程图。图3为通用知识图谱的部分展示图。图4a为现有技术方法得到的三元组表示知识的示例图。图4b为根据本专利技术知识图谱表示学习方法得到的三元组表示知识的示例图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实例,并参照附图,对本专利技术进一步详细说明。在详细介绍之前,我们先定义几种符号,以便于下文使用。(h,r,t)表示知识图谱的关系三元组,(h,p,t)表示知识图谱的路径三元组,h表示头实体,t表示尾实体,r表示头实体h和尾实体t之间的关系,p=(r1,r2,...,rl)表示头实体h和尾实体t之间的关系路径。本专利技术考虑了知识图谱的三元组结构信息以及关系路径的语义信息,以典型的关系三元组形式(实体1,关系,实体2)为基础,扩展的路径三元组形式(实体1,路径,实体2)为补充。关系用来连接两个实体,描述两个实体之间的关联,路径则为多个关系的组合。图1为知识图谱中典型的关系三元组和扩展的路径三元组示例图。其中,矩形表示的节点如“汤姆”、“巴黎”及“法国”等都为实体,两个实体之间的连边如“出生城市”、“城市所属国家”及“国籍”等都为关系。我们可以得到关系三元组(汤姆,国籍,法国)和路径三元组(汤姆,出生城市,城市所属国家,法国),其中关系“出生城市”和“城市所属国家”的组合称之为路径。本专利技术利用im-PCRA计算实体对之间每条路径的可靠性,根据计算得到的可靠性依据给定阈值滤除不可靠的路本文档来自技高网
...

【技术保护点】
1.基于多步关系路径的知识图谱表示学习方法,其特征是,具体包括步骤如下:步骤1、定义关系路径中关系间的组合操作,根据递归构成关系路径的嵌入,通过改进的路径约束分配资源算法来测量关系路径的可靠性;步骤2、基于翻译模型,建立知识图谱中三元组的实体向量与关系向量的关系得分函数,以及实体向量与路径向量的路径得分函数,并根据关系得分函数和路径得分函数建立三元组的总得分函数;步骤3、建立实体向量与关系向量或实体向量与路径向量的得分函数的损失函数,并通过最小化损失函数,学得实体、关系和路径的向量表示。

【技术特征摘要】
1.基于多步关系路径的知识图谱表示学习方法,其特征是,具体包括步骤如下:步骤1、定义关系路径中关系间的组合操作,根据递归构成关系路径的嵌入,通过改进的路径约束分配资源算法来测量关系路径的可靠性;步骤2、基于翻译模型,建立知识图谱中三元组的实体向量与关系向量的关系得分函数,以及实体向量与路径向量的路径得分函数,并根据关系得分函数和路径得分函数建立三元组的总得分函数;步骤3、建立实体向量与关系向量或实体向量与路径向量的得分函数的损失函数,并通过最小化损失函数,学得实体、关系和路径的向量表示。2.根据权利要求1所述基于多步关系路径的知识图谱表示学习方法,其特征是,步骤1中,所定义的关系路径中关系间的组合操作为长短时记忆网络。3.根据权利要求1所述基于多步关系路径的知识图谱表示学习方法,其特征是,步骤1中,改进的路径约束分配资源算法的具体过程是:首先,统计头实体和尾实体链接的概率λ;然后,将传统路径约束分配资源算法的传统迭代公式中的概率1替换为上述统计得到的概率λ,得到改进的路径约束分配资源算法的改进迭代公式;最后,通过给定头实体h的初始资源,并利用改进迭代公式来对路径p进行一步一迭代,得到最终流入尾实体t的资源该路径的可靠性R(p|h,t)。4.根据权利要求1所述基于多步关系路径的知识图谱表示学习方法,其特征是,步骤2中,所建立的关系得分函数E(h,r,t)为:所建立的路径得分函数E(h,p,t)为:总的得分函数G(h,r,t)为:其中:h表示头实体,t表示尾实体,r表示关系,p表示路径,L1表示L1范...

【专利技术属性】
技术研发人员:古天龙罗义琴常亮梁聪陈炜
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:广西,45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1