当前位置: 首页 > 专利查询>清华大学专利>正文

结合实体层次类别的知识图谱表示学习方法技术

技术编号:16701244 阅读:353 留言:0更新日期:2017-12-02 13:45
本发明专利技术涉及一种结合实体层次类别的知识图谱表示学习方法,包括:获取知识图谱的三元组关系以及实体的层次结构类别信息;根据实体的层次结构类别信息,构建实体在预设三元组下的类别映射矩阵;根据三元组关系的实体向量和关系向量以及类别映射矩阵,构建能量方程;根据能量方程构建基于边际的评价函数,通过最小化评价函数,学习实体向量、关系向量以及类别映射矩阵的表示。本发明专利技术提出的结合实体层次类别的知识图谱表示学习方法,能够充分利用实体具有层次结构的类别信息提升表示学习的效果,在知识图谱补全和三元组关系分类等任务中得到更高的准确率,尤其是在具有长尾分布的低频三元组关系上效果提升尤为突出,具有良好的实用性。

Learning method based on knowledge atlas of entity hierarchy

The invention relates to a combined entity level category knowledge map representation learning method, including: obtaining knowledge of three tuple relation and entity hierarchy category information; according to the hierarchical structure of categories of entity information construction entities in three categories under the default tuple mapping matrix; according to the three tuple relational entity vector and vector and the type of mapping matrix, build the energy equation; according to the energy equation to construct the evaluation function based on marginal, by minimizing the evaluation function, learning vector, and the type of entity relation vector mapping matrix representation. According to the invention of knowledge mapping entity level category representation learning method, can make full use of the hierarchical structure of categories of entities said information to improve the learning effect, obtain higher accuracy in the knowledge map completion and three tuple relation classification task, especially in the effect of low frequency long tailed distribution of three tuple relations upgrade especially, has good practicality.

【技术实现步骤摘要】
结合实体层次类别的知识图谱表示学习方法
本专利技术涉及自然语言处理
,尤其涉及一种结合实体层次类别的知识图谱表示学习方法。
技术介绍
目前正处于信息爆炸的时代,随着社会的飞速发展,每天都会有海量知识与信息产生。这些信息通常会以文字或者图片等非结构化的形式产生并储存,而信息检索和问答系统等应用更需要准确的结构化信息。随着用户对信息筛选与整理的需求日益增加,如何从海量数据中挖掘有价值的信息成为一个难题。于是,知识图谱应运而生。知识图谱旨在构建一个结构化信息的数据库,将世界上的具象事物(如人名、地名、机构名等专有名词)与抽象概念表示为实体,将实体之间的交互与联系表示为关系。实体与实体之间的关系构成一张巨大的图,其中实体是图中的节点,而关系则作为图中的边。在典型的知识图谱中,世界的海量知识被表示为实体之间利用关系作为连接的三元关系组。例如,针对中国是处于亚洲的国家这一知识,知识图谱使用三元组关系(中国,处于……洲,亚洲)来进行表示。传统的自然语言处理存在歧义性的问题,而在知识图谱的构建中,一个关键词对应的不同语义(如苹果对应的水果语义和科技公司的语义)有着不同的实体。知识图谱通过三元组记录了实体之间的内在联系以及实体自身的属性,被广泛运用于信息检索、问答系统和数据挖掘等多个领域。知识图谱中有着海量实体,而实体之间的关系则相对较少,知识网络存在严重的结构稀疏性问题,同时也存在知识信息不完整的问题。并且随着信息的不断增加,实体之间的关系也在发生着更新与变化,仅靠人工维护与更新信息难以担当重任。因此,知识图谱的表示与自动补全成为当今重要的研究热点。近年来,表示学习在知识图谱上的运用获得了巨大的成功,显著提高了知识图谱的表示与自动补全性能。表示学习使用分布式表示方法,将实体与关系映射到低维连续向量空间中,解决了之前知识图谱表示学习中的稀疏性问题,同时也提高了效率,其中基于转化的模型表现最为突出。但是,现有的知识图谱表示学习方法往往只考虑知识图谱三元组关系本身,忽略了实体所有丰富的具有层次结构的类别信息,限制了知识图谱的表示性能。综上所述,急需一种新的结合实体层次类别的知识图谱表示学习方法,解决现有技术中存在的未能充分利用实体层次结构类别信息的问题,提高知识图谱的表示性能。
技术实现思路
本专利技术所要解决的技术问题提供一种结合实体层次类别的知识图谱表示学习方法,解决现有技术中存在的未能充分利用实体层次结构类别信息的问题,提高知识图谱的表示性能。为此目的,本专利技术提出了一种结合实体层次类别的知识图谱表示学习方法,包括:获取知识图谱的三元组关系以及实体的层次结构类别信息;根据实体的层次结构类别信息,构建实体在预设三元组下的类别映射矩阵;根据所述三元组关系的实体向量和关系向量以及所述类别映射矩阵,构建能量方程;根据所述能量方程构建基于边际的评价函数,通过最小化所述评价函数,学习实体向量、关系向量以及类别映射矩阵的表示。优选的,所述根据实体的层次结构类别信息,构建实体在预设三元组下的类别映射矩阵,具体包括:根据实体的层次结构类别信息,获取待处理类别的子类别及所述子类别的数目;通过递归层次编码器利用子类别的映射矩阵的连乘操作,得到所述类别映射矩阵。优选的,所述利用子类别的映射矩阵的连乘操作,得到所述类别映射矩阵,具体采用以下公式:其中,c表示类别,c(i)表示c的第i个子类别,有c={c(1),c(2),...,c(m)},Mc表示类别c的映射矩阵,表示c的第i个子类别所属的映射矩阵,m表示c类别所含子类别的个数。优选的,所述根据实体的层次结构类别信息,构建实体在预设三元组下的类别映射矩阵,具体包括:根据实体的层次结构类别信息,获取待处理类别的子类别及所述子类别的数目;通过加权层次编码器利用子类别的映射矩阵的加权相加,得到所述类别映射矩阵。优选的,还包括:设定子类别映射矩阵的加权策略。优选的,所述利用子类别的映射矩阵的加权相加,得到所述类别映射矩阵,具体采用以下公式:其中c表示类别,c(i)表示c的第i个子类别,有c={c(1),c(2),...,c(m)},Mc表示类别c的映射矩阵,表示c的第i个子类别所属的映射矩阵,m表示c类别所含子类别的个数,βi表示第i个子类别的权值。优选的,所述子类别映射矩阵的加权策略为:βi:βi+1=(1-η):η且其中,η为控制权值等比例下降速率的超参数,η∈(0,0.5)。优选的,所述根据所述三元组关系的实体向量和关系向量以及所述类别映射矩阵,构建能量方程,具体采用以下公式:E(h,r,t)=||Mrhh+r-Mrtt||其中,E(h,r,t)为能量方程,Mrh和Mrt分别是头实体h和尾实体t在三元组(h,r,t)中的映射矩阵,r为关系向量。优选的,根据所述能量方程构建基于边际的评价函数,具体采用以下公式:T′={(h′,r,t)|h′∈E}∪{(h,r,t′)|t′∈E}∪{(h,r′,t)|r′∈R}其中,γ>0是超参数,T′为三元组的负例集,T为三元组的正例集,h′为替换h的负例实体,t′为替换t的负例实体,r′为替换r的负例实体,E为实体集合,R为关系集合。优选的,该方法还包括:加入实体类别限制,加大负例采样过程中同类别的实体被选作负例的概率,同类实体被选择为负例的概率如下:其中,e是三元组中的被替换的正例实体,e'是替换的负例实体,c是三元组中e属于的类别,Ec∈E是所有属于类别c的实体集合,|Ec|和|E|分别是两个实体集合的实体数,k是超参数,用于控制同类别的实体被选作负例的概率的提高比例,N为自然数集。与现有技术相比,本专利技术提出的结合实体层次类别的知识图谱表示学习方法,不仅利用了实体之间的三元组关系信息,还充分利用了实体所有的具有层次结构的类别信息,通过构建能量方程,使得实体通过类别的映射矩阵,在不同类别上拥有不同的表示向量,通过最小化基于边际的评价函数学习实体向量、关系向量以及类别映射矩阵的表示,显著提升了知识图谱的表示学习效果。本专利技术学习到的知识图谱表示,能够在知识图谱补全和三元组关系分类等任务中得到更高的准确率,尤其是在具有长尾分布的低频三元组关系上效果提升尤为突出,具有良好的实用性。附图说明通过参考附图会更加清楚的理解本专利技术的特征和优点,附图是示意性的而不应理解为对本专利技术进行任何限制,在附图中:图1为本专利技术实施例提供的一个知识图谱中三元关系组及其实体层次类别的示例图;图2为本专利技术实施例提供的结合实体层次类别的知识图谱表示学习方法的流程示意图;图3为本专利技术实施例提供的基于递归层次编码器的模型示意图;图4为本专利技术实施例提供的基于加权层次编码器的模型示意图。具体实施方式下面将结合附图对本专利技术的实施例进行详细描述。知识图谱表示学习方法将所有实体与关系映射到一个低维连续向量空间中,使用分布式表示的方法对实体与关系进行建模,解决了知识图谱学习中产生的稀疏性和效率问题。本专利技术提出的一种结合实体层次类别的知识图谱表示学习方法,能够充分利用实体拥有的层次结构的类别信息,显著提升了知识图谱的表示学习效果,具有良好的实用性。如图1所示,给出了一个知识图谱中三元关系组及其实体层次类别的示例图。其中下方是三元关系组,“莎士比亚(WilliamShakespeare)”为首实体,“罗密欧与本文档来自技高网
...
结合实体层次类别的知识图谱表示学习方法

【技术保护点】
一种结合实体层次类别的知识图谱表示学习方法,其特征在于,包括:获取知识图谱的三元组关系以及实体的层次结构类别信息;根据实体的层次结构类别信息,构建实体在预设三元组下的类别映射矩阵;根据所述三元组关系的实体向量和关系向量以及所述类别映射矩阵,构建能量方程;根据所述能量方程构建基于边际的评价函数,通过最小化所述评价函数,学习实体向量、关系向量以及类别映射矩阵的表示。

【技术特征摘要】
1.一种结合实体层次类别的知识图谱表示学习方法,其特征在于,包括:获取知识图谱的三元组关系以及实体的层次结构类别信息;根据实体的层次结构类别信息,构建实体在预设三元组下的类别映射矩阵;根据所述三元组关系的实体向量和关系向量以及所述类别映射矩阵,构建能量方程;根据所述能量方程构建基于边际的评价函数,通过最小化所述评价函数,学习实体向量、关系向量以及类别映射矩阵的表示。2.根据权利要求1所述的结合实体层次类别的知识图谱表示学习方法,其特征在于,所述根据实体的层次结构类别信息,构建实体在预设三元组下的类别映射矩阵,具体包括:根据实体的层次结构类别信息,获取待处理类别的子类别及所述子类别的数目;通过递归层次编码器利用子类别的映射矩阵的连乘操作,得到所述类别映射矩阵。3.根据权利要求1所述的结合实体层次类别的知识图谱表示学习方法,其特征在于,所述利用子类别的映射矩阵的连乘操作,得到所述类别映射矩阵,具体采用以下公式:其中,c表示类别,c(i)表示c的第i个子类别,有c={c(1),c(2),...,c(m)},Mc表示类别c的映射矩阵,表示c的第i个子类别所属的映射矩阵,m表示c类别所含子类别的个数。4.根据权利要求1所述的结合实体层次类别的知识图谱表示学习方法,其特征在于,所述根据实体的层次结构类别信息,构建实体在预设三元组下的类别映射矩阵,具体包括:根据实体的层次结构类别信息,获取待处理类别的子类别及所述子类别的数目;通过加权层次编码器利用子类别的映射矩阵的加权相加,得到所述类别映射矩阵。5.根据权利要求4所述的结合实体层次类别的知识图谱表示学习方法,其特征在于,还包括:设定子类别映射矩阵的加权策略。6.根据权利要求5所述的结合实体层次类别的知识图谱表示学习方法,其特征在于,所述利用子类别的映射矩阵的加权相加,得到所述类别映射矩阵,具体采用以下公式:其中c表示类别,c(i)表示c的第i个子类别,有c={c(1),c(2),...,c(...

【专利技术属性】
技术研发人员:孙茂松谢若冰刘知远
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1