结合实体层次类别的知识图谱表示学习方法技术

技术编号：16701244 阅读：353 留言：0更新日期：2017-12-02 13:45

本发明专利技术涉及一种结合实体层次类别的知识图谱表示学习方法，包括：获取知识图谱的三元组关系以及实体的层次结构类别信息；根据实体的层次结构类别信息，构建实体在预设三元组下的类别映射矩阵；根据三元组关系的实体向量和关系向量以及类别映射矩阵，构建能量方程；根据能量方程构建基于边际的评价函数，通过最小化评价函数，学习实体向量、关系向量以及类别映射矩阵的表示。本发明专利技术提出的结合实体层次类别的知识图谱表示学习方法，能够充分利用实体具有层次结构的类别信息提升表示学习的效果，在知识图谱补全和三元组关系分类等任务中得到更高的准确率，尤其是在具有长尾分布的低频三元组关系上效果提升尤为突出，具有良好的实用性。

Learning method based on knowledge atlas of entity hierarchy

The invention relates to a combined entity level category knowledge map representation learning method, including: obtaining knowledge of three tuple relation and entity hierarchy category information; according to the hierarchical structure of categories of entity information construction entities in three categories under the default tuple mapping matrix; according to the three tuple relational entity vector and vector and the type of mapping matrix, build the energy equation; according to the energy equation to construct the evaluation function based on marginal, by minimizing the evaluation function, learning vector, and the type of entity relation vector mapping matrix representation. According to the invention of knowledge mapping entity level category representation learning method, can make full use of the hierarchical structure of categories of entities said information to improve the learning effect, obtain higher accuracy in the knowledge map completion and three tuple relation classification task, especially in the effect of low frequency long tailed distribution of three tuple relations upgrade especially, has good practicality.

全部详细技术资料下载

【技术实现步骤摘要】
结合实体层次类别的知识图谱表示学习方法
本专利技术涉及自然语言处理
，尤其涉及一种结合实体层次类别的知识图谱表示学习方法。
技术介绍
目前正处于信息爆炸的时代，随着社会的飞速发展，每天都会有海量知识与信息产生。这些信息通常会以文字或者图片等非结构化的形式产生并储存，而信息检索和问答系统等应用更需要准确的结构化信息。随着用户对信息筛选与整理的需求日益增加，如何从海量数据中挖掘有价值的信息成为一个难题。于是，知识图谱应运而生。知识图谱旨在构建一个结构化信息的数据库，将世界上的具象事物(如人名、地名、机构名等专有名词)与抽象概念表示为实体，将实体之间的交互与联系表示为关系。实体与实体之间的关系构成一张巨大的图，其中实体是图中的节点，而关系则作为图中的边。在典型的知识图谱中，世界的海量知识被表示为实体之间利用关系作为连接的三元关系组。例如，针对中国是处于亚洲的国家这一知识，知识图谱使用三元组关系(中国，处于……洲，亚洲)来进行表示。传统的自然语言处理存在歧义性的问题，而在知识图谱的构建中，一个关键词对应的不同语义(如苹果对应的水果语义和科技公司的语义)有着不同的实体。知识图谱通过三元组记录了实体之间的内在联系以及实体自身的属性，被广泛运用于信息检索、问答系统和数据挖掘等多个领域。知识图谱中有着海量实体，而实体之间的关系则相对较少，知识网络存在严重的结构稀疏性问题，同时也存在知识信息不完整的问题。并且随着信息的不断增加，实体之间的关系也在发生着更新与变化，仅靠人工维护与更新信息难以担当重任。因此，知识图谱的表示与自动补全成为当今重要的研究热点。近年来，表示学习...
结合实体层次类别的知识图谱表示学习方法

【技术保护点】
一种结合实体层次类别的知识图谱表示学习方法，其特征在于，包括：获取知识图谱的三元组关系以及实体的层次结构类别信息；根据实体的层次结构类别信息，构建实体在预设三元组下的类别映射矩阵；根据所述三元组关系的实体向量和关系向量以及所述类别映射矩阵，构建能量方程；根据所述能量方程构建基于边际的评价函数，通过最小化所述评价函数，学习实体向量、关系向量以及类别映射矩阵的表示。

【技术特征摘要】
1.一种结合实体层次类别的知识图谱表示学习方法，其特征在于，包括：获取知识图谱的三元组关系以及实体的层次结构类别信息；根据实体的层次结构类别信息，构建实体在预设三元组下的类别映射矩阵；根据所述三元组关系的实体向量和关系向量以及所述类别映射矩阵，构建能量方程；根据所述能量方程构建基于边际的评价函数，通过最小化所述评价函数，学习实体向量、关系向量以及类别映射矩阵的表示。2.根据权利要求1所述的结合实体层次类别的知识图谱表示学习方法，其特征在于，所述根据实体的层次结构类别信息，构建实体在预设三元组下的类别映射矩阵，具体包括：根据实体的层次结构类别信息，获取待处理类别的子类别及所述子类别的数目；通过递归层次编码器利用子类别的映射矩阵的连乘操作，得到所述类别映射矩阵。3.根据权利要求1所述的结合实体层次类别的知识图谱表示学习方法，其特征在于，所述利用子类别的映射矩阵的连乘操作，得到所述类别映射矩阵，具体采用以下公式：其中，c表示类别，c(i)表示c的第i个子类别，有c＝{c(1),c(2),...,c(m)}，Mc表示类别c的映射矩阵，表示c的第i个子类别所属的映射矩阵，m表示c类别所含子类别的个数。4.根据权利要求1所述的结合实体层次类别的知识图谱表示学习方法，其特征在于，所述根据实体的层次结构类别信息，构建实体在预设三元组下的类别映射矩阵，具体包括：根据实体的层次结构类别信息，获取待处理类别的子类别及所述子类别的数目；通过加权层次编码器利用子类别的映射矩阵的加权相加，得到所述类别映射矩阵。5.根据权利要求4所述的结合实体层次类别的知识图谱表示学习方法，其特征在于，还包括：设定子类别映射矩阵的加权策略。6.根据权利要求5所述的结合实体层次类别的知识图谱表示学习方法，其特征在于，所述利用子类别的映射矩阵的加权相加，得到所述类别映射矩阵，具体采用以下公式：其中c表示类别，c(i)表示c的第i个子类别，有c＝{c(1),c(2),...,c(...

【专利技术属性】
技术研发人员：孙茂松，谢若冰，刘知远，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人