一种融合实体和关系描述的知识图谱表示学习方法技术

技术编号:18289624 阅读:93 留言:0更新日期:2018-06-24 04:23
本发明专利技术公开一种融合实体和关系描述的知识图谱表示学习方法,考虑了实体与关系的文本描述信息,很好地融合了三元组的结构化信息与文本描述信息两大信息源,通过基于神经网络的端到端模型对实体和关系联合抽取,设置一个平衡因子来平衡结构化信息和文本描述信息,并根据预测对象的不同定义不同的得分函数;然后利用损失函数把实体向量和关系向量关联起来,并优化该损失函数,当达到优化目标时,就可以学得知识图谱及文本描述信息中每个实体的向量和关系的向量。本发明专利技术解决了知识库中实体和关系的稀疏性和不平衡性,更精确有效地表示实体和关系及其之间的相互联系,并将其应用于大规模知识图谱中,具有较好的实用性。

【技术实现步骤摘要】
一种融合实体和关系描述的知识图谱表示学习方法
本专利技术涉及知识图谱以及深度学习
,具体涉及一种融合实体和关系描述的知识图谱表示学习方法。
技术介绍
随着科技和时代的进步,当今社会以惊人的速度发展,我们逐渐进入一个智能化、信息化时代。每天都有海量新的数据和多样的信息以不同的形式出现。互联网已成为当今社会最有效便捷的信息获取平台,随着互联网用户对真实信息获取的需求日益迫切,如何从海量数据中获取更加准确有效的信息已成为众多领域关注的焦点,知识图谱也由此产生。Google公司于2012年5月将知识图谱引入搜索引擎,开启了大规模知识图谱的研究和应用的热潮。知识图谱的本质是一个由节点和边组成的有向图,通常人们会用网络的形式来组织知识图谱中的知识,网络中的每个节点代表实体(人名、地名、机构名、概念等),每条边代表实体间的关系。因此,大部分知识一般都可以用三元组(h,r,t)来表示,h,t分别表示头实体和尾实体,r表示头尾实体间的关系。例如,巴黎是法国的首都这一事实,在知识图谱中即可用三元组关系(巴黎,是……首都,法国)来表示。目前,常用知识图谱均使用这种表示方式,如万维网(W3C)公布的资源描述框架(resourcedescriptionframework,RDF)技术标准。与基于关键词搜索的传统搜索引擎所不同的是,我们可以利用知识图谱更有效地查找复杂的关联信息,从语义层面上体会用户意图,改善查询质量。例如,若在Google的搜索框里输入杜兰特,页面右侧将会出现杜兰特的相关信息,如出生年月、家庭情况等。大规模知识图谱可以被广泛用于许多实际任务,但其正确性和完整性不能保证,且面临着严重的数据稀疏和计算效率的问题。通过研究知识图谱补全方法来找出缺失或错误的关系来提升知识图谱的整体质量,能够改善或创造有趣的下游应用。近年来,以深度学习为代表的表示学习异军突起,在语音识别、图像分析及自然语言处理等众多领域广受关注。虽然知识表示学习实现了对实体和关系的分布式表示,显著提升了计算效率,有效缓解数据稀疏问题并且可以实现异质信息的融合。但是现有知识表示学习模型有些过于简单不能很好地表示知识图谱中的实体及其之间的关系,有些过于复杂不能将其应用到大规模知识图谱中。
技术实现思路
本专利技术所要解决的是现有知识图谱表示学习方法所存在的不能将实体与关系的文本描述信息与结构化信息有效结合的问题,提供一种融合实体和关系描述的知识图谱表示学习方法。为解决上述问题,本专利技术是通过以下技术方案实现的:一种融合实体和关系描述的知识图谱表示学习方法,具体包括步骤如下:步骤1.通过基于神经网络的端到端模型对网络中实体和关系的文本描述信息进行联合抽取,并利用平衡因子将抽取的实体和关系的文本描述信息与知识图谱中实体和关系的结构化信息结合,通过实体与关系之间基于翻译的模型,根据预测对象的不同来定义衡量关系和实体对之间相互关联的得分函数:当预测的是头实体或尾实体时,则得分函数f(h,r,t)定义为:当预测的是关系时,则得分函数f(h,r,t)定义为:其中,μ是平衡因子,h是头实体向量,t是尾实体向量,r是头实体和尾实体之间的关系向量,hs是头实体的结构化向量,ts是尾实体的结构化向量,rs是关系的结构化向量,hd是头实体的文本描述向量,td是尾实体的文本描述向量,rd是关系的文本文本描述向量,L1是范式,L2是L2范式;步骤2.基于得分函数建立实体与关系的损失函数,并通过最小化损失函数来学习结构化信息与文本信息融合之后的实体和关系,以达到优化目标。上述步骤1中,平衡因子μ的取值范围为[0,1]。上述步骤2中,所建立的损失函数L为:其中,[f(h,r,t)+γ-f(h',r,t')]+=max(0,f(h,r,t)+γ-f(h',r,t'));γ为设定的边界值;(h,r,t)表示知识图谱的三元组即正例三元组,h表示头实体,t表示尾实体,r表示头实体和尾实体之间的关系,f(h,r,t)表示正例三元组的得分函数,S(h,r,t)表示正例三元组集合;(h',r,t')表示随机替换掉头实体h和尾实体t所构建的负例三元组,f(h',r,t')表示负例三元组的得分函数,S′(h,r,t)表示负例三元组集合。上述步骤2中,采用随机梯度下降算法最小化损失函数。与现有技术相比,本专利技术考虑了实体与关系的文本描述信息,很好地融合了三元组的结构化信息与文本描述信息两大信息源,首先通基于神经网络的端到端模型对实体和关系联合抽取,设置一个平衡因子来平衡结构化信息和文本描述信息,并根据预测对象的不同定义不同的得分函数;然后利用损失函数把实体向量和关系向量关联起来,并优化该损失函数,当达到优化目标时,就可以学得知识图谱及文本描述信息中每个实体的向量和关系的向量。本专利技术解决了知识库中实体和关系的稀疏性和不平衡性,更精确有效地表示实体和关系及其之间的相互联系,并将其应用于大规模知识图谱中,具有较好的实用性。附图说明图1为知识图谱中关系三元组的示例图。图2为文本描述中实体与关系联合抽取的示例图。图3为本专利技术知识图谱表示学习方法的流程图。图4为根据现有技术知识图谱表示学习方法得到的三元组表示知识的示例图。图5为根据本专利技术知识图谱表示学习方法得到的三元组表示知识的示例图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实例,并参照附图,对本专利技术进一步详细说明。针对现有知识图谱表示学习方法仅考虑知识图谱中三元组的结构化信息,并没有将与实体和关系相关的文本描述信息有效地结合起来的问题,本专利技术充分考虑了实体与关系的文本描述信息。本专利技术采用典型的(头实体,关系,尾实体)三元组的形式与文本描述信息结合来共同表示知识。图1为知识图谱中典型三元组的示例图。其中,方框表示的节点“巴黎”和“法国”分别为头实体和尾实体,他们之间的连边“首都”为两个实体之间的关系。图2为Freebase网站中实体与关系文本描述的示例图。一种融合实体和关系描述的知识图谱表示学习方法,如图3所示,包括如下步骤:步骤1、通过基于神经网络的端到端模型对实体和关系的文本描述信息进行联合抽取;通过设置一个平衡因子来平衡结构化信息和文本描述信息,将文本描述信息与结构化信息结合;通过预测对象的不同来定义得分函数将实体与关系联系起来。步骤11、定义优化目标为:(μ·hs+(1-μ)·hd)+r=μ·ts+(1-μ)·td其中,hs和ts分别是头实体和尾实体的结构化向量;hd和td分别是头实体和尾实体的文本向量;μ是平衡结构化信息和文本描述信息两个信息源的平衡因子,用逻辑符号函数来计算该平衡因子的大小,即参数μ的取值范围为[0,1];步骤12、利用实体与关系之间基于翻译的模型,根据预测对象的不同来定义衡量关系和实体对之间相互关联的得分函数f(h,r,t)。由基于翻译的模型中使用统一的得分函数模式,并根据预测对象的不同,定义不同的得分函数(距离函数):如果预测的是头实体和尾实体,那么得分函数定义为:如果预测的是关系,那么得分函数可定义为:其中,(h,r,t)表示知识图谱的三元组即正例三元组,h表示头实体,t表示尾实体,r表示头实体和尾实体之间的关系,h是头实体向量,t是尾实体向量,r是头实体和尾实体之间的关系向量,hs和hd分别是头实本文档来自技高网
...
一种融合实体和关系描述的知识图谱表示学习方法

【技术保护点】
1.一种融合实体和关系描述的知识图谱表示学习方法,其特征是,具体包括步骤如下:步骤1.通过基于神经网络的端到端模型对网络中实体和关系的文本描述信息进行联合抽取,并利用平衡因子将抽取的实体和关系的文本描述信息与知识图谱中实体和关系的结构化信息结合,通过实体与关系之间基于翻译的模型,根据预测对象的不同来定义衡量关系和实体对之间相互关联的得分函数:当预测的是头实体或尾实体时,则得分函数f(h,r,t)定义为:

【技术特征摘要】
1.一种融合实体和关系描述的知识图谱表示学习方法,其特征是,具体包括步骤如下:步骤1.通过基于神经网络的端到端模型对网络中实体和关系的文本描述信息进行联合抽取,并利用平衡因子将抽取的实体和关系的文本描述信息与知识图谱中实体和关系的结构化信息结合,通过实体与关系之间基于翻译的模型,根据预测对象的不同来定义衡量关系和实体对之间相互关联的得分函数:当预测的是头实体或尾实体时,则得分函数f(h,r,t)定义为:当预测的是关系时,则得分函数f(h,r,t)定义为:其中,μ是平衡因子,h是头实体向量,t是尾实体向量,r是头实体和尾实体之间的关系向量,hs是头实体的结构化向量,ts是尾实体的结构化向量,rs是关系的结构化向量,hd是头实体的文本描述向量,td是尾实体的文本描述向量,rd是关系的文本文本描述向量,L1是范式,L2是L2范式;步骤2.基于得分函数建立实体与关系的损失函数,并通过最小化损失函数来学习结构化信息与文本信息融合之后的实体和关系,以...

【专利技术属性】
技术研发人员:古天龙栗永芳常亮李凤英祝曼丽罗义琴
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:广西,45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1