一种基于路径张量分解的知识图谱表示学习方法技术

技术编号:14930611 阅读:138 留言:0更新日期:2017-03-31 12:28
本发明专利技术公开一种基于路径张量分解的知识图谱表示学习方法,包括如下步骤:步骤1,提取知识图谱中的实体集、关系集和三元组集,把满足三元组的实体集、关系集嵌入到低维连续向量空间;步骤2,通过PRA算法获得实体间的路径;步骤3,在全部实体可能存在的路径上均进行张量分解,计算分解损失函数值;步骤4,重复步骤3,直至达到收敛的预设值或迭代最大次数;步骤5,如果达到迭代最大次数或收敛于预设值,则进入下一个三元组相关的路径计算,重复步骤2至步骤4,直到训练集全部的三元组都被执行;步骤6,输出训练模型中相应的实体集和关系集。此种表示学习方法可提高知识发现的推理准确性,提高预测精度。

【技术实现步骤摘要】

本专利技术属于知识表示和知识发现以及人工智能领域,特别涉及一种基于路径张量分解的知识图谱表示学习方法
技术介绍
知识图谱(KnowledgeGraph)作为一种新的知识表示方法和数据管理模式,在自然语言处理、问题回答、信息检索等领域有着重要的应用。知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系,其主要采用(head,relation,tail)三元组形式进行知识表示,head是头实体,tail是尾实体,relation是关系,实体之间是通过关系相互联结,形成了网状的知识结构。知识图谱推理是从已有的实体关系三元组,经过推理计算,建立起实体间的新关系,从而丰富和拓展知识图谱。目前常用的知识图谱表示学习方法是将高维知识图谱通过嵌入(embedding)转换到低维连续向量空间,产生了多种不同方式的推理算法,包括基于张量分解推理算法和基于路径推理算法等。基于张量分解算法将整个知识图谱看作是一个大的张量,然后通过张量分解技术分解为多个小的张量片,也就是将高维的知识图谱进行降维处理,大大减少计算时的数据规模。然而,现有的张量分解过程中,只是考虑直接相关联的实体间联系,未考虑到知识图谱的多路径特点,因此,其推理性能受到一定的限制,并不能深层次地挖掘出实体间的关系。基于路径推理算法根据知识图谱图形结构的特点,利用实体间的路径关系进行推理计算,能有效地挖掘出知识图谱中实体间的新关系。但是,现有推理算法还不能解决长路径推理,而且并未考虑路径可靠性和语义组合问题,同时由于关系路径推理算法还处于研究初期,还有很多细致的工作需要完善。
技术实现思路
本专利技术的目的,在于提供一种基于路径张量分解的知识图谱表示学习方法,其可提高知识发现的推理准确性,提高预测精度,主要应用于知识图谱的学习和推理过程,达到丰富和拓展知识图谱的目的。为了达成上述目的,本专利技术的解决方案是:一种基于路径张量分解的知识图谱表示学习方法,包括如下步骤:步骤1,提取知识图谱中的实体集、关系集和三元组集,把满足三元组的实体集、关系集嵌入到低维连续向量空间;步骤2,通过PRA算法获得实体间的路径;步骤3,在全部实体可能存在的路径上均进行张量分解,计算分解损失函数值;步骤4,重复步骤3,直至达到收敛的预设值或迭代最大次数;步骤5,如果达到迭代最大次数或收敛于预设值,则进入下一个三元组相关的路径计算,重复步骤2至步骤4,直到训练集全部的三元组都被执行;步骤6,输出训练模型中相应的实体集和关系集。上述步骤1中,还包括对实体集和关系集进行规范化处理,并将规范化后的实体集与关系集,按照原来的三元组对应关系映射到相应的向量矩阵中。上述步骤2中,从数据集中任意选择一个初始实体s,通过随机游走方式,取得从实体s经过路径p到达实体集,即产生了路径查询数据集(q,t),这里q=s/r1/…/rk,q表示路径p所经历的各个子路径,r1、…、rk表示各个具体的子路径,t表示在这个路径上的实体集;重复执行上面过程,直到全部实体都执行过,最终构造出路径训练集和测试集。上述步骤3中,设知识图谱G中含有n个实体和m个关系,基于路径张量分解推理模型的值函数计算为:其中,xei和xej表示在路径中的起始实体ei和终点实体ej在低维向量空间的向量,而表示关系ri的关系矩阵,i=1,2,…,t,t≤n,k=1,2,…,m,P=(r1r2…rt)表示路径,即eir1ei+1r2…ei+t-1rtej。上述步骤3中,利用下式计算分解损失函数值:其中,表示整个张量在路径分解过程中的损失函数模型,如果在知识图谱中存在着三元组(ei,rk,ej),那么χijk则为1,否则为0;表示在路径上矩阵张量分解,表示为了避免模型过度拟合引入的修正过程,其中λ是修正参数,λ≥0。上述步骤4中,采用交替最小二乘法更新实体矩阵E和关系矩阵即通过先固定对E进行更新,然后再固定E对进行更新。采用上述方案后,本专利技术利用PRA算法计算知识图谱中实体对间的路径,并在这些路径上采用张量分解进行推理,能有效挖掘出知识图谱中实体之间的多路径关系以及实体间的新事实,使得训练模型更加精确,从而更好地丰富和完善知识图谱。附图说明图1是本专利技术的流程图。具体实施方式以下将结合附图,对本专利技术的技术方案及有益效果进行详细说明。如图1所示,本专利技术提供一种基于路径张量分解的知识图谱表示学习方法,首先将知识图谱中的实体和关系通过embedding的方式嵌入到d维向量空间,使其成为向量矩阵,接下来在向量空间中,利用PRA算法查找每个实体对间的关系路径,并利用路径张量模型进行路径分解,计算模型的损失函数值,在更新迭代过程中采用交替最小二乘法分别对实体矩阵和关系矩阵进行更新,直到更新收敛于某个值或达到迭代的最大次数。本专利技术具体包括如下步骤:步骤1,将训练集嵌入转换到低维连续向量空间提取知识图谱中的实体集、关系集和三元组集,把满足三元组的实体集、关系集嵌入(embedding)到低维连续向量空间,作为推理算法的输入。在向量空间中,把关系看作是实体间向量平移转换。在本实施例中,设置低维连续向量空间的维数为{20,50,80,100本文档来自技高网...
一种基于路径张量分解的知识图谱表示学习方法

【技术保护点】
一种基于路径张量分解的知识图谱表示学习方法,其特征在于包括如下步骤:步骤1,提取知识图谱中的实体集、关系集和三元组集,把满足三元组的实体集、关系集嵌入到低维连续向量空间;步骤2,通过PRA算法获得实体间的路径;步骤3,在全部实体可能存在的路径上均进行张量分解,计算分解损失函数值;步骤4,重复步骤3,直至达到收敛的预设值或迭代最大次数;步骤5,如果达到迭代最大次数或收敛于预设值,则进入下一个三元组相关的路径计算,重复步骤2至步骤4,直到训练集全部的三元组都被执行;步骤6,输出训练模型中相应的实体集和关系集。

【技术特征摘要】
1.一种基于路径张量分解的知识图谱表示学习方法,其特征在于包括如下步骤:步骤1,提取知识图谱中的实体集、关系集和三元组集,把满足三元组的实体集、关系集嵌入到低维连续向量空间;步骤2,通过PRA算法获得实体间的路径;步骤3,在全部实体可能存在的路径上均进行张量分解,计算分解损失函数值;步骤4,重复步骤3,直至达到收敛的预设值或迭代最大次数;步骤5,如果达到迭代最大次数或收敛于预设值,则进入下一个三元组相关的路径计算,重复步骤2至步骤4,直到训练集全部的三元组都被执行;步骤6,输出训练模型中相应的实体集和关系集。2.如权利要求1所述的一种基于路径张量分解的知识图谱表示学习方法,其特征在于:所述步骤1中,还包括对实体集和关系集进行规范化处理,并将规范化后的实体集与关系集,按照原来的三元组对应关系映射到相应的向量矩阵中。3.如权利要求1所述的一种基于路径张量分解的知识图谱表示学习方法,其特征在于:所述步骤2中,从数据集中任意选择一个初始实体s,通过随机游走方式,取得从实体s经过路径p到达实体...

【专利技术属性】
技术研发人员:林开标朱顺痣吴运兵卢萍杨帆
申请(专利权)人:厦门理工学院
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1