本发明专利技术涉及一种基于三元交互的知识图谱表示学习方法,其特征在于包括以下步骤:1)在知识图谱中,以三元组为基本单位,对头实体、关系和尾实体三者本身及其之间的交互进行建模,得到InterTris模型;2)对构建的InterTris模型进行训练,得到训练好的InterTris模型;3)利用得到的InterTris模型,可以实现知识图谱的数值化表示,从而奠定知识图谱价值挖掘的基础。本发明专利技术从知识图谱构建语义联系的本质出发,基于其基本单位三元组进行建模。无论数据特征如何变化,知识图谱的基本构成单位不会发生变化。因此,由于抽象程度较高,本发明专利技术降低了知识图谱表示学习模型对数据集的依赖程度,具有更强的普适性,可以广泛应用于知识图谱表示学习领域。
【技术实现步骤摘要】
一种基于三元交互的知识图谱表示学习方法
本专利技术涉及知识图谱表示学习领域,特别是涉及一种基于三元交互的知识图谱表示学习方法。
技术介绍
由于大数据时代的到来,现实世界中不同对象(实体或概念)之间的联系日益复杂,相应产生的数据量更是以指数形式增长。使用传统方式对当今世界建模已经不再现实,于是一系列新技术手段应运而生。知识图谱(KnowledgeGraph)便是其中之一。它提出的根本目标是为了描述真实世界中的实体或概念及其之间的关系。与传统方式相比,知识图谱提供了一种新的海量数据组织、管理和利用方式,是人工智能和机器学习的重要基础。知识图谱的基本单位是三元组,即<头实体,关系,尾实体>,如<中国,首都,北京>。知识图谱起源于语义网,因此,可以将其看作特殊的语义网络,其中的结点表示实体,边表示关系或属性,从而完成对现实世界的建模。新技术提出的根本是为了充分发挥其现实作用,知识图谱也不例外。它的生命周期起源于知识图谱构建,并在与机器学习等其他新技术结合的基础上实现自身价值,在智能搜索、知识问答等领域扮演着重要角色。同时,结合新技术的相关应用成果甚至可以回溯给构建过程。但是,从已构建完成的知识图谱到结合以机器学习为代表的新技术应用之间却存在断层。由于建模基础为现实世界,所以,知识图谱多以文字等符号形式表示;而机器学习模型的输入输出往往都是数值化的向量。因此,知识图谱生命周期中缺少了从符号到向量的连接层。知识图谱表示学习相关技术应运而生。经过近10年的发展,知识图谱表示学习相关领域涌现了很多模型。但现有模型多从数据出发构建而成,导致模型的应用过于依赖数据集本身的特征,从而局限了相关技术在现实生产实践中的推广。比如,微生物领域的栖息地知识图谱中普遍存在多头现象,即多个不同的头实体(这里指为微生物)可以通过相同的关系(这里是“Live_In”关系)到达同一个尾实体(这里指栖息地)。而微生物领域的酶知识图谱中却大量存在多尾现象,即相同的头实体(如酶“enzyme/1.5.1.17”)通过相同的关系(如“product”)可以到达不同的尾实体(如“L-alanine”和“NADH”等)。进一步地,如果将上述两个知识图谱融合为一个,那么该知识图谱就会在部分数据集上表现出多头特征、另一部分上表现为多尾特征。因此,如何构建同时适应多头、多尾和其他一般知识图谱的表示学习模型就成为一个迫切问题。如上所述,知识图谱的基本单位是三元组,具体包括头实体,关系和尾实体。下文将用h、r和t对三者进行表示,相应加粗的h、r和t则表示三者的向量化表示。其他形式化表示将在使用时进行说明。目前为止,所有知识图谱表示学习的建模过程均为:首先将头尾实体和关系表示为矩阵或向量,然后基于目标函数对这些矩阵或向量进行拟合建模。具体可以分为三类:第一类是以RESCAL(一种基于张量分解的三元关系学习方法)为代表的Composition(组合)模型;第二类是以NTN(NeuralTensorNetwork,神经张量网络)为代表的NeuralNetwork(神经网络)模型;第三类是以TransE(Translation-basedEmbedding,基于转换的嵌入式表示学习)为代表的Translation(转换)模型。下面将分别介绍三种模型及其特点。1.Composition模型在Composition模型中,经典的RESCAL使用三维张量χ表示三元组。其中,元素χijk=1表示相应三元组成立;若为0,则不成立。基于此,模型根据关系对张量χ进行切片操作,即将第k个关系对应的张量χk分解为ARkAT。其中,A是实体向量化的矩阵;非对称矩阵Rk则建模了第k个关系相应的头尾实体交互作用。因此,可以认为RESCAL建模的基本思路是张量分解。与RESCAL类似,LFM(LatentFactorModel,隐性张量模型)也从张量分解的角度出发实现建模。基于NLP(NaturalLanguageProcessing,自然语言处理)中的unigram(一元)、bigram(二元)和trigram(三元)现象,LFM分别考虑了头尾实体和关系三元素的本身建模、对关系和头尾实体之间的联系进行二元建模,以及头尾实体和关系三元素之间的相互依赖性。其首先将头尾实体建模为向量h、t,将关系建模为矩阵Mr;然后在实体embedding(嵌入式表示)过程中引入二阶相关性;最后,根据目标函数fr(h,t)=hTMrt进行模型调优。因此,它以一种相对简单有效的方式实现了实体之间的交互建模。通过对包括NTN和TransE在内的已有嵌入式模型进行分析,DistMult(基于对角矩阵的距离模型)提出了可以将这些模型统一起来的模型框架,即(yh和yt是头尾实体的向量化表示函数,Mr则是关系的矩阵表示)。为了提高性能,该模型将Mr定义为对角矩阵,达到参数规模与TransE相同的目的。HolE(HolographicEmbeddings,全息嵌入式表示)主要基于循环相关对头尾实体之间的丰富交互进行建模,即Complex(基于复数的组合模型)在此基础之上,将所有的实数向量转换为复数向量进行建模求解。ANALOGY(基于类比的组合模型)通过考虑实体和关系的相似属性,综合了DistMult、HolE和Complex三个模型的优势。因此,Composition的建模基础从张量分解到向量内积,在提高模型表达力的同时,降低了时间和空间复杂度。2.NeuralNetwork模型从建模的角度来看,SE(StructuredEmbedding,结构化的嵌入式表示)更像是Translation模型的基础。但是如果从模型训练的角度来看,则可以将其划归为NeuralNetwork模型。它认为,对于给定的关系类型,可以通过计算相似性来捕获实体之间的关系。因此,该模型首先为每个关系构建两个矩阵Mh和Mt;然后,定义了相似性度量公式S(h,t)=||Mhh-Mtt||p,其中h和t分别是头尾实体的向量表示。相似性越低,则对应头尾实体和关系所构成三元组成立的概率就越高。但由于将关系建模为两个矩阵,SE对实体和关系之间相关性的描述能力十分有限。SME(SemanticMatchingEnergy,基于能量函数的语义映射模型)主要通过多矩阵相乘和Hadamard(哈达马)乘积实现了实体-关系的交互作用建模。具体而言,它将头尾实体和关系均建模为向量,相应交互作用则通过矩阵乘实现。具体的目标函数有两种定义,即:线性目标函数f(h,t)=(M1lh+M2lr+b1)T(M3lt+M4lr+b2)和双线性目标函数其中,表示Hadamard积。与SE相比,NeuralNetwork模型SLM(SingleLayerModel,单层神经网络模型)使用非线性计算对实体-关系之间的语义联系进行了建模。具体而言,其将头尾实体h和t作为神经网络隐藏层的输入,然后由输出层按照目标函数计算得分。基于SLM,NTN在神经网络的非线性计算中考虑了二阶相关性,从多个维度出发将相应头尾实体的向量联系本文档来自技高网...
【技术保护点】
1.一种基于三元交互的知识图谱表示学习方法,其特征在于包括以下步骤:/n1)在知识图谱中,以三元组为基本单位,对头实体、关系和尾实体三者本身及其之间的交互进行建模,得到InterTris模型;/n2)对构建的InterTris模型进行训练,得到训练好的InterTris模型;/n3)利用得到的InterTris模型,实现知识图谱的数值化表示。/n
【技术特征摘要】
1.一种基于三元交互的知识图谱表示学习方法,其特征在于包括以下步骤:
1)在知识图谱中,以三元组为基本单位,对头实体、关系和尾实体三者本身及其之间的交互进行建模,得到InterTris模型;
2)对构建的InterTris模型进行训练,得到训练好的InterTris模型;
3)利用得到的InterTris模型,实现知识图谱的数值化表示。
2.如权利要求1所述的一种基于三元交互的知识图谱表示学习方法,其特征在于:所述步骤1)中,在知识图谱中,以三元组为基本单位,对头实体、关系和尾实体三者本身及其之间的交互进行建模,得到InterTris模型的方法,包括以下步骤:
1.1)为三元组中头实体、关系和尾实体分别构建对应的语义向量h、r和t;
1.2)构建映射向量,使用映射向量hp、rp和tp分别表示头实体、关系和尾实体对另外两个元素的影响;
1.3)基于广义内积,对三元组进行交互过程建模,得到映射后的头实体h⊥、关系r⊥和尾实体t⊥;
1.4)基于转换思想,对映射后的头实体h⊥、关系r⊥和尾实体t⊥进行转换操作,得到InterTris模型。
3.如权利要求2所述的一种基于三元交互的知识图谱表示学习方法,其特征在于:所述步骤1.4)中,所述InterTris模型为:
f(h,,r,t)=h⊥+r⊥-t⊥,
式中,h⊥、r⊥和t⊥分别为映射后的头实体、关系和尾实体,其中,h⊥=<h,rp,tp>,<,,>表示广义向量内积,rp和tp分别表示关系和尾实体对头实体的影响;同理,映射后的关系为r⊥=<p,r,tp>和映射后的尾实体为t⊥=<hp,rp,t>。
4.如权利要求3所述的一种基于三元交互的知识图谱表示学习方法,其特征在于:所述步骤2)中,对构建的InterTris模型进行训练,得到训练好的InterTris模型的方法,包括以下步骤:
2.1)确定输入参数,包括训练数据集S;验证数据集V;头实体集合H;关系集合R;尾实体集合T;衰减参数offset;头实体、关系和尾实体的语义向量和映射向量,这里假设所...
【专利技术属性】
技术研发人员:孟小峰,张祎,
申请(专利权)人:中国人民大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。