本发明专利技术公开了一种基于混合翻译模型的带时间知识图谱嵌入方法,包括以下步骤:1)输入知识图谱相关的数据集,根据数据集情况进行初始化设置;2)使用混合翻译模型对知识图谱的嵌入表示进行更新,得到嵌入表示结果;3)根据嵌入表示结果对相关知识图谱数据集进行补全操作。利用本发明专利技术能更好的解决之前算法不能同时处理时间与多元关系的问题,并且能够提高判断的准确性。
An embedding method of knowledge map with time based on hybrid translation model
【技术实现步骤摘要】
一种基于混合翻译模型的带时间知识图谱嵌入方法
本专利技术涉及知识图谱嵌入领域,具体涉及一种基于混合翻译模型的带时间知识图谱嵌入方法。
技术介绍
知识图谱是一种有向图,以现实世界中的不同实体作为节点,不同的关系作为有向图上的边。一组现实世界中存在的事实通常以三元组(h,r,t)的形式表示,其中h表示头部实体,t表示尾部实体,r表示两个实体之间的关系。虽然构建的知识图谱包含大量的事实,但是经常出现知识图谱需要补全的情况。知识图谱补全的任务即预测最有可能缺失的实体和关系,头部实体的预测即预测该情况(?,r,t)下最有可能的头部实体,对于尾部实体的预测即预测该情况(h,r,?),对于关系的预测即预测该种情况(h,?,t)。由于从真实世界所构建的知识图谱是巨大且结构复杂的,基于符号化的方法和传统逻辑的方法既不是可扩展的,也不适合于当前知识图谱补全的任务。知识图谱嵌入已经成为知识图谱补全的一种重要方法之一。在知识图谱表示学习中,基于翻译模型的知识图谱嵌入方法简单有效,并且在相关的预测任务上有良好的表现。它试图在连续向量空间中学习每个实体的低维嵌入和知识图谱中的关系,并且使用定义在实体和关系嵌入上的评分函数来评测三元组的真实性。在表示学习方法中,基于翻译的嵌入兼顾了模型的简易性与预测的准确性。基于翻译的模型起源于TransE,当(h,r,t)是有效的三元组时,期望h+r≈t在嵌入空间中保持不变。TransE适用于1-1关系的建模,但在处理自反类型与多元关系时存在一些缺陷。为了解决这个问题,相关研究人员提出了更多基于翻译的模型,包括TransH、TransR/CTransR、TransD等,以进一步解决TransE面临的问题,以便于有效地建模各种类型的多元关系型知识图谱。之前的基于翻译的知识图谱嵌入模型(包括TransH,TransR/CTransR和TransD)专注于对静态知识图谱进行建模。静态知识图谱中的三元组应该是普遍正确的。事实上,KGS中有很多与时间相关的事实,例如,三元组(Einstein,diedIn,Princeton)网络的方法,它将时间关系建模为随时间变化的事件。它使用RNN作为事件编码器来建模实体间的时态和多元关系交互的情况,并使用所谓的邻域聚合器在同一时间内对并发交互进行建模。
技术实现思路
本专利技术的目的是提供一种基于混合翻译模型的带时间知识图谱嵌入方法,通过使用TransD与TransH两种模型混合,达到同时处理时序知识图谱中的时间与多元关系的目的,提高知识图谱补全的准确度,学到更好的知识图谱嵌入表示。实现本专利技术目的的具体技术方案是:一种基于混合翻译模型的带时间知识图谱嵌入方法,该方法包括以下步骤:步骤1:输入需要补全的时序知识图谱数据集,根据数据集大小进行初始化设置;其中,所述初始化设置具体为:步骤A1:随机初始化数据集中实体与关系,以向量的形式进行展现,得到初始的关系向量与实体向量;步骤A2:对于每个关系向量,加入到关系集合R当中,对于每个实体向量,加入到实体集合E当中;步骤2:使用混合翻译模型对知识图谱的嵌入表示进行更新,得到嵌入表示结果;其中,所述使用混合翻译模型对知识图谱的嵌入表示进行更新,具体为:步骤B1:从数据集的训练集中采样固定大小为batch的一批数据;步骤B2:构建负样本数据集,对batch中的三元组,随机替换h、r或t生成一个错误的三元组加入到这一批数据当中,构成当前批次所用的训练数据;步骤B3:将正确三元组(h,r,t)与错误三元组[(h,r`,t)、(h`,r,t)或(h,r,t`)]从实体空间映射到关系空间,得到关系空间中的正确三元组(h⊥,r,t⊥)与错误三元组[(h⊥,r`,t⊥)、(h⊥`,r,t⊥)或(h⊥,r,t⊥`)];步骤B4:将关系空间中的所有三元组投影到相应时间τ所构建的超平面上;步骤B5:计算损失函数,采用梯度下降的算法更新实体与关系的嵌入表示;步骤B6:重复步骤B1-B5,直至得到的结果稳定;其中,步骤B2中,所述构建负样本数据集的方式为:h、r、t、h`、r`、t`表示实体和关系的嵌入表示,其中h`表示随机替换的头部实体,r`表示随机替换的关系,t`表示随机替换的尾部实体,D+表示正样本集合,Dx,τ-表示负样本数据集;步骤B3中,所述从实体空间映射到关系空间的方式为:其中Mrh、Mrt为映射矩阵,rp表示关系的投影向量,表示m×n大小的单位矩阵,hpT表示头部实体的投影转置向量,h⊥表示映射后处于关系空间中的头部实体的嵌入表示,tpT表示尾部实体的投影转置向量,t⊥表示映射后处于关系空间中的尾部实体的嵌入表示;步骤B4中,将关系空间中的所有三元组投影到相应时间τ所构建的超平面上的方式为:其中,ωτ表示所构建的对应时间τ的超平面;步骤B5中,所述的损失函数为:其中,fτ(x)、fτ(y)评分函数,x、y表示正样本与负样本,f=||hτ+rτ-tτ||L1/L2,L1、L2为正则化项,γ为正负样本之间的最小间隔,T表示所有时间的集合;步骤3:根据嵌入表示结果对使用的知识图谱数据集进行补全操作;具体为:步骤C1:对于一个三元组(h,r,t),首先检查h、t是否属于E,r是否属于R,不属于的话,那么h、t或r就不作为头尾实体或关系,这个三元组不成立,如果属于的话,则执行下一步;步骤C2:根据成立的三元组,计算其评分函数f=||hτ+rτ-tτ||L1/L2,对所有成立的三元组进行排序,排序靠前的结果即为最优结果,用于补全。本专利技术具有以下优点:1)本专利技术能使用该领域内传统的翻译算法同时处理知识图谱内的时间与多元关系。2)本专利技术提出了新的负样本构建方法。3)本专利技术在链接预测以及关系预测等任务上有更好的表现。附图说明图1为本专利技术流程图。具体实施方式下面结合附图对本专利技术的具体实施方式进行描述,以便本领域的技术人员更好的理解本专利技术。本专利技术所述方法的有效性,在YAGO11K以及Wikidata12K上通过对比实验验证。所有这些数据集由训练集、验证集和测试级组成。表1列出了数据集的数据统计情况。每一个训练条目都是一个三元组(h,r,t),表示h和t具有关系r。表1.Wikidata12K以及YAGO11K的数据集划分情况(k表示1000)下面以YAGO11K为例介绍本专利技术学习知识图谱嵌入表示并利用得到的实体向量以及关系向量做链接预测以及关系预测。如图1所示,一种基于混合翻译模型的知识图谱嵌入方法,具体步骤如下:S1-1随机初始化数据集中实体与关系,以向量的形式进行展现,得到初始的关系向量与实体向量,即给数据集中的10个关系和10623个实体先随机生成一个表示向量;S本文档来自技高网...
【技术保护点】
1.一种基于混合翻译模型的带时间知识图谱嵌入方法,其特征在于,包括以下步骤:/n步骤1:输入需要补全的时序知识图谱数据集,根据数据集大小进行初始化设置;/n步骤2:使用混合翻译模型对知识图谱的嵌入表示进行更新,得到嵌入表示结果;/n步骤3:根据嵌入表示结果对使用的知识图谱数据集进行补全操作。/n
【技术特征摘要】
1.一种基于混合翻译模型的带时间知识图谱嵌入方法,其特征在于,包括以下步骤:
步骤1:输入需要补全的时序知识图谱数据集,根据数据集大小进行初始化设置;
步骤2:使用混合翻译模型对知识图谱的嵌入表示进行更新,得到嵌入表示结果;
步骤3:根据嵌入表示结果对使用的知识图谱数据集进行补全操作。
2.根据权利要求1所述的基于混合翻译模型的带时间知识图谱嵌入方法,其特征在于,步骤1中,所述初始化设置具体步骤为:
步骤A1:随机初始化数据集中实体与关系,以向量的形式进行展现,得到初始的关系向量与实体向量;
步骤A2:对于每个关系向量,加入到关系集合R当中,对于每个实体向量,加入到实体集合E当中。
3.根据权利要求1所述的基于混合翻译模型的带时间知识图谱潜入方法,其特征在于,步骤2中,所述使用混合翻译模型对知识图谱的嵌入表示进行更新,具体步骤为:
步骤B1:从数据集的训练集中采样固定大小为batch的一批数据;
步骤B2:构建负样本数据集,对batch中的三元组,随机替换h、r或t生成一个错误的三元组加入到这一批数据当中,构成当前批次所用的训练数据;
步骤B3:将正确三元组(h,r,t)与错误三元组[(h,r`,t)、(h`,r,t)或(h,r,t`)]从实体空间映射到关系空间,得到关系空间中的正确三元组(h⊥,r,t⊥)与错误三元组[(h⊥,r`,t⊥)、(h⊥`,r,t⊥)或(h⊥,r,t⊥`)];
步骤B4:将关系空间中的所有三元组投影到相应时间τ所构建的超平面上;
步骤B5:计算损失函数,采用梯度下降的算法更新实体与关系的嵌入表示;
步骤B6:重复步骤B1-B5,直至得到的结果稳定。
4.根据权利要求3所述的基于混合翻译模型的带时间知识图谱嵌入方法,其特征在于,步骤B2中,所述构建负样本数据集的方式为:
h、r、t、h`、r`、t`表示实...
【专利技术属性】
技术研发人员:王治豪,李鑫,
申请(专利权)人:华东师范大学,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。