当前位置: 首页 > 专利查询>东南大学专利>正文

一种动态环境下的知识图谱表示学习方法技术

技术编号:26845663 阅读:17 留言:0更新日期:2020-12-25 13:07
本发明专利技术公开了一种动态环境下的知识图谱表示学习方法,对于知识图谱的表示学习任务,本发明专利技术设计了一个全新的知识图谱表示学习模型;该模型首先通过设计的一个基于注意力机制的图卷积神经网络将知识图谱中的实体和关系的上下文信息编码为向量表示,接着通过一个门策略将实体(或关系)的向量表示与其上下文向量结合,得到联合向量表示,最后基于联合向量表示进行训练,得到图谱中实体和关系的高质量向量表示。对于图谱更新后的增量式表示学习任务,基于上述模型设计了一个增量式表示学习算法,将每次图谱更新带来的影响限制在实体(或关系)各自的上下文范围内,而非整个图谱,以此方式避免重新训练所有数据,达到增量式表示学习的目标。

【技术实现步骤摘要】
一种动态环境下的知识图谱表示学习方法
本专利技术属于知识图谱表示学习领域,涉及一种动态环境下的知识图谱表示学习方法。
技术介绍
近年来,许多知识图谱被构建出来,如DBpedia,YAGO,Freebase等。这些知识图谱可以服务于众多领域的智能应用,如推荐系统、语义搜索和问答等。每个图谱都是一个多元关系图,它以三元组的形式去描述实体以及实体之间的关系。一个三元组通常被表示为<头实体,关系,尾实体>的形式,以此来表征两个实体由特定关系连接,如<美国,总统,特朗普>。随着知识图谱的兴起,知识图谱表示学习[4]也受到了极大的关注。知识图谱表示学习可以训练得到实体和关系在低维、连续向量空间的向量表示,这些向量表示可以作为特征来支撑链接预测、实体分类、问答以及众多其他的智能应用。在现实应用中,知识图谱总是随时间动态变化的。例如,DBpedia每天都会从维基百科抽取更新流来保证图谱中的数据是最新的;由于每天都有大量的新商品产生,亚马逊的商品知识图谱需要被频繁地更新。大多数现有知识图谱表示学习模型都注重于对静态不变的图谱进行学习,却忽略了知识图谱本身的动态性。为了应对知识图谱发生的更新,这些模型需要花费很高的时间代价来对整个图谱进行重新训练。当图谱的更新频率很高时(如每天更新一次),这样的训练时间消耗是不可接受的。因此如何以增量式的方式对动态更新的知识图谱进行表示学习是一个亟待解决的问题。增量式表示学习是指在知识图谱发生更新时,基于知识图谱原有的向量表示,只重新训练知识图谱的部分数据,而不是所有数据,便可得到知识图谱中实体和关系的新的向量表示。大多数现有知识图谱表示学习模型无法进行增量式学习的主要原因是:当知识图谱发生更新时(删除或新增三元组),如果修改了与此次更新相关的实体和关系的向量表示,这样的修改可能会循着实体以及实体之间的关系扩散到整个图谱,即整个图谱的向量表示都要被修改。本文设计了一个动态环境下的知识图谱表示学习方法,该方法不仅可以处理知识图谱的表示学习任务,还支持在知识图谱更新后进行增量式的表示学习。增量式表示学习功能避免了知识图谱更新后需要重新训练所有数据的缺陷,极大地减少了向量表示更新的时间和计算资源消耗。
技术实现思路
本专利技术提供了一种动态环境下的知识图谱表示学习方法,主要用于处理知识图谱的表示学习任务,以及图谱更新后的增量式表示学习问题。其中增量式表示学习主要解决知识图谱更新后相关向量表示的增量式更新问题,即:如何避免重新训练知识图谱中的所有数据,通过只训练少部分数据的方式去更新知识图谱的向量表示。本专利技术的动态环境下的知识图谱表示学习方法,首先在初始时刻τ对知识图谱Gτ使用本文设计的一个基于上下文信息的表示学习模型进行知识图谱的表示学习训练,得到知识图谱中所有实体和关系的向量表示;接着在τ+1时刻,知识图谱发生更新变为Gτ+1,此时基于τ时刻的知识图谱Gτ中实体和关系的向量表示,利用本文设计的增量式表示学习算法,训练得到知识图谱Gτ+1中实体和关系的新的向量表示;随后对于后续τ+2,τ+3…等时刻,均基于上一个时刻的知识图谱中实体和关系的向量表示,利用本文设计的增量式表示学习算法,训练得到此时刻知识图谱中实体和关系的新的向量表示。一种动态环境下的知识图谱表示学习方法,所述方法包括如下步骤:步骤1)在初始时刻τ,对于知识图谱Gτ使用本专利技术设计的一个基于上下文信息的表示学习模型进行知识图谱的表示学习训练,得到知识图谱中所有实体和关系的向量表示;步骤2)在τ+1时刻,知识图谱发生更新变为Gτ+1。此时基于τ时刻的知识图谱Gτ中实体和关系的向量表示,利用本专利技术设计的增量式表示学习算法,训练得到知识图谱Gτ+1中实体和关系的新的向量表示;步骤3)对于后续τ+2,τ+3…等时刻,均基于上一个时刻的知识图谱中实体和关系的向量表示,利用本专利技术设计的增量式表示学习算法,训练得到此时刻知识图谱中实体和关系的新的向量表示。本专利技术的优选方案中,所述步骤1)中的基于上下文信息的表示学习模型的前向传播公式为如下5个公式:其中,A是知识图谱中给定实体(或关系)的邻居实体(或关系)构成的子图对应的邻接矩阵,I是单位矩阵,是的对角度矩阵。H(0)是随机初始化的节点(实体或关系)特征矩阵,H(0)中的每一行记为vi,是节点(实体或关系)随机初始化的一个向量表示,后续统一称之为实体或关系的上下文角色向量。H(l)和H(l-1)分别是第l层和第l-1层的节点特征矩阵,H(l)基于公式(1)由H(l-1)计算得到。W(l)是第l层的权重参数矩阵。ReLU(·)=max(0,·)是激活函数。score(vi,ok)=uTReLU(vi⊙ok)#(2)其中vi是公式(1)的输出H(l)中的一行,ok是给定节点o(实体或关系)的向量表示。u是注意力层的参数向量,⊙代表逐元素乘,是激活函数,score(vi,ok)刻画了vi和ok之间的相关性。αi(o)代表每个节点vi相对于给定对象o的权重。其中sg(o)是给定对象o(实体或关系)的上下文子图向量,通过公式(4)将o的上下文子图中所有节点的向量加权求和得到。其中o是一个实体或关系,ok是它的向量表示,sg(o)是它的上下文子图向量,⊙代表逐元素乘,将门向量g中的每个元素的取值范围限制在[0,1],其中是随机初始化的一个参数向量。所有实体共用一个参数g,记为ge,所有关系共用另一个参数g,记为gr。o*代表给定对象o的联合向量表示。本专利技术的优选方案中,所述步骤2)中的增量式表示学习算法包含如下步骤:步骤2-1)移除所有被删除的对象(实体或关系)的向量表示;步骤2-2)为所有新增对象(实体或关系)添加随机初始化的向量表示;步骤2-3)收集知识图谱中所有包含新增对象(实体或关系)以及上下文发生改变的对象(实体或关系)的三元组;步骤2-4)使用随机梯度下降法来训练上述步骤2-3)中收集得到的三元组。训练过程中更新的参数只包括:新增对象(实体或关系)的向量、新增对象(实体或关系)的上下文角色向量以及上下文发生改变的原有对象(实体或关系)的向量,其余参数保持不变。本专利技术与现有技术相比,具有以下优点:1)根据知识图谱表示学习场景的不同,知识图谱表示学习可分为静态环境下的知识图谱表示学习场景和动态环境下的知识图谱表示学习场景。大多数现有知识图谱表示学习模型都是面向静态环境下的知识图谱表示学习场景。该场景下的模型都是通过定义一个得分函数来衡量知识图谱中每个三元组的合理性,并通过最大化这个得分函数的取值得到知识图谱中所有实体和关系的向量表示。根据得分函数的类型,该类模型大致可分为三类:翻译系列模型(如TransE模型、TransH模型和TransR模型等)、语义匹配模型(如RESCAL模型、DisMult模型和HolE模型等)和神经网络模型(如ConvE模型、RGCN模型和GAKE模型等)。上述静态环境下的知识图谱表示学习模型都只注本文档来自技高网
...

【技术保护点】
1.一种动态环境下的知识图谱表示学习方法,其特征在于,该方法包括如下步骤:/n步骤1)在初始时刻τ,对于知识图谱G

【技术特征摘要】
1.一种动态环境下的知识图谱表示学习方法,其特征在于,该方法包括如下步骤:
步骤1)在初始时刻τ,对于知识图谱Gτ使用一个基于上下文信息的表示学习模型进行知识图谱的表示学习训练,得到知识图谱中所有实体和关系的向量表示;
步骤2)在τ+1时刻,知识图谱发生更新变为Gτ+1,此时基于τ时刻的知识图谱Gτ中实体和关系的向量表示,利用增量式表示学习算法,训练得到知识图谱Gτ+1中实体和关系的新的向量表示;
步骤3)对于后续τ+2,τ+3…等时刻,均基于上一个时刻的知识图谱中实体和关系的向量表示,利用增量式表示学习算法,训练得到此时刻知识图谱中实体和关系的新的向量表示。


2.根据权利要求书1所述的动态环境下的知识图谱表示学习方法,其特征在于,所述步骤1)中的基于上下文信息的表示学习模型的前向传播公式为如下5个公式:



其中,A是知识图谱中给定实体(或关系)的邻居实体(或关系)构成的子图对应的邻接矩阵,I是单位矩阵,是的对角度矩阵;H(0)是随机初始化的节点(实体或关系)特征矩阵,H(0)中的每一行记为vi,是节点(实体或关系)随机初始化的一个向量表示,后续统一称之为实体或关系的上下文角色向量;H(l)和H(l-1)分别是第l层和第l-1层的节点特征矩阵,H(l)基于公式(1)由H(l-1)计算得到;W(l)是第l层的权重参数矩阵。ReLU(·)=max(0,·)是激活函数;
score(vi,ok)=uTReLU(vi⊙ok)#(2)



其中vi是公式(1)的输出H(l)中的一行,ok是给定节点o(实体或关系)的向量表示。u是注意力层的参数向量,⊙代表逐元素乘,是激活函数,score(vi,ok)刻画了vi和ok之间的相关性;αi(o)代表每个节点vi相对于给定对象o的权重;



其中sg(o)是给定对象o(实体或关系)的上下文子图向量,通过公式(4)将o的上下文子图中所有节点的向量加权求和得到;
o*=g⊙ok+(1-g)⊙sg...

【专利技术属性】
技术研发人员:李丞吴天星漆桂林
申请(专利权)人:东南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1