一种基于关系自适应网络的小样本时态知识图谱补全方法技术

技术编号:37967905 阅读:11 留言:0更新日期:2023-06-30 09:43
本发明专利技术公开了一种基于关系自适应网络的小样本时态知识图谱补全方法,该方法具备知识图谱补全能力前,首先对时态知识图谱中局部和全局时间内的历史信息进行建模,然后针对不同的关系构建自适应的网络,由此训练得到具有补全时态知识图谱能力的模型。本发明专利技术的创新点在于针对时态知识图谱,在缓解关系的长尾和稀疏问题的同时提升了补全性能。本发明专利技术的时态知识图谱补全模型构建了融合局部和全局历史模式的时序演化编码器和关系自适应的解码器,在捕获时序特征的基础上进一步增强小样本关系的表示,最终提升小样本时态知识图谱补全效果。最终提升小样本时态知识图谱补全效果。最终提升小样本时态知识图谱补全效果。

【技术实现步骤摘要】
一种基于关系自适应网络的小样本时态知识图谱补全方法


[0001]本专利技术涉及计算机
,涉及知识图谱补全技术,特别涉及一种基于关系自适应网络的小样本时态知识图谱补全方法。

技术介绍

[0002]
技术介绍
涉及:静态知识图谱补全,时态知识图谱补全,图神经网络。
[0003]1)静态知识图谱补全
[0004]静态知识图谱补全是利用知识图谱中现有的事实来推断缺失事实的任务,即在现有的实体和关系构成图谱的基础上增添实体与实体间原先未标明但客观上真实存在的关系。对于每一个三元组知识图谱补全任务可以被形式化地表示为尾实体预测(s,r,p),头实体预测(p,r,o)以及关系预测(s,p,o)。例如,根据已有的两个事实:(A,父子,B)和(B,父子,C),(A,爷孙,C)这一事实是必然正确且容易推理的。因此,知识图谱补全任务的目标就在于推理出新的事实并使知识图谱更加完整。
[0005]一般来说,对于每一个要预测的三元组(s,r,o),基于表示学习的知识图谱补全方法都定义一个评分函数f(s,r,o)来评估其合理性。表示学习模型的目标在于:定义一个评分函数f使得合理的三元组的得分f(s,r,o)高于不合理的三元组的得分f(s,r,o)。在训练的过程中,三元组中实体和关系的嵌入通常都会被随机初始化,不同方法采用不同的评分函数计算每一个三元组的得分并且优化不同的损失函数以学习嵌入和模型的参数。基于表示学习的知识图谱补全模型的常用的损失函数包括基于边界的成对排序损失、softmax回归的负对数似然损失和逻辑回归的负对数似然损失等。基于边界的成对排序损失是一个在传统的知识图谱补全方法中使用较多的目标损失,而softmax回归的负对数似然和逻辑回归的负对数似然损失则在最近的知识图谱补全方法中更为常用,分别如式(10),(11),(12)所示:
[0006][0007]其中[x]+
=max(0,x),γ是边界超参数,和是已有的和不合理的三元组集合;
[0008][0009]其中,其中ε\{o}和ε\{s}指删去当前尾实体o或者当前头实体s的实体集合;
[0010][0011]其中I
(s,r,o)
是指示函数,如式(13)所示:
[0012][0013]对于基于表示学习的知识图谱补全方法,其优化过程旨在最大化正样本的合理性,并最小化负样本的合理性。在使用基于边界的成对排序损失和逻辑回归的负对数似然损失时,负样本通常利用不同的负采样方法得到。负采样方法的传统策略是随机选取正确的三元组并替换,以生成不合理的三元组。随着时间的推移,已经提出了更有效的方法来生成负样本,例如根据伯努利(Bernouilli)分布进行采样或是基于对抗学习的策略生成不正确的三元组。
[0014]在测试推理过程中,知识图谱补全任务的模型则对所有测试三元组执行头,尾实体预测或者关系预测。通过对每一个三元组,计算目标候选实体相对于所有其他候选实体的排名并以此进行评估。在理想情况下,目标实体应具有最高的三元组评分。
[0015]2)时态知识图谱补全
[0016]知识图谱的不完整限制了其在下游任务中应用的性能。与静态的知识图谱补全不同,时态知识图谱的补全需要对事实的时效性加以考虑。如(s,r,o,t1)和(s,r,o,t2)两个四元组,第一个四元组是一个虚假的事实,而第二个是真实的事实。如果不考虑时效性,两个四元组都退化为(s,r,o),则很难判断其真实性。因此,由于复杂的时间动态,时态知识图谱补全任务相较于静态知识图谱补全更具挑战。
[0017]时态知识图谱补全可以分为两种设置:插值(interpolation)和外推(extrapolation)。插值设置旨在预测历史中缺失的事实,即预测事实的时间t的范围为t0≤t≤t
T
。对于这种设置,基于静态知识图谱补全的研究,一些研究试图将时间信息纳入知识图谱推理。例如基于嵌入的方法将时间与事实相关联并将它们映射到低维空间,将关系和时间视为实体之间的转换或者通过学习不同时间戳的嵌入来表征时间信息。然而,在这一设置下模型无法预测未来的事实。
[0018]外推设置则旨在根据历史事实预测未来的新事实,即预测事实的时间t>t
T
。外推设置在时态知识图谱推理中特别重要,因为它有助于在未来时间戳上填充知识图谱并有助于预测新兴事件。在现实场景中,时态知识图谱的外推对事件过程归纳,社会关系预测,救灾和财务分析等都具有重要的意义。
[0019]3)图神经网络
[0020]在现实世界中,事物对象通常是根据他们与其他事物的联系来定义的。一组对象,以及他们之间的联系,自然而然地可以表示为图的形式。图数据随处可见,例如社交网络,知识图谱,生物网络,分子结构等等。先前传统的神经网络模型,主要用于处理高度结构化的数据,如文本和图像等。而非结构化的图数据,由于其本身复杂的拓扑结构、无序性、动态性,导致先前的神经网络模型很难作用于其之上。而近些年来,研究者针对图结构的数据设计了与先前不同的图神经网络(Graph Neural Network,GNN),并将其用于许多实际应用,包括物理模拟,假新闻检测,交通预测和推荐系统等等。而知识图谱作为典型的图结构数据,用GNN对其进行建模是直接且有效的。
[0021]图结构的数据通常包含两个要素:节点和边。其在不同的图数据中代表不同的含义,以知识图谱为例,图结构数据中的节点被描述为实体,而边则被描述为关系。此外,图结构中的数据中的边分为有向边和无向边,边的方向性同样用于刻画数据的专有图结构,而知识图谱中的边则通常被刻画为含有多种关系的有向边。
[0022]GNN是对图的所有属性(节点和边)的可优化转换,并且同时保留图的对称性,即置
换不变性。通常来说,现有的GNN都采用“图入图出”架构,这意味着GNN接受图作为输入,将信息加载到其节点、边中,并逐步转换这些图中属性的嵌入。在这一过程中,输入的连接性图结构是不变的,即节点和边的嵌入表示在经过一层GNN后仅改变其内部的表示,而不改变原始的图结构。
[0023]消息传递范式是当前GNN的通用框架,其主要思想在于利用相邻节点或边交换信息并影响彼此嵌入的更新。具体来说,图神经网络的消息传递可以分为消息函数、节点更新函数、读出函数三部分。
[0024]消息函数:收集所有相邻节点的嵌入(消息)并通过聚合函数聚合所有消息,如式(14)所示:
[0025][0026]其中为所有相邻节点的集合,AGGREGATE为聚合函数。
[0027]节点更新函数:所有汇集的消息都通过一个更新函数传递,通常是一个可学习的神经网络,如式(15)所示:
[0028][0029]读出函数:聚合所有节点更新后的表示以得到整张图的表示,如式(16)所示:
[0030][0031]消息传递机制中单一节点聚合和更新的过程,与卷积神经网络有着同样的思想,即聚合和处理元素邻居信息以更新元素值的操作。通过将消息传递G本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于关系自适应网络的小样本时态知识图谱补全方法,其特征在于,该方法包括如下步骤:步骤一:选择待补全的时态知识图谱,确定该时态知识图谱中的小样本关系,将其构建为数据集;步骤二:基于多种关系类型构建关系自适应的补全模型,所述补全模型将被用于时态知识图谱补全;步骤三:通过所述补全模型中融合局部和全局历史模式的时序演化编码器产生每个时间步的实体嵌入向量和关系嵌入向量;步骤四:利用所述的实体嵌入向量和关系嵌入向量,通过所述补全模型中关系自适应的解码器计算待补全的时态知识图谱中候选实体的得分;步骤五:基于实体预测和关系预测同时进行的多任务训练方式,利用数据集训练补全模型中的参数,得到训练后的补全模型;步骤六:基于所述训练后的补全模型,完成时态知识图谱的补全;其中:所述关系自适应的补全模型,具体为:模型整体基于编码器

解码器框架,由局部历史编码器和全局历史编码器组成融合局部和全局历史模式的时序演化编码器,解码器则利用关系自适应的解码器;其中,局部历史编码器对局部时刻内长度为1,2,

,m的历史子图进行演化并得到演化的实体和关系嵌入;全局历史编码器记录全局时间内的重复历史事实,其和局部历史编码器的输出一同被输入至关系自适应的解码器;关系自适应的解码器将不同时间长度的历史事实嵌入聚合并通过关系自适应的全连接神经网络进行在不同关系下重要性的选择;以此将得到的可变长度历史事实得分和关系自适应的路径匹配得分结合后获得最终的预测得分。2.如权利要求1所述的基于关系自适应网络的小样本时态知识图谱补全方法,其特征在于,所述融合局部和全局历史模式的时序演化编码器,符合下列式子:在于,所述融合局部和全局历史模式的时序演化编码器,符合下列式子:在于,所述融合局部和全局历史模式的时序演化编码器,符合下列式子:r
t
=GRU(r
t
‑1,r
t

),
ꢀꢀ
(4)其中,式(1)为图神经网络聚合器的形式化定义,是实体对s、o在时刻t

1的第l层输入的嵌入向量,r
t
‑1为时刻t

1输入的关系嵌入向量,为图神经网络可学习的权重参数,且是关系自适应的;RReLu为激活函数,ψ是一维卷积算子;当一个实体与子图中的其他实体没有任何关系时,仍然会有一条自循环边来将其进行自更新,以此得到最终图神经网络的l+1层输出式(2)为面向实体的GRU的形式化定义,其输入为前一个时刻t

1的实体嵌入向量h
t
‑1和经过式(1)表示的图神经网络聚合后的实体嵌入向量输出为当前时刻t的实体嵌入向量h
t<...

【专利技术属性】
技术研发人员:赵静孙仕亮李宇佳
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1