当前位置: 首页 > 专利查询>罗伯特专利>正文

用于训练知识图嵌入模型的设备、程序和计算机实现方法技术

技术编号:36331028 阅读:57 留言:0更新日期:2023-01-14 17:40
提供了用于训练知识图嵌入模型的设备、程序和计算机实现方法。用于训练由本体(202)增强的知识图(200)的知识图嵌入模型(208)的设备、计算机程序、计算机实现方法,其中该方法包括用第一训练查询及其预定回答训练(2)知识图嵌入模型(208),以减小、特别是最小化回答在知识图嵌入模型(208)中的嵌入和第一训练查询在知识图嵌入模型(208)中的嵌入之间的距离,并且减小、特别是最小化在知识图嵌入模型(208)中回答的嵌入和第二训练查询的嵌入之间的距离,其中取决于本体(202)从第一训练查询确定(1)第二训练查询。(1)第二训练查询。(1)第二训练查询。

【技术实现步骤摘要】
用于训练知识图嵌入模型的设备、程序和计算机实现方法


[0001]本专利技术涉及用于训练知识图嵌入模型的设备、计算机程序和计算机实现方法。

技术介绍

[0002]知识图嵌入模型可以被训练来提供对查询的回答。合期望的是提供一种方法,其具有回答不完整知识图上的查询的系统方式。

技术实现思路

[0003]一种用于训练由本体增强的知识图的知识图嵌入模型的计算机实现方法包括:用第一训练查询及其预定回答训练知识图嵌入模型,以减小、特别是最小化回答在知识图嵌入模型中的嵌入和第一训练查询在知识图嵌入模型中的嵌入之间的距离,并且减小、特别是最小化在知识图嵌入模型中回答的嵌入和第二训练查询的嵌入之间的距离,其中第二训练查询是取决于本体从第一训练查询确定的。第二训练查询是在知识图中具有回答的预定查询的专门化。这允许训练知识图嵌入模型以用于回答不完整知识图上的合取(conjunctive)查询。训练不仅依赖于原始知识图,而且还依赖于伴随知识图的本体。第二训练查询的嵌入计及用于确定第二训练查询的本体公理(ontological axiom)。
[0004]为了对第一训练查询进行采样,该方法可以包括根据本体以及知识图的实体集和关系集来确定一致的可能一元连续查询集,并且从一元连续查询集中选择第一训练查询。提供了一种用于依赖于本体对查询进行策略采样的方法,而不是对用于训练的查询进行随机采样。
[0005]该方法可以包括根据预定的查询形状确定第一训练查询。考虑根据预定查询形状的查询,而不是对查询进行随机采样。随机选择的示例可能不包括基于本体彼此相关的任何查询。这利用基于本体的采样来避免。
[0006]该方法可以包括对查询进行采样、特别是随机采样,利用本体确定查询的泛化,以及根据泛化、特别是泛化的专门化,确定第二训练查询。泛化描述了多个专门化,并允许根据本体确定与第一训练查询相似的许多不同的训练查询。
[0007]该方法可以包括提供泛化深度并确定查询的泛化直到泛化深度,和/或提供专门化深度并确定查询的专门化直到专门化深度。这实际上是为了限制计算努力。
[0008]该方法可以包括通过用知识图嵌入模型提供对合取查询的回答。
[0009]该方法可以包括训练知识图嵌入以增加、特别是最大化第一训练查询的嵌入和不是第一训练查询的回答的预定实体的至少一个嵌入之间的距离,和/或增加、特别是最大化第二训练查询的嵌入和不是第二训练查询的回答的预定实体的至少一个嵌入之间的距离。这样,训练导致第一训练查询的嵌入相比于到其非回答的嵌入更接近于其回答的嵌入。
[0010]用于训练由本体增强的知识图的知识图嵌入模型的设备被配置为执行方法中的步骤。
[0011]一种计算机程序包括计算机可读指令,该计算机可读指令当由计算机执行时,使
得计算机执行该方法。
附图说明
[0012]从下面的描述和附图中可得出另外的有利实施例。在附图中图1描绘了知识图模式,图2描绘了用于训练知识图的知识图嵌入的方法,图3描绘了用于训练知识图的知识图嵌入的设备。
具体实施方式
[0013]知识图KG包括实体集和关系集。KG描述关于感兴趣的特定域的事实,其通过用实体集中的至少一个实体来表示该事实,该至少一个实体经由关系集中的至少一个关系与实体集中的至少一个其他实体互连。
[0014]在KG表示中,实体由KG的节点表示,并且两个实体之间的关系由这些节点之间的KG的边表示。
[0015]事实是主语、谓语和宾语的三元组。在KG中,主语是实体,宾语是实体,并且谓语是关系。
[0016]在KG的知识图嵌入KGE中,实体由嵌入来表示。在KGE中,关系由嵌入来表示。事实的主语嵌入、谓语嵌入和宾语嵌入的三元组在KGE中表示该事实。
[0017]KG可以用于预测第一给定实体和第二给定实体之间的关系。可以取决于得分从关系集中选择该关系。得分可以用得分函数来确定,该得分函数将第一实体在KGE中的嵌入、第二实体在KGE中的嵌入以及关系在KGE中的嵌入映射到得分。
[0018]嵌入可以是向量空间中的向量。用得分函数确定得分可以包括确定向量和。确定向量和可以包括将表示关系的向量添加到表示第一实体的向量。确定得分可以包括确定向量和到表示第二实体的向量的距离。
[0019]实体的嵌入可以是第一向量空间中的向量。关系的嵌入可以是第二向量空间中的向量。确定得分可以包括确定表示第一向量空间中的第一实体的第一向量到第二向量空间中的第一向量的映射。确定得分可以包括确定表示第一向量空间中的第二实体的第二向量到第二向量空间中的第二向量的映射。用得分函数确定得分可以包括确定向量和。确定向量和可以包括将表示第二向量空间中的关系的向量添加到第一向量。确定得分可以包括确定向量和到第二向量的距离。
[0020]在示例中,该距离是欧几里德距离。
[0021]为了用KG预测该关系,包括两个给定实体的输入可以被映射到包括该关系的输出。该关系可以从关系集中选择。在示例中,所选择的关系导致比关系集中的至少另一个关系更高的得分。优选地,选择导致关系集中关系最高得分的关系。
[0022]可以训练神经网络来表示KGE。可以用包括嵌入三元组的训练数据来训练神经网络。训练数据可以包括表示KG真实事实的三元组。训练数据可以包括表示不是KG真实事实的三元组的三元组。
[0023]神经网络可以被训练来将实体集中给定第一实体的第一嵌入和给定第二实体的第二嵌入映射到关系集中每个关系的得分。关系的得分表示对于关系而言该关系是给定第
一实体和给定第二实体之间的关系的概率。
[0024]神经网络可以被训练来将给定实体的嵌入和关系集中给定关系的嵌入映射到实体集中每个实体的得分。实体的得分表示对于实体而言该实体是与给定实体具有给定关系的实体的概率。
[0025]KG被广泛用于自然问答、web搜索和数据分析。KG存储大约数百万个事实的信息。
[0026]KG可以自动、半自动或至少部分手动地构造,例如通过使用众包方法。
[0027]在训练中,可以用训练数据来训练KG或KGE、特别是神经网络,以表示可用的知识。训练数据可以包括表示真实事实的肯定三元组和表示不正确事实的否定三元组。
[0028]KG或KGE、特别是神经网络可以用肯定三元组和否定三元组来训练。
[0029]该方法在正确的(即肯定的)和不正确的(即否定的)三元组之间进行区分。
[0030]KG表示相互关联的事实信息集合。KG可以被编码为(主语;谓语;宾语)三元组集,例如(john;worksAt;bosch)。这样的三元组的主语或宾语称为实体,并且谓语称为关系。KG的三元组集可以表示为有向图,其顶点和边被标记。KG三元组被称为事实。KG事实可以如下表示为一元或二元基准谓语:man(john),worksAt(john;bosch)。
[0031]在示例中,KG G的签名定义实体集和出现在G中的关系R集。签名中的关系R表示谓本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于训练由本体(202)增强的知识图(200)的知识图嵌入模型(208)的计算机实现方法,其特征在于,所述方法包括用第一训练查询及其预定回答训练(2)知识图嵌入模型(208),以减小、特别是最小化回答在知识图嵌入模型(208)中的嵌入和第一训练查询在知识图嵌入模型(208)中的嵌入之间的距离,并且减小、特别是最小化在知识图嵌入模型(208)中回答的嵌入和第二训练查询的嵌入之间的距离,其中取决于本体(202)从第一训练查询确定(1)第二训练查询。2.根据权利要求1所述的方法,其特征在于,根据本体以及知识图(200)的实体集和关系集来确定(1)一致的可能一元连续查询集,并且从一元连续查询集中选择第一训练查询。3.根据权利要求2所述的方法,其特征在于,所述方法包括根据预定的查询形状确定第一训练查询。4.根据前述权利要求中的一项所述的方法,其特征在于,所述方法包括对查询进行采样、特别是随机采样,利用本体(202)确定所述查询的泛化,以及根据所述泛化、特别是所述泛化的专门...

【专利技术属性】
技术研发人员:C
申请(专利权)人:罗伯特
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1