一种知识图谱实体对齐方法、系统、设备与存储介质技术方案

技术编号:33134300 阅读:73 留言:0更新日期:2022-04-17 00:56
本发明专利技术公开了一种知识图谱实体对齐方法、系统、设备与存储介质,对于不同的两个多模态知识图谱采用共享参数的多模态孪生网络结构实现实体的表征,通过挖掘跨模态的语义关联和多角度对比正负实体对的特征来利用和实体相关的多模态信息,能够有效提升多模态实体对齐任务的准确性。任务的准确性。任务的准确性。

【技术实现步骤摘要】
一种知识图谱实体对齐方法、系统、设备与存储介质


[0001]本专利技术涉及数据挖掘中的多模态知识图谱领域,尤其涉及一种知识图谱实体对齐方法、系统、设备与存储介质。

技术介绍

[0002]多模式知识图谱从视觉、关系和属性的角度组织真实世界的知识,在各种场景中引起了大量关注,并促进了众多下游应用的发展。一般来说,多模态知识图谱是由独立的多模态数据源和为了特定目的构建的。随着对冗余多模态知识整合的需求的激增,多模态实体对齐技术已成为该领域的新兴任务之一。
[0003]在文献中,已经有许多围绕实体对齐展开的研究。大多数方法都是针对传统的知识图谱,致力于探索关系或图结构上的相似性。但是这些方法可能无法适用于新兴的多模态知识图谱,这促使了研究人员开始针对多模态知识的利用去解决实体对齐问题。虽然这些多模态的方法达到了较好的效果,但它们仍然直接合并了单模态特征嵌入,使多模态知识中的深度语义在很大程度上没有得到探索。
[0004]事实上,多模态知识在理解现实世界的事实和生成更全面的实体表征方面有很大的潜力。然而,它也给实体对齐带来了巨大的挑战。首先,仅仅从基本图结构的角度来学习关系表征在多模态知识图谱中是不够的。通过纳入多模态语义来生成一个更充分的关系表示是非常必要且困难的。其次,多模态知识图谱中属性的稀疏性和异质性被加剧了。这使得挑选有益的属性以保证实体对齐的效果成为更大的挑战。最后,相对于传统的知识图谱,多模态的知识图谱存在着更严重的数据规模和昂贵标注问题。由于大规模的数据和标签的稀缺性,预对齐的种子严重不足并且难以获得,进一步加剧了实体对齐的严峻性。多模态知识图谱中的实体对齐任务是指在两个不同的多模态知识图谱中,匹配指代真实世界中相同概念的实体。随着多模态知识图谱数量的激增,促进了对多个多模态知识图谱中知识整合的需求,实体对齐则是其中一种极为有效的去除冗余且构建更加完备的多模态知识图谱的方法和手段。当实体对齐的准确率较低时,会错误地把具有歧义的知识合并,将此情况下获得的多模态知识图谱应用于搜索引擎、问答系统、推荐系统中,都会有较高的概率会获得错误的结果。以多模态知识图谱应用于搜索引擎的场景为例,当实体对齐效果不够好时,会导致信息检索不够准确,因此,有必要改进现有的实体对齐方案,保障多模态知识图谱的应用效果。

技术实现思路

[0005]本专利技术的目的是提供一种知识图谱实体对齐方法、系统、设备与存储介质,可以提升多模态实体对齐任务的准确性。能够在搜索引擎、问答系统、推荐系统中,得到更加有效且精确的结果。
[0006]本专利技术的目的是通过以下技术方案实现的:
[0007]一种知识图谱实体对齐方法,包括:
[0008]训练阶段,通过多模态知识嵌入网络提取实体特征,其中:对于每一实体,从对应图像中提取相应的视觉特征,并基于视觉特征对预训练的BERT模型提取的属性特征进行视觉自适应处理,获得最终的属性特征,以及采用针对关系的视觉增强机制对图谱嵌入模型提取的关系特征进行视觉增强处理,获得最终的关系特征,再将视觉特征、最终的关系特征与最终的属性特征整合为整体的实体表征;并且,利用来自不同知识图谱的两个实体的单模态特征和整体的实体表征进行相似度对比学习,所述单模态特征包括:视觉特征、最终的关系特征与最终的属性特征;利用视觉增强处理时的损失函数与对比学习的损失函数构建总损失函数进行训练,更新多模态知识嵌入网络的参数;训练完毕后,利用训练后的多模态知识嵌入网络获得更新后的实体的整体的实体表征;
[0009]对于两个不同知识图谱中的实体,通过更新后的整体的实体表征,两两进行相似度计算,选择相似度最高的两个实体作为对齐实体。
[0010]一种知识图谱实体对齐系统,用于实现前述的方法,该系统包括:多模态知识嵌入网络与实体对齐模块;
[0011]所述多模态知识嵌入网络,用于提取实体特征;训练阶段,通过多模态知识嵌入网络提取实体特征,其中:对于每一实体,从对应图像中提取相应的视觉特征,并基于视觉特征对预训练的BERT模型提取的属性特征进行视觉自适应处理,获得最终的属性特征,以及采用针对关系的视觉增强机制对图谱嵌入模型提取的关系特征进行视觉增强处理,获得最终的关系特征,再将视觉特征、最终的关系特征与最终的属性特征整合为整体的实体表征;并且,利用来自不同知识图谱的两个实体的单模态特征和整体的实体表征进行相似度对比学习,所述单模态特征包括:视觉特征、最终的关系特征与最终的属性特征;利用视觉增强处理时的损失函数与对比学习的损失函数构建总损失函数进行训练,更新多模态知识嵌入网络的参数;训练完毕后,利用训练后的多模态知识嵌入网络获得更新后的实体的整体的实体表征;
[0012]实体对齐模块,用于对于两个不同知识图谱中的实体,通过更新后的整体的实体表征,两两进行相似度计算,选择相似度最高的两个实体作为对齐实体。
[0013]一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
[0014]其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
[0015]一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
[0016]由上述本专利技术提供的技术方案可以看出,对于不同的两个多模态知识图谱采用共享参数的多模态孪生网络结构实现实体的表征,通过挖掘跨模态的语义关联和多角度对比正负实体对的特征来利用和实体相关的多模态信息,能够有效提升多模态实体对齐任务的准确性。
附图说明
[0017]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他
附图。
[0018]图1为本专利技术实施例提供的一种知识图谱实体对齐方法的模型示意图;
[0019]图2为本专利技术实施例提供的一种知识图谱实体对齐系统的示意图;
[0020]图3为本专利技术实施例提供的一种处理设备的示意图。
具体实施方式
[0021]下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。
[0022]首先对本文中可能使用的术语进行如下说明:
[0023]术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
[0024]下面对本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识图谱实体对齐方法,其特征在于,包括:训练阶段,通过多模态知识嵌入网络提取实体特征,其中:对于每一实体,从对应图像中提取相应的视觉特征,并基于视觉特征对预训练的BERT模型提取的属性特征进行视觉自适应处理,获得最终的属性特征,以及采用针对关系的视觉增强机制对图谱嵌入模型提取的关系特征进行视觉增强处理,获得最终的关系特征,再将视觉特征、最终的关系特征与最终的属性特征整合为整体的实体表征;并且,利用来自不同知识图谱的两个实体的单模态特征和整体的实体表征进行相似度对比学习,所述单模态特征包括:视觉特征、最终的关系特征与最终的属性特征;利用视觉增强处理时的损失函数与对比学习的损失函数构建总损失函数进行训练,更新多模态知识嵌入网络的参数;训练完毕后,利用训练后的多模态知识嵌入网络获得更新后的实体的整体的实体表征;对于两个不同知识图谱中的实体,通过更新后的整体的实体表征,两两进行相似度计算,选择相似度最高的两个实体作为对齐实体。2.根据权利要求1所述的一种知识图谱实体对齐方法,其特征在于,所述对于每一实体,从对应图像中提取相应的视觉特征包括:对于实体e,利用残差网络模型从对应图像i中提取特征,并通过线性变换获得投影到对应空间,获得相应的视觉特征,表示为:i
e
=ResNet(i)e
I
=W1·
i
e
+b1其中,ResNet表示残差网络模型,i
e
表示残差网络模型从图像i中提取的特征,e
I
表示相应的视觉特征,W1与b1表示线性变换的权重与偏置参数。3.根据权利要求1所述的一种知识图谱实体对齐方法,其特征在于,采用针对关系的视觉增强机制对图谱嵌入模型提取的关系特征进行视觉增强处理,获得最终的关系特征包括:训练阶段,利用正负样本,结合图谱嵌入模型的损失函数以及视觉增强的损失函数优化图谱嵌入模型;其中,正样本是指三元关系组的关系正确,即头尾实体满足相应的关系r,负样本是指三元关系组关系不正确,即头尾实体不满足相应的关系r;正样本表示为(h,r,t),h与t分别为头实体与尾实体;负样本表示为(h

,r,t

),h

与t

分别为头实体与尾实体;通过图谱嵌入模型提取正负样本中头实体与尾实体的实体嵌入向量,以及关系的嵌入向量,并带入图谱嵌入模型的损失函数进行计算;计算视觉增强的损失函数时,先通过残差网络与线性变换获得正负样本对应图像的视觉特征,再结合图谱嵌入模型提取的关系嵌入向量带入视觉增强的损失函数进行计算;训练完毕后,通过图谱嵌入模型提取实体嵌入向量作为相应实体最终的关系特征。4.根据权利要求3所述的一种知识图谱实体对齐方法,其特征在于,图谱嵌入模型的损失函数数表示为:图谱嵌入模型的损失函数数表示为:图谱嵌入模型的损失函数数表示为:
其中,T
R
表示正样本集合,T

R
表示负样本集合;(h,r,t)=τ,(h

,r,t

)=τ

,h
R
、h

R
各自表示头实体h、头实体h

的实体嵌入向量,t
R
、t

R
各自表示尾实体t、尾实体t

的实体嵌入向量,h
r
表示关系r的嵌入向量,实体嵌入向量与关系r的嵌入向量均为图谱嵌入模型的输出;Υ
r
表示得分间隔,f
r
(.)表示得分函数。5.根据权利要求3或4所述的一种知识图谱实体对齐方法,其特征在于,视觉增强的损失函数表示为:为:为:其中,f
i
(.)表示得分函数,Υ
i
表示得分间隔,分别表示头实体h与尾实体t对应图像的视觉特征,分别表示头实体h

与尾实体t

对应图像的视觉特征;其中,头实体h与尾实体t对应图像的视觉特征提取过程表示为:提取过程表示为:其中,ResNet表示残差网络模型,分别表示头实体h、尾实体t对应的图像,i
h
、i
t
分别表示残差网络模型从图像中提取的特征,W2与b2表示线性变换的权重与偏置参数;视觉特征以及实体嵌入向量t
R
,满足:t
R
≈h
R
+h
r
6.根据权利要求1所述的一种知识图谱实体对齐方法,其特征在于,所述基于视觉特征对通过预训练的BERT模型提取的属性特征进行视觉自适应处理包括:通过预训练的B...

【专利技术属性】
技术研发人员:徐童陈恩红陈力以李徵武晗
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1