实体对齐方法及相关装置、电子设备、存储介质制造方法及图纸

技术编号:34966271 阅读:5 留言:0更新日期:2022-09-17 12:47
本申请公开了一种实体对齐方法及相关装置、电子设备、存储介质,其中,实体对齐方法包括:获取待对齐的第一多模态知识图谱和第二多模态知识图谱;提取第一多模态知识图谱各种模态的第一子图谱,并提取第二多模态知识图谱各种模态的第二子图谱,及基于相同模态的第一子图谱和第二子图谱进行实体对齐,得到实体集合;获取在第一多模态知识图谱且不在实体集合的第一实体,获取在第二多模态知识图谱且不在实体集合的第二实体;获取第一实体和第二实体之间的特征相似度,并获取第一实体的图文匹配度和第二实体的图文匹配度;基于特征相似度和图文匹配度,得到第一实体和第二实体的实体对齐结果。上述方案,能够提升多模态知识图谱中实体对齐的准确性。实体对齐的准确性。实体对齐的准确性。

【技术实现步骤摘要】
实体对齐方法及相关装置、电子设备、存储介质


[0001]本申请涉及人工智能
,特别是涉及一种实体对齐方法及相关装置、电子设备、存储介质。

技术介绍

[0002]知识图谱(Knowledge Graph,KG)自诞生以来,一直在推动大数据和人工智能技术飞速发展的过程中起着非常关键的作用。知识图谱主要描述各类实体(如,人物A、人物B等)、概念以及它们之间的语义关系,其由一条条知识组成,而知识以三元组形式保存,即(subject,predicate,object)。
[0003]现有的知识图谱都以纯文本的形式出现,没有现实世界的联系。例如,对抽象概念的理解,一个符号“dog”应该根植于物理世界,和真实世界“狗”之间建立联系,从而机器能够有效地理解这些抽象概念。因此,多模态知识图谱也逐渐引起人们的注意。多模态知识图谱相较于单模态的知识图谱,引入实体的图像等其它模态的信息,可以让抽象概念与真实世界建立联系。但是,由于不同的多模态知识图谱在符号、语言等方面的异质性,多模态知识图谱中实体对齐仍然是一项极具挑战的工作。有鉴于此,如何提升多模态知识图谱中实体对齐的准确性成为亟待解决的问题。

技术实现思路

[0004]本申请主要解决的技术问题是提供一种实体对齐方法及相关装置、电子设备、存储介质,能够提升多模态知识图谱中实体对齐的准确性。
[0005]为了解决上述技术问题,本申请第一方面提供了一种实体对齐方法,包括:获取待对齐的第一多模态知识图谱和第二多模态知识图谱;基于第一多模态知识图谱,提取各种模态的第一子图谱,并基于第二多模态知识图谱,提取各种模态的第二子图谱,以及基于相同模态的第一子图谱和第二子图谱进行实体对齐,得到对齐后的实体集合;其中,各种模态至少包括图像模态;获取在第一多模态知识图谱且不在实体集合的第一实体,并获取在第二多模态知识图谱且不在实体集合的第二实体;获取第一实体和第二实体之间的特征相似度,并获取第一实体的图文匹配度和第二实体的图文匹配度;其中,特征相似度包括:相同模态下第一实体和第二实体的子相似度;基于特征相似度和图文匹配度,得到第一实体和第二实体的实体对齐结果。
[0006]为了解决上述技术问题,本申请第二方面提供了一种实体对齐装置,包括:图谱获取模块、子图划分模块、子图对齐模块、实体获取模块、相似度量模块、匹配度量模块和对齐确定模块,图谱获取模块,用于获取待对齐的第一多模态知识图谱和第二多模态知识图谱;子图划分模块,用于基于第一多模态知识图谱,提取各种模态的第一子图谱,并基于第二多模态知识图谱,提取各种模态的第二子图谱;其中,各种模态至少包括图像模态;子图对齐模块,用于基于相同模态的第一子图谱和第二子图谱进行实体对齐,得到对齐后的实体集合;实体获取模块,用于获取在第一多模态知识图谱且不在实体集合的第一实体,并获取在
第二多模态知识图谱且不在实体集合的第二实体;相似度量模块,用于获取第一实体和第二实体之间的特征相似度;其中,特征相似度包括:相同模态下第一实体和第二实体的子相似度;匹配度量模块,用于获取第一实体的图文匹配度和第二实体的图文匹配度;对齐确定模块,用于基于特征相似度和图文匹配度,得到第一实体和第二实体的实体对齐结果。
[0007]为了解决上述技术问题,本申请第三方面提供了一种电子设备,包括相互耦接的存储器和处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述第一方面的实体对齐方法。
[0008]为了解决上述技术问题,本申请第四方面提供了一种计算机可读存储介质,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面的实体对齐方法。
[0009]上述方案,获取待对齐的第一多模态知识图谱和第二多模态知识图谱,从而基于第一多模态知识图谱,提取各种模态的第一子图谱,并基于第二多模态知识图谱,提取各种模态的第二子图谱,以及基于相同模态的第一子图谱和第二子图谱进行实体对齐,得到对齐后的实体集合,且各种模态至少包括图像模态,进而获取在第一多模态知识图谱且不在实体集合中的第一实体,并获取在第二多模态知识图谱且不在实体集合的第二实体。在此基础上,再获取第一实体和第二实体之间的特征相似度,并获取第一实体的图文匹配度和第二实体的图文匹配度,且特征相似度包括:相同模态下第一实体和第二实体的子相似度,以基于特征相似度和图文匹配度,得到第一实体和第二实体的实体对齐结果。一方面,在多模态知识图谱中实体对齐过程中,由于在各个模态下分别进行实体对齐,以获取对齐后的实体集合,从而相较于直接将第一多模态知识图谱和第二多模态知识图谱进行实体对齐而言,能够尽可能地参考各个实体的完整信息来进行实体对齐,有助于提升实体对齐的准确性,另一方面对于第一多模态知识图谱中未在第一阶段对齐的第一实体和第二多模态知识图谱中未在第一阶段对齐的第二实体而言,进一步结合两者之间的特征相似度以及各自的图文匹配度进行实体对齐,能够尽可能地降低图文不匹配对实体对齐的影响,有助于在实体对齐过程中提升实体配图的容错性。故此,能够提升多模态知识图谱中实体对齐的准确性。
附图说明
[0010]图1是本申请实体对齐方法一实施例的流程示意图;图2是本申请实体对齐方法一实施例的过程示意图;图3是本申请实体对齐装置一实施例的框架示意图;图4是本申请电子设备一实施例的框架示意图;图5是本申请计算机可读存储介质一实施例的框架示意图。
具体实施方式
[0011]下面结合说明书附图,对本申请实施例的方案进行详细说明。
[0012]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
[0013]本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独
存在A,同时存在A和B,单独存在B这三种情况。另外,本文中片段“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
[0014]请参阅图1,图1是本申请实体对齐方法一实施例的流程示意图。具体而言,可以包括如下步骤:步骤S11:获取待对齐的第一多模态知识图谱和第二多模态知识图谱。
[0015]需要说明的是,本公开实施例所称“多模态知识图谱”其所包含的实体可以采用不同模态分别予以表示。此外,实体表示时所采用的模态可以包括但不限于:文字、数值、图像、结构等,在此不做限定。示例性地,以历史人物场景为例,对于“多模态知识图谱”中实体“人物A”而言,该实体可以以文字模态表示为中文“人物A”、英文“person A”,以图像模态表示为人物A的头像图像。此外,与实体“人物A”连接的还有实体“人物B”,两者之间的关系为“作者”,即“人物B”的作者为“人物A”,与实体“人物A”连接的还有实体“1452
‑4‑
15”,两者之间的关系为“出生日期”,即“人物A”的出生日期为“1452
‑4‑
15”,此时实体“本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体对齐方法,其特征在于,包括:获取待对齐的第一多模态知识图谱和第二多模态知识图谱;基于所述第一多模态知识图谱,提取各种模态的第一子图谱,并基于所述第二多模态知识图谱,提取各种模态的第二子图谱,以及基于相同模态的第一子图谱和第二子图谱进行实体对齐,得到对齐后的实体集合;其中,所述各种模态至少包括图像模态;获取在所述第一多模态知识图谱且不在所述实体集合的第一实体,并获取在所述第二多模态知识图谱且不在所述实体集合的第二实体;获取所述第一实体和所述第二实体之间的特征相似度,并获取所述第一实体的图文匹配度和所述第二实体的图文匹配度;其中,所述特征相似度包括:相同模态下所述第一实体和所述第二实体的子相似度;基于所述特征相似度和所述图文匹配度,得到所述第一实体和所述第二实体的实体对齐结果。2.根据权利要求1所述的方法,其特征在于,所述图文匹配度基于描述文本、所述描述文本所属实体的描述图像两者之间的特征匹配度得到,且所述描述图像表征所述描述文本所属实体的图像模态。3.根据权利要求2所述的方法,其特征在于,在所述描述文本所属实体不存在所述描述图像的情况下,所述图文匹配度为预设匹配度,且所述预设匹配度低于任意存在所述描述图像的实体的图文匹配度。4.根据权利要求1至3任一项所述的方法,其特征在于,所述基于所述特征相似度和所述图文匹配度,得到所述第一实体和所述第二实体的实体对齐结果,包括:将所述图像模态下所述第一实体和所述第二实体的子相似度,作为第一相似度,并基于所述图像模态以外的各个模态下所述第一实体和所述第二实体的子相似度,融合得到第二相似度,以及基于所述图文匹配度,得到所述第一相似度的第一权重和所述第二相似度的第二权重;基于所述第一权重、所述第二权重分别对所述第一相似度、所述第二相似度进行加权,得到所述第一实体和所述第二实体的最终相似度;基于各个所述第一实体和各个所述第二实体两两之间的最终相似度,得到所述实体对齐结果。5.根据权利要求4所述的方法,其特征在于,所述基于所述图文匹配度,得到所述第一相似度的第一权重和所述第二相似度的第二权重,包括:将所述第一实体的图文匹配度、所述第二实体的图文匹配度中较小者,作为第一匹配度,并基于所述第一匹配度,获取与所述第一匹配度负相关的第二匹配度;将所述第一匹配度作为所述第一权重,并将所述第二匹配度作为所述第二权重,或者,将所述第二匹配度作为所述第一权重,并将所述第一匹配度作为所述第二权重。6.根据权利要求4所述的方法,其特征在于,所述基于所述图像模态以外的各个模态下所述第一实体和所述第二实体的子相似度,融合得到第二相似度,包括:对所述图像模态之外各个模态下的子相似度取均值,得到所述第二相似度。7.根据权利要求4所述的方法,其特征在于,所述基于各个所述第一实体和各个所述第二实体两两之间的最终相似度,得到所述实体对齐结果,包括:
对于各个所述第一实体,基于所述...

【专利技术属性】
技术研发人员:李安庭李直旭支洪平刘加新吴瑞萦
申请(专利权)人:科大讯飞苏州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1