【技术实现步骤摘要】
一种知识图谱实体对齐方法、系统、设备与存储介质
[0001]本专利技术涉及数据挖掘中的多模态知识图谱领域,尤其涉及一种知识图谱实体对齐方法、系统、设备与存储介质。
技术介绍
[0002]多模式知识图谱从视觉、关系和属性的角度组织真实世界的知识,在各种场景中引起了大量关注,并促进了众多下游应用的发展。一般来说,多模态知识图谱是由独立的多模态数据源和为了特定目的构建的。随着对冗余多模态知识整合的需求的激增,多模态实体对齐技术已成为该领域的新兴任务之一。
[0003]在文献中,已经有许多围绕实体对齐展开的研究。大多数方法都是针对传统的知识图谱,致力于探索关系或图结构上的相似性。但是这些方法可能无法适用于新兴的多模态知识图谱,这促使了研究人员开始针对多模态知识的利用去解决实体对齐问题。虽然这些多模态的方法达到了较好的效果,但它们仍然直接合并了单模态特征嵌入,使多模态知识中的深度语义在很大程度上没有得到探索。
[0004]事实上,多模态知识在理解现实世界的事实和生成更全面的实体表征方面有很大的潜力。然而,它也给实体对齐带来了巨大的挑战。首先,仅仅从基本图结构的角度来学习关系表征在多模态知识图谱中是不够的。通过纳入多模态语义来生成一个更充分的关系表示是非常必要且困难的。其次,多模态知识图谱中属性的稀疏性和异质性被加剧了。这使得挑选有益的属性以保证实体对齐的效果成为更大的挑战。最后,相对于传统的知识图谱,多模态的知识图谱存在着更严重的数据规模和昂贵标注问题。由于大规模的数据和标签的稀缺性,预对齐的种子严重不足并且难 ...
【技术保护点】
【技术特征摘要】
1.一种知识图谱实体对齐方法,其特征在于,包括:训练阶段,通过多模态知识嵌入网络提取实体特征,其中:对于每一实体,从对应图像中提取相应的视觉特征,并基于视觉特征对预训练的BERT模型提取的属性特征进行视觉自适应处理,获得最终的属性特征,以及采用针对关系的视觉增强机制对图谱嵌入模型提取的关系特征进行视觉增强处理,获得最终的关系特征,再将视觉特征、最终的关系特征与最终的属性特征整合为整体的实体表征;并且,利用来自不同知识图谱的两个实体的单模态特征和整体的实体表征进行相似度对比学习,所述单模态特征包括:视觉特征、最终的关系特征与最终的属性特征;利用视觉增强处理时的损失函数与对比学习的损失函数构建总损失函数进行训练,更新多模态知识嵌入网络的参数;训练完毕后,利用训练后的多模态知识嵌入网络获得更新后的实体的整体的实体表征;对于两个不同知识图谱中的实体,通过更新后的整体的实体表征,两两进行相似度计算,选择相似度最高的两个实体作为对齐实体。2.根据权利要求1所述的一种知识图谱实体对齐方法,其特征在于,所述对于每一实体,从对应图像中提取相应的视觉特征包括:对于实体e,利用残差网络模型从对应图像i中提取特征,并通过线性变换获得投影到对应空间,获得相应的视觉特征,表示为:i
e
=ResNet(i)e
I
=W1·
i
e
+b1其中,ResNet表示残差网络模型,i
e
表示残差网络模型从图像i中提取的特征,e
I
表示相应的视觉特征,W1与b1表示线性变换的权重与偏置参数。3.根据权利要求1所述的一种知识图谱实体对齐方法,其特征在于,采用针对关系的视觉增强机制对图谱嵌入模型提取的关系特征进行视觉增强处理,获得最终的关系特征包括:训练阶段,利用正负样本,结合图谱嵌入模型的损失函数以及视觉增强的损失函数优化图谱嵌入模型;其中,正样本是指三元关系组的关系正确,即头尾实体满足相应的关系r,负样本是指三元关系组关系不正确,即头尾实体不满足相应的关系r;正样本表示为(h,r,t),h与t分别为头实体与尾实体;负样本表示为(h
′
,r,t
′
),h
′
与t
′
分别为头实体与尾实体;通过图谱嵌入模型提取正负样本中头实体与尾实体的实体嵌入向量,以及关系的嵌入向量,并带入图谱嵌入模型的损失函数进行计算;计算视觉增强的损失函数时,先通过残差网络与线性变换获得正负样本对应图像的视觉特征,再结合图谱嵌入模型提取的关系嵌入向量带入视觉增强的损失函数进行计算;训练完毕后,通过图谱嵌入模型提取实体嵌入向量作为相应实体最终的关系特征。4.根据权利要求3所述的一种知识图谱实体对齐方法,其特征在于,图谱嵌入模型的损失函数数表示为:图谱嵌入模型的损失函数数表示为:图谱嵌入模型的损失函数数表示为:
其中,T
R
表示正样本集合,T
′
R
表示负样本集合;(h,r,t)=τ,(h
′
,r,t
′
)=τ
′
,h
R
、h
′
R
各自表示头实体h、头实体h
′
的实体嵌入向量,t
R
、t
′
R
各自表示尾实体t、尾实体t
′
的实体嵌入向量,h
r
表示关系r的嵌入向量,实体嵌入向量与关系r的嵌入向量均为图谱嵌入模型的输出;Υ
r
表示得分间隔,f
r
(.)表示得分函数。5.根据权利要求3或4所述的一种知识图谱实体对齐方法,其特征在于,视觉增强的损失函数表示为:为:为:其中,f
i
(.)表示得分函数,Υ
i
表示得分间隔,分别表示头实体h与尾实体t对应图像的视觉特征,分别表示头实体h
′
与尾实体t
′
对应图像的视觉特征;其中,头实体h与尾实体t对应图像的视觉特征提取过程表示为:提取过程表示为:其中,ResNet表示残差网络模型,分别表示头实体h、尾实体t对应的图像,i
h
、i
t
分别表示残差网络模型从图像中提取的特征,W2与b2表示线性变换的权重与偏置参数;视觉特征以及实体嵌入向量t
R
,满足:t
R
≈h
R
+h
r
6.根据权利要求1所述的一种知识图谱实体对齐方法,其特征在于,所述基于视觉特征对通过预训练的BERT模型提取的属性特征进行视觉自适应处理包括:通过预训练的B...
【专利技术属性】
技术研发人员:徐童,陈恩红,陈力以,李徵,武晗,
申请(专利权)人:中国科学技术大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。