当前位置: 首页 > 专利查询>吉林大学专利>正文

一种面向多模态知识图谱的实体对齐方法及装置制造方法及图纸

技术编号:38814875 阅读:13 留言:0更新日期:2023-09-15 19:54
本发明专利技术适用于知识图谱技术领域,提供了一种面向多模态知识图谱的实体对齐方法及装置,该方法包括以下步骤:将两个待对齐的多模态知识图谱作为模型的输入;使用GCN对知识图谱结构进行建模,生成知识图谱的结构嵌入;还生成语义嵌入;根据结构嵌入计算余弦相似度得到结构相似性矩阵,通过计算语义嵌入的余弦相似度得到语义相似性矩阵;通过可以动态调整权重的自适应特征融合策略将结构相似性矩阵和语义相似性矩阵融合成最终的实体相似性矩阵,根据实体相似性矩阵得到对齐结果;在得到的对齐结果中挑选可靠的对齐实体,重复迭代过程直至模型收敛,本发明专利技术解决了目前知识图谱实体对齐任务缺乏训练数据的问题。务缺乏训练数据的问题。务缺乏训练数据的问题。

【技术实现步骤摘要】
一种面向多模态知识图谱的实体对齐方法及装置


[0001]本专利技术涉及知识图谱
,具体是一种面向多模态知识图谱的实体对齐方法及装置。

技术介绍

[0002]当今世界随着互联网的蓬勃发展,网络中的数据内容正在爆炸式的增长。由于互联网内容具有规模大、异质多元及组织结构松散的特点,所以人们无法高效地获取信息和知识。随着知识图谱(Knowledge Graph,KG)的提出,其凭借着强大的语义处理能力和开放组织能力,为当今互联网时代的知识化组织和智能应用做出了重大贡献。知识图谱的概念最初是由Google于2012年5月16日正式提出。目的是凭借知识图谱去挖掘用户需求的语义信息并消除歧义,从而提升搜索引擎返回信息的精准度和用户的检索效率。知识图谱更偏重于描述实体与实体之间的关联,知识图谱的出现更符合计算机语义学的发展趋势。随着人工智能技术的快速发展,知识图谱现在已经不仅仅是作为检索系统的数据库来使用。随着对知识图谱技术的研究不断深入,知识图谱已经被应用到更多的领域,如语义匹配、搜索推荐、问答对话、推理决策及区块链协作等等。正是由于知识图谱的广泛应用范围,不同的机构和组织一般都会根据自身的业务需求去构建知识图谱,由于缺乏一个统一的行业标准,这就导致了不同的知识图谱之间存在着严重的异构和冗余问题。通常来说两个不同的知识图谱对同一个客观实体的描述往往存在着互补的情况,所以将多个知识图谱融合成一个规模更大、信息覆盖程度更广的知识图谱是必要的,而知识图谱融合的首要任务就是实体对齐。实体对齐的目标是匹配两个不同知识图谱中引用相同真实世界对象的实体。多模态知识图谱实体对齐是一个比较新的研究问题,现有研究主要集中在单模态知识图谱上进行对齐,在多模态知识图谱上进行实体对齐的研究工作还比较少。但是多模态知识图谱实体对齐任务可以看做是单模态知识图谱实体对齐任务的延伸,单模态知识图谱实体对齐任务的研究方法仍然用在多模态知识图谱实体对齐任务中。多模态知识图谱实体对齐任务的难点在于如何处理不同模态信息之间的异质性并将多个模态的信息有效融合。
[0003]目前流行的面向多模态知识图谱的实体对齐方法虽然取得了一定的效果,但仍存在以下几个问题:
[0004]对除结构信息以外的其它方面信息利用不足,通常认为不同知识图谱间的等价实体应该具有相似的连接结构,所以基于这个假设,无论是多模态知识图谱实体对齐任务还是传统的纯文本形式的知识图谱实体对齐任务都主要依靠知识图谱的结构信息来对齐实体,但是仅仅利用结构信息可能会导致错误的对齐结果;
[0005]通常以固定的权重来融合不同模态间的信息,这种方式认为不同模态信息对实体对齐的贡献是不变的,并且结构信息所占比重较大,这就忽视了其他方面信息对结构信息的补充作用,事实上知识图谱中存在大量的长尾实体,这些长尾实体的结构信息比较匮乏,所以此时结构信息并不十分有效,而诸如实体名称、图像这类信息不受图谱结构影响,它们可以作为结构信息的补充,因此这类信息此时应该被赋予更高的权重;
[0006]目前基于图表示学习的实体对齐方法需要大量的预对齐实体作为标记数据,对齐性能的好坏很大程度上依赖于标记数据的数量和质量,然而标记数据是十分缺乏的,人工标注的成本又很高。
[0007]因此,针对以上现状,迫切需要提供一种面向多模态知识图谱的实体对齐方法,以克服当前实际应用中的不足。

技术实现思路

[0008]本专利技术的目的在于提供一种面向多模态知识图谱的实体对齐方法及装置,旨在解决上述
技术介绍
中的问题。
[0009]本专利技术是这样实现的,一种面向多模态知识图谱的实体对齐方法,该方法包括以下步骤:
[0010]步骤1:将两个待对齐的多模态知识图谱作为模型的输入;
[0011]步骤2:使用GCN对知识图谱结构进行建模,生成知识图谱的结构嵌入;还生成语义嵌入;
[0012]步骤3:根据结构嵌入计算余弦相似度得到结构相似性矩阵,通过计算语义嵌入的余弦相似度得到语义相似性矩阵;
[0013]步骤4:通过可以动态调整权重的自适应特征融合策略将结构相似性矩阵和语义相似性矩阵融合成最终的实体相似性矩阵,根据实体相似性矩阵得到对齐结果;
[0014]步骤5:在得到的对齐结果中挑选可靠的对齐实体对加入种子集作为训练数据继续指导下一次对齐,重复迭代过程直至模型收敛。
[0015]作为本专利技术进一步的方案:在步骤2中,生成语义嵌入的步骤包括:
[0016]获取词袋特征,并将其输入到前馈神经网络以获得相应的嵌入;
[0017]获取视觉特征,将视觉特征输入到前馈神经网络获得视觉信息的嵌入;
[0018]将词袋特征和视觉信息的嵌入进行融合生成语义嵌入。
[0019]作为本专利技术进一步的方案:所述词袋特征包括关系、属性和实体名称信息。
[0020]作为本专利技术进一步的方案:获取视觉特征的步骤为:
[0021]将实体的图像输入到ResNet

152模型,并使用logits层前的最后一层输出作为实体的视觉特征。
[0022]作为本专利技术进一步的方案:在步骤2中,GCN的层数为两层。
[0023]作为本专利技术进一步的方案:在步骤4中,从相似性矩阵层面进行特征融合,先计算具体模态下实体之间的相似度,得到该模态下的实体相似性矩阵,然后对不同模态下的实体相似性矩阵进行融合得到最终的实体相似性矩阵。
[0024]作为本专利技术进一步的方案:在步骤5中,迭代过程包括:
[0025]获得实体的相似性矩阵,根据相似性矩阵筛选出相似度高于设定相似度阈值的实体对,并视为可靠对齐实体,然后将筛选出的可靠实体对加入到种子集中,使用新生成的种子集开启下一次训练,重复这一过程,直至新生成的实体对数量低于设定的值S时,停止迭代。
[0026]一种面向多模态知识图谱的实体对齐装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述的方法。
[0027]与现有技术相比,本专利技术的有益效果:
[0028]使用GCN对知识图谱结构进行建模,根据结构嵌入计算余弦相似度得到结构相似性矩阵,然后将关系、属性和实体名称信息视为词袋特征,并分别将其输入到一个简单的前馈神经网络以获得相应的嵌入,对于视觉信息本专利技术采用预训练的视觉模型ResNet

152来获取视觉特征,同样也将视觉特征输入到前馈神经网络获得视觉信息的嵌入;将得到的关系、属性、实体名称和视觉信息的嵌入进行融合生成语义嵌入,同样通过计算余弦相似度得到融合后的语义相似性矩阵;通过一种可以动态调整权重的自适应特征融合策略将结构相似性矩阵和语义相似性矩阵融合成最终的实体相似性矩阵,根据实体相似性矩阵得到对齐结果;最后在得到的对齐结果中挑选可靠的对齐实体对加入种子集继续指导下一次对齐,重复迭代过程直至模型收敛,初始的种子集可由无监督的方式获取,本专利技术还实现了相应的无监督版本;
[0029]本专利技术解决了目前知识图谱实体对齐模型大多本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向多模态知识图谱的实体对齐方法,其特征在于,该方法包括以下步骤:步骤1:将两个待对齐的多模态知识图谱作为模型的输入;步骤2:使用GCN对知识图谱结构进行建模,生成知识图谱的结构嵌入;还生成语义嵌入;步骤3:根据结构嵌入计算余弦相似度得到结构相似性矩阵,通过计算语义嵌入的余弦相似度得到语义相似性矩阵;步骤4:通过可以动态调整权重的自适应特征融合策略将结构相似性矩阵和语义相似性矩阵融合成最终的实体相似性矩阵,根据实体相似性矩阵得到对齐结果;步骤5:在得到的对齐结果中挑选可靠的对齐实体对加入种子集作为训练数据继续指导下一次对齐,重复迭代过程直至模型收敛。2.根据权利要求1所述的面向多模态知识图谱的实体对齐方法,其特征在于,在步骤2中,生成语义嵌入的步骤包括:获取词袋特征,并将其输入到前馈神经网络以获得相应的嵌入;获取视觉特征,将视觉特征输入到前馈神经网络获得视觉信息的嵌入;将词袋特征和视觉信息的嵌入进行融合生成语义嵌入。3.根据权利要求2所述的面向多模态知识图谱的实体对齐方法,其特征在于,所述词袋特征包括关系、属性和实体名称信息。4.根据权利要求2所述的面向多模态知识图谱的实体对齐方法,其特征在于,...

【专利技术属性】
技术研发人员:包铁邵斐彭涛毕海嘉刘露
申请(专利权)人:吉林大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1