一种面向多版本知识图谱的实体匹配方法、装置及介质制造方法及图纸

技术编号:37963478 阅读:14 留言:0更新日期:2023-06-30 09:38
本发明专利技术公开了一种面向多版本知识图谱的实体匹配方法、装置及介质,方法包括:获取历史版本的知识图谱数据,构建知识图谱版本库;确定各版本知识图谱内的实体编号及实体标签;计算各个实体的文本属性特征向量;构建包含各个实体及邻近实体的实体集;提取每一实体集的特征矩阵,得到数据集;计算每一实体的节点特征;计算每一实体的特征值与损失;将每一实体的损失进行共享以及反向传播,计算版本间实体的相似度,完成实体匹配。本发明专利技术基于孪生

【技术实现步骤摘要】
一种面向多版本知识图谱的实体匹配方法、装置及介质


[0001]本专利技术涉及计算机
,尤其是一种面向多版本知识图谱的实体匹配方法、装置及介质。

技术介绍

[0002]知识图谱采用图形数据结构来表示知识,图中的节点表示实体,边表示实体之间的关系。这种数据结构能够更好地反映知识的复杂性和结构化,也因此能够表示实体之间多种不同关系,更好地反映知识的真实性和丰富性。随着时间的推移和技术的更新,知识呈爆炸性增长,而知识图谱通常采用分布式存储技术,具有可扩展性和可维护性,能够适应不断增长的知识量,从而支持大规模知识的存储和管理。知识图谱也因此被广泛应用于组织和管理大量的数据和信息。
[0003]然而,由于需求和设计理念的区别,任何组织和机构都可以创建知识图谱,从而导致知识充满多样性和异构型,并且存在很多重复的知识。为了高效整合不同知识图谱中的知识,提高储存空间的利用率,针对于不同版本知识图谱间的实体匹配问题也吸引了越来越多的研究目光。
[0004]实体匹配指的是判断拥有多版本的知识图谱中的某两个实体是否指向真实世界同一对象的过程。为了说明实体匹配的用处,以智能交通系统为例,近年来在国家政策导向下,推动了例如交通控制、分析、大数据管理等信息技术和多样化移动需求的发展,使得智能交通系统正在快速发展与革新其服务,并朝着自主化的方向逐步按照“辅助自主—高度自主—完全自主”三个代际演进升级。在自主式交通系统开发过程中,需要对分别构建的三个代际所对应的知识图谱版本间进行实体匹配,从而支撑其演进分析,进而直观地展示交通系统的动态变化。
[0005]现存的主流匹配方法在当前大数据条件下,存在着许多问题和挑战,其中最突出是计算复杂度、数据质量和先验匹配知识的获取问题,都需要根据实际情况设计有效的算法进行解决。

技术实现思路

[0006]有鉴于此,本专利技术实施例提供一种复杂度低、准确率高及效率高的,面向多版本知识图谱的实体匹配方法、装置及介质,能够适应不同尺寸或维度的知识图谱,并将知识图谱多个版本中的同一实体进行有效匹配、验证和提取。
[0007]本专利技术实施例的一方面提供了一种面向多版本知识图谱的实体匹配方法,包括:
[0008]获取历史版本的知识图谱数据,构建知识图谱版本库;
[0009]确定所述知识图谱版本库中各版本知识图谱内的实体编号及实体标签;
[0010]计算各个实体的文本属性特征向量;
[0011]根据图结构搜索每一实体的邻近实体,构建包含各个实体及邻近实体的实体集;
[0012]根据所述文本属性特征向量和所述实体集之间的连接属性,提取每一实体集的特
征矩阵,得到数据集;
[0013]根据孪生神经网络,按照不同版本分别将实体输入图卷积子网络,计算每一实体的节点特征;
[0014]根据相似度评价函数、损失函数以及所述知识图谱版本库中各版本知识图谱内的实体编号和实体标签,计算每一实体的特征值与损失;
[0015]将每一实体的损失进行共享以及反向传播,根据所述孪生神经网络计算的每一实体的节点特征,计算版本间实体的相似度,完成实体匹配。
[0016]可选地,所述方法还包括构建孪生

图卷积网络的步骤,该步骤包括:
[0017]构建基于同一本体数据源、不同版本的知识图谱;
[0018]通过图卷积子网络,获得知识图谱版本间实体的节点特征;
[0019]通过孪生神经网络进行共享损失,支撑不同尺寸的知识图谱中不同版本间的实体匹配。
[0020]可选地,所述确定所述知识图谱版本库中各版本知识图谱内的实体编号及实体标签,包括:
[0021]对于每一实体,确定与实体先验匹配的其他版本知识图谱的实体编号。
[0022]可选地,所述计算各个实体的文本属性特征向量,包括:
[0023]根据知识图谱数据库实体属性集,构建语料库,训练词向量或句向量模型;
[0024]根据所述语料库的大小,选择是否使用预训练模型来计算各个实体的文本属性特征向量。
[0025]可选地,所述根据图结构搜索每一实体的邻近实体,构建包含各个实体及邻近实体的实体集,包括:
[0026]根据知识图谱特征,选取不同数量的邻近实体,生成实体集。
[0027]可选地,所述根据所述文本属性特征向量和所述实体集之间的连接属性,提取每一实体集的特征矩阵,得到数据集,包括:
[0028]根据实体间连接的边的权重与指向性,生成不同的邻接矩阵;
[0029]根据节点度原理,生成不同的度矩阵。
[0030]可选地,所述方法还包括构建孪生神经子网络的步骤,该步骤包括以下至少之一:
[0031]根据匹配目标的差异,确定孪生神经子网络为图卷积网络

图卷积网络;
[0032]或者,根据匹配目标的差异,确定孪生神经子网络为图卷积网络

卷积网络;
[0033]或者,根据匹配目标的差异,确定孪生神经子网络为卷积网络

卷积网络。
[0034]本专利技术实施例的另一方面还提供了一种面向多版本知识图谱的实体匹配装置,包括:
[0035]第一模块,用于获取历史版本的知识图谱数据,构建知识图谱版本库;
[0036]第二模块,用于确定所述知识图谱版本库中各版本知识图谱内的实体编号及实体标签;
[0037]第三模块,用于计算各个实体的文本属性特征向量;
[0038]第四模块,用于根据图结构搜索每一实体的邻近实体,构建包含各个实体及邻近实体的实体集;
[0039]第五模块,用于根据所述文本属性特征向量和所述实体集之间的连接属性,提取
每一实体集的特征矩阵,得到数据集;
[0040]第六模块,用于根据孪生神经网络,按照不同版本分别将实体输入图卷积子网络,计算每一实体的节点特征;
[0041]第七模块,用于根据相似度评价函数、损失函数以及所述知识图谱版本库中各版本知识图谱内的实体编号和实体标签,计算每一实体的特征值与损失;
[0042]第八模块,用于将每一实体的损失进行共享以及反向传播,根据所述孪生神经网络计算的每一实体的节点特征,计算版本间实体的相似度,完成实体匹配。
[0043]本专利技术实施例的另一方面还提供了一种电子设备,包括处理器以及存储器;
[0044]所述存储器用于存储程序;
[0045]所述处理器执行所述程序实现如前面所述的方法。
[0046]本专利技术实施例的另一方面还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
[0047]本专利技术实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向多版本知识图谱的实体匹配方法,其特征在于,包括:获取历史版本的知识图谱数据,构建知识图谱版本库;确定所述知识图谱版本库中各版本知识图谱内的实体编号及实体标签;计算各个实体的文本属性特征向量;根据图结构搜索每一实体的邻近实体,构建包含各个实体及邻近实体的实体集;根据所述文本属性特征向量和所述实体集之间的连接属性,提取每一实体集的特征矩阵,得到数据集;根据孪生神经网络,按照不同版本分别将实体输入图卷积子网络,计算每一实体的节点特征;根据相似度评价函数、损失函数以及所述知识图谱版本库中各版本知识图谱内的实体编号和实体标签,计算每一实体的特征值与损失;将每一实体的损失进行共享以及反向传播,根据所述孪生神经网络计算的每一实体的节点特征,计算版本间实体的相似度,完成实体匹配。2.根据权利要求1所述的一种面向多版本知识图谱的实体匹配方法,其特征在于,所述方法还包括构建孪生

图卷积网络的步骤,该步骤包括:构建基于同一本体数据源、不同版本的知识图谱;通过图卷积子网络,获得知识图谱版本间实体的节点特征;通过孪生神经网络进行共享损失,支撑不同尺寸的知识图谱中不同版本间的实体匹配。3.根据权利要求1所述的一种面向多版本知识图谱的实体匹配方法,其特征在于,所述确定所述知识图谱版本库中各版本知识图谱内的实体编号及实体标签,包括:对于每一实体,确定与实体先验匹配的其他版本知识图谱的实体编号。4.根据权利要求1所述的一种面向多版本知识图谱的实体匹配方法,其特征在于,所述计算各个实体的文本属性特征向量,包括:根据知识图谱数据库实体属性集,构建语料库,训练词向量或句向量模型;根据所述语料库的大小,选择是否使用预训练模型来计算各个实体的文本属性特征向量。5.根据权利要求1所述的一种面向多版本知识图谱的实体匹配方法,其特征在于,所述根据图结构搜索每一实体的邻近实体,构建包含各个实体及邻近实体的实体集,包括:根据知识图谱特征,选取不同数量的邻近实体,生成实体集。6.根据权利要求1所述的一种面向多版本知识...

【专利技术属性】
技术研发人员:郝迈由林麟陈振武梁晨蔡铭
申请(专利权)人:深圳市城市交通规划设计研究中心股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1