【技术实现步骤摘要】
一种面向多版本知识图谱的实体匹配方法、装置及介质
[0001]本专利技术涉及计算机
,尤其是一种面向多版本知识图谱的实体匹配方法、装置及介质。
技术介绍
[0002]知识图谱采用图形数据结构来表示知识,图中的节点表示实体,边表示实体之间的关系。这种数据结构能够更好地反映知识的复杂性和结构化,也因此能够表示实体之间多种不同关系,更好地反映知识的真实性和丰富性。随着时间的推移和技术的更新,知识呈爆炸性增长,而知识图谱通常采用分布式存储技术,具有可扩展性和可维护性,能够适应不断增长的知识量,从而支持大规模知识的存储和管理。知识图谱也因此被广泛应用于组织和管理大量的数据和信息。
[0003]然而,由于需求和设计理念的区别,任何组织和机构都可以创建知识图谱,从而导致知识充满多样性和异构型,并且存在很多重复的知识。为了高效整合不同知识图谱中的知识,提高储存空间的利用率,针对于不同版本知识图谱间的实体匹配问题也吸引了越来越多的研究目光。
[0004]实体匹配指的是判断拥有多版本的知识图谱中的某两个实体是否指向真实世界 ...
【技术保护点】
【技术特征摘要】
1.一种面向多版本知识图谱的实体匹配方法,其特征在于,包括:获取历史版本的知识图谱数据,构建知识图谱版本库;确定所述知识图谱版本库中各版本知识图谱内的实体编号及实体标签;计算各个实体的文本属性特征向量;根据图结构搜索每一实体的邻近实体,构建包含各个实体及邻近实体的实体集;根据所述文本属性特征向量和所述实体集之间的连接属性,提取每一实体集的特征矩阵,得到数据集;根据孪生神经网络,按照不同版本分别将实体输入图卷积子网络,计算每一实体的节点特征;根据相似度评价函数、损失函数以及所述知识图谱版本库中各版本知识图谱内的实体编号和实体标签,计算每一实体的特征值与损失;将每一实体的损失进行共享以及反向传播,根据所述孪生神经网络计算的每一实体的节点特征,计算版本间实体的相似度,完成实体匹配。2.根据权利要求1所述的一种面向多版本知识图谱的实体匹配方法,其特征在于,所述方法还包括构建孪生
‑
图卷积网络的步骤,该步骤包括:构建基于同一本体数据源、不同版本的知识图谱;通过图卷积子网络,获得知识图谱版本间实体的节点特征;通过孪生神经网络进行共享损失,支撑不同尺寸的知识图谱中不同版本间的实体匹配。3.根据权利要求1所述的一种面向多版本知识图谱的实体匹配方法,其特征在于,所述确定所述知识图谱版本库中各版本知识图谱内的实体编号及实体标签,包括:对于每一实体,确定与实体先验匹配的其他版本知识图谱的实体编号。4.根据权利要求1所述的一种面向多版本知识图谱的实体匹配方法,其特征在于,所述计算各个实体的文本属性特征向量,包括:根据知识图谱数据库实体属性集,构建语料库,训练词向量或句向量模型;根据所述语料库的大小,选择是否使用预训练模型来计算各个实体的文本属性特征向量。5.根据权利要求1所述的一种面向多版本知识图谱的实体匹配方法,其特征在于,所述根据图结构搜索每一实体的邻近实体,构建包含各个实体及邻近实体的实体集,包括:根据知识图谱特征,选取不同数量的邻近实体,生成实体集。6.根据权利要求1所述的一种面向多版本知识...
【专利技术属性】
技术研发人员:郝迈,由林麟,陈振武,梁晨,蔡铭,
申请(专利权)人:深圳市城市交通规划设计研究中心股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。