一种数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:20819918 阅读:25 留言:0更新日期:2019-04-10 05:56
本发明专利技术涉及数据处理方法、装置、电子设备及存储介质。该方法包括:将目标知识图谱网络中各个节点的属性信息转换为数值表示的空间向量特征,得到实体属性特征矩阵;获取目标知识图谱网络中表征各个节点的实体关系图的拉普拉斯矩阵;根据实体属性特征矩阵和拉普拉斯矩阵确定目标知识图谱网络中各个节点的最终向量空间表示;计算目标知识图谱网络中每两个节点之间的最终向量相似度;将向量相似度计算结果大于预设阈值的节点对进行融合。该方法通过利用知识图谱中实体的属性信息和邻接信息进行实体向量空间表示的学习,能够获得更加全面准确的向量表示,避免了因为实体属性缺失,属性值变化而带来的实体相似度计算不准确问题。

【技术实现步骤摘要】
一种数据处理方法、装置、电子设备及存储介质
本专利技术属于数据处理
,具体涉及一种数据处理方法、装置、电子设备及存储介质。
技术介绍
知识图谱的建设需要随着知识的不断更新而更新,例如,需要更新原有实体的属性或者关系,或者需要增加新的实体和关系等。这需要判定新增加的实体是否在原有图谱中已经存在,如果已经存在就需要将新的实体链接到原有的实体,融合为一个唯一的实体,更新该实体的属性和关系。现有的实体融合常用的方法是利用实体的属性信息判定不同源实体是否可进行对齐,如果实体的属性中存在唯一性标识则可以通过两个实体之间的唯一性标识进行判定,如果不存在唯一性标识属性,则可以将实体的属性信息进行向量化表示,计算两个向量的相似度。
技术实现思路
鉴于此,本专利技术实施例提供一种数据处理方法、装置、电子设备及存储介质,以有效地改善因属性信息不全或属性信息变化影响相似度的计算,进而影响实体融合的准确性。本专利技术的实施例是这样实现的:第一方面,本专利技术实施例提供了一种数据处理方法,包括:获取目标知识图谱网络;将所述目标知识图谱网络中各个节点的属性信息转换为数值表示的空间向量特征,得到实体属性特征矩阵;获取所述目标知识图谱网络中表征各个节点的实体关系图的拉普拉斯矩阵;根据所述实体属性特征矩阵和所述拉普拉斯矩阵确定所述目标知识图谱网络中各个节点的最终向量空间表示;计算所述目标知识图谱网络中每两个节点之间的最终向量相似度;将向量相似度计算结果大于预设阈值的节点对进行融合。本申请实施例中,通过利用知识图谱中实体的属性信息和邻接信息进行实体向量空间表示的学习,能够获得更加全面准确的向量表示,避免了因为实体属性缺失,属性值变化而带来的实体相似度计算不准确问题,进而提高了实体融合的准确性和可靠性。结合第一方面实施例的一种可能的实施方式,所述获取所述目标知识图谱网络中表征各个节点的实体关系图的拉普拉斯矩阵,包括:获取所述目标知识图谱网络中表征各个节点的度的度矩阵;获取所述目标知识图谱网络中表征各个节点连接对象的邻接矩阵;根据所述度矩阵和所述邻接矩阵确定所述拉普拉斯矩阵。结合第一方面实施例的又一种可能的实施方式,所述目标知识图谱网络包括n个节点,n为大于1的整数;所述根据所述实体属性特征矩阵和所述拉普拉斯矩阵确定所述目标知识图谱网络中各个节点的最终向量空间表示,包括:基于所述实体属性特征矩阵计算所述目标知识图谱网络中第i个节点与n个节点中各个节点的向量相似度,得到相似度矩阵,其中,所述相似度矩阵中的第i行表示第i个节点与n个节点中各个节点的向量相似度,i大于等于1,小于等于n;根据所述相似度矩阵和所述拉普拉斯矩阵确定所述目标知识图谱网络中各个节点的最终向量空间表示。结合第一方面实施例的又一种可能的实施方式,根据所述相似度矩阵和所述拉普拉斯矩阵确定所述目标知识图谱网络中各个节点的最终向量空间表示,包括:根据最终向量空间表示函数、所述相似度矩阵和所述拉普拉斯矩阵确定所述目标知识图谱网络中各个节点的最终向量空间表示,其中,所述最终向量空间表示函数为:其中S代表所述相似度矩阵,W代表所述拉普拉斯矩阵,H代表最终向量空间表示矩阵,λ为调节系数,大于等于0小于等于1,h为每个节点的最终向量空间表示。结合第一方面实施例的又一种可能的实施方式,计算所述目标知识图谱网络中每两个节点之间的向量相似度,包括:通过聚类算法对所述目标知识图谱网络中各个节点对应的向量特征进行聚类;计算同属于一个簇中每两个节点之间的最终向量相似度。第二方面,本专利技术实施例还提供了一种数据处理装置,包括:第一获取模块、转换模块、第二获取模块、确定模块、计算模块以及融合模块;第一获取模块,用于获取目标知识图谱网络;转换模块,用于将所述目标知识图谱网络中各个节点的属性信息转换为数值表示的空间向量特征,得到实体属性特征矩阵;第二获取模块,用于所述目标知识图谱网络中表征各个节点的实体关系图的拉普拉斯矩阵;确定模块,用于根据所述实体属性特征矩阵和所述拉普拉斯矩阵确定所述目标知识图谱网络中各个节点的最终向量空间表示;计算模块,用于计算所述目标知识图谱网络中每两个节点之间的向量相似度;融合模块,用于将向量相似度计算结果大于预设阈值的节点对进行融合。结合第二方面实施例的一种可能的实施方式,所述第二获取模块,还用于:获取所述目标知识图谱网络中表征各个节点的度的度矩阵;获取所述目标知识图谱网络中表征各个节点连接对象的邻接矩阵;根据所述度矩阵和所述邻接矩阵确定所述拉普拉斯矩阵。结合第二方面实施例的又一种可能的实施方式,所述目标知识图谱网络包括n个节点,n为大于1的整数;所述确定模块,还用于:基于所述实体属性特征矩阵计算所述目标知识图谱网络中第i个节点与n个节点中各个节点的向量相似度,得到相似度矩阵,其中,所述相似度矩阵中的第i行表示第i个节点与n个节点中各个节点的向量相似度,i大于等于1,小于等于n;根据所述相似度矩阵和所述拉普拉斯矩阵确定所述目标知识图谱网络中各个节点的最终向量空间表示。结合第二方面实施例的又一种可能的实施方式,所述确定模块,还用于:根据最终向量空间表示函数、所述相似度矩阵和所述拉普拉斯矩阵确定所述目标知识图谱网络中各个节点的最终向量空间表示,其中,所述最终向量空间表示函数为:其中S代表所述相似度矩阵,W代表所述拉普拉斯矩阵,H代表最终向量空间表示矩阵,λ为调节系数,大于等于0小于等于1,h为每个节点的最终向量空间表示。结合第二方面实施例的又一种可能的实施方式,所述计算模块,还用于:通过聚类算法对所述目标知识图谱网络中各个节点对应的向量特征进行聚类;计算同属于一个簇中每两个节点之间的最终向量相似度。第三方面,本专利技术实施例还提供了一种电子设备,包括:存储器和处理器,所述存储器和所述处理器连接;所述存储器用于存储程序;所述处理器用于调用存储于所述存储器中的程序,以执行第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法。第四方面,本专利技术实施例还提供了一种存储介质,所述存储介质包括计算机程序,所述计算机程序被计算机运行时执行第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法。本专利技术的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术实施例而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书以及附图中所特别指出的结构来实现和获得。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。通过附图所示,本专利技术的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本专利技术的主旨。图1示出了本专利技术实施例提供的一种电子设备的结构示意图。图2示出了本专利技术实施例提供的一种数据处理方法的流程示意图。图3示出了本专利技术实施例提供的目标知识图谱网络的示意图。图4示出了本专利技术实施例提供的一种数据处理装置的模块示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:获取目标知识图谱网络;将所述目标知识图谱网络中各个节点的属性信息转换为数值表示的空间向量特征,得到实体属性特征矩阵;获取所述目标知识图谱网络中表征各个节点的实体关系图的拉普拉斯矩阵;根据所述实体属性特征矩阵和所述拉普拉斯矩阵确定所述目标知识图谱网络中各个节点的最终向量空间表示;计算所述目标知识图谱网络中每两个节点之间的最终向量相似度;将向量相似度计算结果大于预设阈值的节点对进行融合。

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取目标知识图谱网络;将所述目标知识图谱网络中各个节点的属性信息转换为数值表示的空间向量特征,得到实体属性特征矩阵;获取所述目标知识图谱网络中表征各个节点的实体关系图的拉普拉斯矩阵;根据所述实体属性特征矩阵和所述拉普拉斯矩阵确定所述目标知识图谱网络中各个节点的最终向量空间表示;计算所述目标知识图谱网络中每两个节点之间的最终向量相似度;将向量相似度计算结果大于预设阈值的节点对进行融合。2.根据权利要求1所述的方法,其特征在于,所述获取所述目标知识图谱网络中表征各个节点的实体关系图的拉普拉斯矩阵,包括:获取所述目标知识图谱网络中表征各个节点的度的度矩阵;获取所述目标知识图谱网络中表征各个节点连接对象的邻接矩阵;根据所述度矩阵和所述邻接矩阵确定所述拉普拉斯矩阵。3.根据权利要求1所述的方法,其特征在于,所述目标知识图谱网络包括n个节点,n为大于1的整数;所述根据所述实体属性特征矩阵和所述拉普拉斯矩阵确定所述目标知识图谱网络中各个节点的最终向量空间表示,包括:基于所述实体属性特征矩阵计算所述目标知识图谱网络中第i个节点与n个节点中各个节点的向量相似度,得到相似度矩阵,其中,所述相似度矩阵中的第i行表示第i个节点与n个节点中各个节点的向量相似度,i大于等于1,小于等于n;根据所述相似度矩阵和所述拉普拉斯矩阵确定所述目标知识图谱网络中各个节点的最终向量空间表示。4.根据权利要求3所述的方法,其特征在于,根据所述相似度矩阵和所述拉普拉斯矩阵确定所述目标知识图谱网络中各个节点的最终向量空间表示,包括:根据最终向量空间表示函数、所述相似度矩阵和所述拉普拉斯矩阵确定所述目标知识图谱网络中各个节点的最终向量空间表示,其中,所述最终向量空间表示函数为:,其中S代表所述相似度矩阵,W代表所述拉普拉斯矩阵,H代表最终向量空间表示矩阵,λ为调节系数,大于等于0小于等于1,h为每个节点的最终向量空间表示。5.根据权利要求1所述的方...

【专利技术属性】
技术研发人员:曾山松岳永鹏
申请(专利权)人:北京知道创宇信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1