一种基于图表示学习的联合嵌入实体对齐系统技术方案

技术编号：34901869 阅读：20 留言：0更新日期：2022-09-10 14:09

本发明专利技术公开了一种基于图表示学习的联合嵌入实体对齐系统，属于知识图谱技术领域，其技术要点是：包括扩充种子集模块，通过扩充种子集模块中扩充种子集部分对种子集进行半监督的迭代扩充，然后作为新的训练数据输入到联合嵌入实体对齐模块中联合嵌入实体对齐部分，训练完成后计算所有实体间距离，使用贪心策略获得实体对齐结果，以及所述联合嵌入实体对齐模块分别对结构、关系和属性进行嵌入，随后将三者联合从而获得实体对齐结果，具有使用少量种子集进行训练，并将其扩充，从而降低对种子集的依赖，提高实体对齐效果。提高实体对齐效果。提高实体对齐效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于图表示学习的联合嵌入实体对齐系统

[0001]本专利技术涉及知识图谱
，具体是涉及一种基于图表示学习的联合嵌入实体对齐系统。

技术介绍

[0002]现有方法中有基于图神经网络的实体对齐方法。其具体步骤包括数据预处理，对两个需对齐的知识图谱和已有对齐种子进行数据预处理，处理结果作为下一步的输入；构建图神经网络模型，将与处理结果输入图卷积神经网络，对两个需对齐的知识图谱利用图神经网络统一建模，得到知识图谱中实体的向量化表示；基于贪心算法搜索相关量空间中实体向量表示与实体语义相似度最高的实体，作为对齐实体。
[0003]信息利用不充分体现在对于知识图谱来说，它包含关系三元组和属性三元组两种三元组。已有的实体对齐方法仅使用了其关系三元组中的结构信息，故在对齐过程中很容易出现由于信息量不足而导致的错误对齐。不管是结构信息还是关系信息，它们都是包含在关系三元组中，知识图谱中还有大量的属性三元组，其中也包含了语义信息。
[0004]对种子集依赖度过高方面，种子集就是一些预先对齐好的实体集合，可以用做实体对齐的训练数据。种子对齐实体数量越多，最后的实体对齐效果就越好，故现有的实体对齐方法对种子集的依赖度很高，种子集的数量与质量会在很大程度上影响实体对齐结果。

技术实现思路

[0005]针对现有技术存在的不足，本专利技术实施例的目的在于提供一种基于图表示学习的联合嵌入实体对齐系统，以解决上述
技术介绍
中的问题。
[0006]为实现上述目的，本专利技术提供如下技术方案：
[00...

【技术保护点】

【技术特征摘要】
1.一种基于图表示学习的联合嵌入实体对齐系统，包括扩充种子集模块，通过扩充种子集模块中扩充种子集部分对种子集进行半监督的迭代扩充，然后作为新的训练数据输入到联合嵌入实体对齐模块中联合嵌入实体对齐部分，训练完成后计算所有实体间距离，使用贪心策略获得实体对齐结果，其特征在于，所述扩充种子集模块工作步骤如下：步骤一：首先获得联合嵌入实体对齐模块；步骤二：根据嵌入计算所有实体嵌入间的距离，并设置距离阈值来进行筛选；步骤三：实体距离低于阈值的实体对被认为是可信对齐实体，将其加入种子集，更新种子集后再次进行结构嵌入训练，获得新对齐实体；步骤四：迭代进行这一过程，直至迭代后新产生的对齐实体数量小于一个定值m，停止迭代；以及所述联合嵌入实体对齐模块分别对结构、关系和属性进行嵌入，随后将三者联合从而获得实体对齐结果。2.根据权利要求1所述的基于图表示学习的联合嵌入实体对齐系统，其特征在于，所述扩充种子集模块包括距离阈值筛选实体，所述距离阈值筛选实体通过实体间的相似度进行筛选，而实体间的相似度通过实体嵌入间的距离反映，通过设置距离阈值来过滤掉相似度过低的实体。3.根据权利要求2所述的基于图表示学习的联合嵌入实体对齐系统，其特征在于，所述扩充种子集模块包括相互最近实体，所述相互最近实体对于两个实体e1和e2，仅当两个实体互相是距离对方最近的实体，并且实体间的距离小于阈值时，才认为两个实体是对齐的，公式表述如下：式表述如下：D(e1,e2)<θ (3)。4.根据权利要求3所述的基于图表示学习的联合嵌入实体对齐系统，其特征在于，所述扩充种子集模块包括重新初始化，所述重新初始化在每一次迭代完成后，重新初始化所有实体嵌入，并使用上一次迭代后的新的种子集重新开始训练。5.根据权利要求4所述的基于图表示学习的联合嵌入实体对齐系统，其特征在于，所述重...

【专利技术属性】
技术研发人员：包铁，王科润，彭涛，王上，
申请(专利权)人：吉林大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人