当前位置: 首页 > 专利查询>吉林大学专利>正文

一种基于图表示学习的联合嵌入实体对齐系统技术方案

技术编号:34901869 阅读:20 留言:0更新日期:2022-09-10 14:09
本发明专利技术公开了一种基于图表示学习的联合嵌入实体对齐系统,属于知识图谱技术领域,其技术要点是:包括扩充种子集模块,通过扩充种子集模块中扩充种子集部分对种子集进行半监督的迭代扩充,然后作为新的训练数据输入到联合嵌入实体对齐模块中联合嵌入实体对齐部分,训练完成后计算所有实体间距离,使用贪心策略获得实体对齐结果,以及所述联合嵌入实体对齐模块分别对结构、关系和属性进行嵌入,随后将三者联合从而获得实体对齐结果,具有使用少量种子集进行训练,并将其扩充,从而降低对种子集的依赖,提高实体对齐效果。提高实体对齐效果。提高实体对齐效果。

【技术实现步骤摘要】
一种基于图表示学习的联合嵌入实体对齐系统


[0001]本专利技术涉及知识图谱
,具体是涉及一种基于图表示学习的联合嵌入实体对齐系统。

技术介绍

[0002]现有方法中有基于图神经网络的实体对齐方法。其具体步骤包括数据预处理,对两个需对齐的知识图谱和已有对齐种子进行数据预处理,处理结果作为下一步的输入;构建图神经网络模型,将与处理结果输入图卷积神经网络,对两个需对齐的知识图谱利用图神经网络统一建模,得到知识图谱中实体的向量化表示;基于贪心算法搜索相关量空间中实体向量表示与实体语义相似度最高的实体,作为对齐实体。
[0003]信息利用不充分体现在对于知识图谱来说,它包含关系三元组和属性三元组两种三元组。已有的实体对齐方法仅使用了其关系三元组中的结构信息,故在对齐过程中很容易出现由于信息量不足而导致的错误对齐。不管是结构信息还是关系信息,它们都是包含在关系三元组中,知识图谱中还有大量的属性三元组,其中也包含了语义信息。
[0004]对种子集依赖度过高方面,种子集就是一些预先对齐好的实体集合,可以用做实体对齐的训练数据。种子对齐实体数量越多,最后的实体对齐效果就越好,故现有的实体对齐方法对种子集的依赖度很高,种子集的数量与质量会在很大程度上影响实体对齐结果。

技术实现思路

[0005]针对现有技术存在的不足,本专利技术实施例的目的在于提供一种基于图表示学习的联合嵌入实体对齐系统,以解决上述
技术介绍
中的问题。
[0006]为实现上述目的,本专利技术提供如下技术方案:
[0007]一种基于图表示学习的联合嵌入实体对齐系统,包括扩充种子集模块,通过扩充种子集模块中扩充种子集部分对种子集进行半监督的迭代扩充,然后作为新的训练数据输入到联合嵌入实体对齐模块中联合嵌入实体对齐部分,训练完成后计算所有实体间距离,使用贪心策略获得实体对齐结果,
[0008]所述扩充种子集模块工作步骤如下:
[0009]步骤一:首先获得联合嵌入实体对齐模块;
[0010]步骤二:根据嵌入计算所有实体嵌入间的距离,并设置距离阈值来进行筛选;
[0011]步骤三:实体距离低于阈值的实体对被认为是可信对齐实体,将其加入种子集,更新种子集后再次进行结构嵌入训练,获得新对齐实体;
[0012]步骤四:迭代进行这一过程,直至迭代后新产生的对齐实体数量小于一个定值m,停止迭代;以及
[0013]所述联合嵌入实体对齐模块分别对结构、关系和属性进行嵌入,随后将三者联合从而获得实体对齐结果。
[0014]作为本专利技术进一步的方案,所述扩充种子集模块包括距离阈值筛选实体,所述距
离阈值筛选实体通过实体间的相似度进行筛选,而实体间的相似度通过实体嵌入间的距离反映,通过设置距离阈值来过滤掉相似度过低的实体。
[0015]作为本专利技术进一步的方案,所述扩充种子集模块包括相互最近实体,所述相互最近实体对于两个实体e1和e2,仅当两个实体互相是距离对方最近的实体,并且实体间的距离小于阈值时,才认为两个实体是对齐的,公式表述如下:
[0016][0017][0018]D(e1,e2)<θ
ꢀꢀ
(3)。
[0019]作为本专利技术进一步的方案,所述扩充种子集模块包括重新初始化,所述重新初始化在每一次迭代完成后,重新初始化所有实体嵌入,并使用上一次迭代后的新的种子集重新开始训练。
[0020]作为本专利技术进一步的方案,所述重新初始化每次种子集更新完成后,即可开始下一轮的迭代,将新对齐实体加入种子集后,将已对齐的实体从待对齐实体集合中去除。
[0021]作为本专利技术进一步的方案,所述联合嵌入实体对齐模块采用GCN对知识图谱进行结构嵌入,即使用GCN将实体表示为低维向量空间中的向量,GCN模型由多层GCN堆叠组成,每层GCN拥有输入和输出,输入即为GCN中每个节点的初始向量表示,输出是每个节点经过更新后的向量表示,首层GCN为输入层,其输入为两个知识图谱的实体向量,每个实体看作一个节点,而后每层GCN的输出会作为下一层GCN的输入,最后一层GCN的输出即为整个GCN模型的输出,也是实体的最终向量表示。
[0022]作为本专利技术进一步的方案,所述联合嵌入实体对齐模块对于实体关系,考虑关系三元组(h,r,t)中的关系r会连接若干个头尾实体,故将头实体平均结构嵌入和尾实体平均结构嵌入连接得到关系r的结构嵌入:
[0023][0024]而后根据结构向量计算出所有关系的向量表示,其中所有e作为头实体的三元组中的关系嵌入记为集合所有e作为尾实体的三元组中的关系嵌入记为集合与求和即可得到e的所有关系表示R
e

[0025][0026]而后进一步计算e的结构

关系联合嵌入:
[0027]z
s,r
=[z
s
||R
e
]ꢀꢀ
(6)
[0028]获得联合嵌入后,使用基于间隔的排序损失函数继续进行训练。
[0029]作为本专利技术进一步的方案,所述联合嵌入实体对齐模块对于实体属性,采用GCN对知识图谱进行属性嵌入,输入层节点使用实体关于属性的one

hot向量进行初始化。
[0030]综上所述,本专利技术实施例与现有技术相比具有以下有益效果:
[0031](1)本专利技术对关系三元组包含的结构信息和关系信息,以及属性三元组包含的属性信息都进行了建模。使用两层GCN堆叠对知识图谱的结构与属性进行嵌入,为了解决结构
嵌入信息丢失的问题,使用高速网络来控制信息传输,还使用了实体名称对实体的节点表示进行初始化。根据关系和实体之间的语义关联,借助实体的结构嵌入表示出关系嵌入,并与结构嵌入联合训练,使用最终的结构

关系

属性联合嵌入进行实体对齐;
[0032](2)本专利技术使用少量种子集进行训练,并将其扩充,从而降低实体对齐方法对种子集的依赖,提高实体对齐效果。为获得高质量的种子集,本专利技术采用了设置阈值和相互最近实体策略来筛选对齐实体,还采用了重新初始化策略来降低错误传播。
[0033]为更清楚地阐述本专利技术的结构特征和功效,下面结合附图与具体实施例来对本专利技术进行详细说明。
附图说明
[0034]图1为专利技术实施例的系统整体流程图。
[0035]图2为专利技术实施例中联合嵌入实体对齐流程图。
[0036]图3为专利技术实施例中GCN结构图。
[0037]图4为专利技术实施例中Highway网络结构图。
具体实施方式
[0038]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0039]以下结合具体实施例对本专利技术的具体实现进行详细描述。
[0040]在一个实施例中,一种基于图表示学习的联合嵌入本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图表示学习的联合嵌入实体对齐系统,包括扩充种子集模块,通过扩充种子集模块中扩充种子集部分对种子集进行半监督的迭代扩充,然后作为新的训练数据输入到联合嵌入实体对齐模块中联合嵌入实体对齐部分,训练完成后计算所有实体间距离,使用贪心策略获得实体对齐结果,其特征在于,所述扩充种子集模块工作步骤如下:步骤一:首先获得联合嵌入实体对齐模块;步骤二:根据嵌入计算所有实体嵌入间的距离,并设置距离阈值来进行筛选;步骤三:实体距离低于阈值的实体对被认为是可信对齐实体,将其加入种子集,更新种子集后再次进行结构嵌入训练,获得新对齐实体;步骤四:迭代进行这一过程,直至迭代后新产生的对齐实体数量小于一个定值m,停止迭代;以及所述联合嵌入实体对齐模块分别对结构、关系和属性进行嵌入,随后将三者联合从而获得实体对齐结果。2.根据权利要求1所述的基于图表示学习的联合嵌入实体对齐系统,其特征在于,所述扩充种子集模块包括距离阈值筛选实体,所述距离阈值筛选实体通过实体间的相似度进行筛选,而实体间的相似度通过实体嵌入间的距离反映,通过设置距离阈值来过滤掉相似度过低的实体。3.根据权利要求2所述的基于图表示学习的联合嵌入实体对齐系统,其特征在于,所述扩充种子集模块包括相互最近实体,所述相互最近实体对于两个实体e1和e2,仅当两个实体互相是距离对方最近的实体,并且实体间的距离小于阈值时,才认为两个实体是对齐的,公式表述如下:式表述如下:D(e1,e2)<θ (3)。4.根据权利要求3所述的基于图表示学习的联合嵌入实体对齐系统,其特征在于,所述扩充种子集模块包括重新初始化,所述重新初始化在每一次迭代完成后,重新初始化所有实体嵌入,并使用上一次迭代后的新的种子集重新开始训练。5.根据权利要求4所述的基于图表示学习的联合嵌入实体对齐系统,其特征在于,所述重...

【专利技术属性】
技术研发人员:包铁王科润彭涛王上
申请(专利权)人:吉林大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1