一种融合多维度多信息的实体对齐方法技术

技术编号:33657301 阅读:10 留言:0更新日期:2022-06-02 20:37
一种融合多维度多信息的实体对齐方法,包括以下步骤:将两个异构知识图谱同时作为输入;根据邻域结点对中心结点的重要程度实现下采样;将实体作为中心结点利用图卷积网络获得的嵌入表示同实现下采样后包含重要邻居信息的表示融合;通过余弦相似度计算源实体与区域内的这些目标实体的相似度,加权求和相似矩阵、、和,得到最终跨图的实体对齐得分表。本发明专利技术的方法结合结果层和表示层的实体相似度,实现了利用多维度结果加权拼接的方式解决实体对齐问题。本发明专利技术的方法融合实体的多方面信息,即实体名称、属性和实体描述,分别从语义级、词语级、句子级定义实体相似度度量方法,有效判别实体是否对齐。有效判别实体是否对齐。有效判别实体是否对齐。

【技术实现步骤摘要】
一种融合多维度多信息的实体对齐方法


[0001]本专利技术涉及信息
,尤其涉及知识图谱构建,特别是一种融合多维度多信息的实体对齐方法。

技术介绍

[0002]知识图谱作为人工智能领域的知识支柱,以其强大的知识表示和推理能力受到学术界和产业界的广泛关注。当前存在大批知识图谱(knowledge graph,KG),诸如YAGO,DBpedia,以及CN

DBpedia等,这些大规模知识图谱在许多智能服务起到重要作用。另外,为了满足特定领域的需求衍生出了越来越多的领域知识图谱,如医疗知识图谱、金融知识图谱等。然而这些图谱在构建的时候都需要在覆盖率和正确率间作出权衡,故几乎都无法避免存在完整性缺失问题。
[0003]为了弥补单个KG的不足,需要对KG进行融合,其中实体对齐(Entity Alignment,EA)是知识融合的重要内容,即将不同知识图谱中指代现实世界中同一对象的实体匹配起来,从而为后续的知识补全和知识预测提供基础和支撑。
[0004]目前,大多数实体对齐方法主要借助KG的结构特征判断两实体是否指向同一事物,以及一些研究还把实体间的关系考虑进来,也有研究者将实体名称信息作为监督信号提高实体的嵌入表示。上述方法假设不同KG中表达同一含义的实体具有类似的邻接结构,在人工构建的数据集上取得较好结果,然而真实世界中的知识图谱会更稀疏,这类方法的效果会被削弱。

技术实现思路

[0005]本专利技术的目的在于提供一种融合多维度多信息的实体对齐方法,所述的这种融合多维度多信息的实体对齐方法要解决现有技术中知识图谱的完整性缺失的的技术问题。
[0006]本专利技术的一种融合多维度多信息的实体对齐方法,包括以下步骤:
[0007]步骤1,将两个异构知识图谱同时作为输入,使用平均词向量初始化的多层图卷积网络,捕获包含语义信息和拓扑信息的实体结点初始嵌入表示;
[0008]步骤2,在步骤1的基础上根据邻域结点对中心结点的重要程度实现下采样,认为对于中心结点而言,邻域结点在上下文出现频率越高对中心结点贡献度越高;
[0009]步骤3,将实体作为中心结点利用图卷积网络获得的嵌入表示同实现下采样后包含重要邻居信息的表示融合;
[0010]步骤4,为了保证匹配的可靠性并减小计算成本的同时,为每个源实体选择可能的候选匹配域,基于前面步骤获得的实体向量表示,通过余弦相似度计算源实体e
i
与区域内的这些目标实体的相似度,取候选域中最大值的目标实体向量表示,则得到表示层相似矩阵M
z
,该矩阵为稀疏矩阵,其中矩阵的行表示源实体,列表示目标实体,矩阵的数值表示相似度大小;
[0011]步骤5,对于实现语义级分析,采用BERT实预训练实体名称得到词向量,根据词向
量计算得到实体语义名称向量,从而计算得到源实体和目标实体两两之间的余弦相似度矩阵M
s

[0012]步骤6,考虑到操作上的简便,选用Levenshtein距离衡量两个实体名称的字符级相似度,相似矩阵表示为M
l

[0013]步骤7,利用实体描述从句子级判别实体的相似程度;选用Sentence

Transformer实预训练模型,并针对句子定位词语任务训练,利用步骤3中获得的候选匹配域计算获得体描述的句子级相似度矩阵表示,此处矩阵为稀疏矩阵,表示为M
t

[0014]步骤8,加权求和步骤4、5、6和7中获得的相似矩阵M
z
、M
s
、M
l
和M
t
,得到最终跨图的实体对齐得分表。
[0015]进一步的,将两个异构知识图谱同时作为输入,使用平均词向量初始化的两层图卷积网络,捕获包含语义信息和拓扑信息的实体结点初始嵌入表示。
[0016]进一步的,步骤3中将实体作为中心结点利用图卷积网络获得的嵌入表示同实现下采样后包含重要邻居信息的表示融合,计算方式如下:
[0017][0018][0019]其中,为融合邻域信息后实体e
i
的向量表示,h
i
为多层图卷积编码得到的实体e
i
初始向量,g
i
为实体e
i
的下采样邻域结点融合表示,6(.)为激活函数,W为权重值,操作符||表示矩阵拼接。
[0020]进一步的,融合结构信息、语义信息以及点下采样的邻居结点表示,得到表示层结果;对于中心结点而言,邻域结点在上下文出现频率越高对中心结点贡献度越高,根据邻域结点对中心结点的重要程度实现下采样,计算方式如下:
[0021][0022]其中,N
i
表示中心实体e
i
一阶邻居结点集合,h
i
和h
i_j
分别是实体e
i
和e
i_j
的向量表示,e
i_j
代表实体e
i
一阶邻居结点集合中的第j个,W
s
为共享权重;
[0023]在实现跨图谱实体对齐时,为每个源实体选择可能的候选匹配域,计算出源实体e
i
与区域内的这些目标实体的相似度,候选匹配域确定的公式如下:
[0024][0025]其中,E2表示目标KG,h
j
表示E2中实体e
j
的向量表示,h
i
表示源实体e
i
的向量表示,|.|
L1
表示计算L1范式距离。
[0026]进一步的,步骤5采用BERT预训练实体名称得到词向量,根据词向量计算得到实体语义名称向量,从而计算得到源实体和目标实体两两之间的余弦相似度矩阵M
s

[0027]进一步的,步骤6选用Levenshtein距离衡量两个实体字符级的相似度,相似矩阵表示为M
l

[0028]进一步的,步骤7利用实体描述从句子级判别实体的相似程度;选用Sentence

Transformer预训练模型,并针对句子定位词语任务训练,利用步骤4中获得的候选匹配域计算获得实体描述的句子级相似度矩阵表示M
t

[0029]进一步的,加权求和所有获得的相似矩阵,且保证结果层相似度同表示层相似度权重相同,其中结果层包括句子级矩阵M
t
、语义级矩阵M
s
、字符级矩阵M
l
,表示层相似矩阵为M
z
,将其分别赋得有差异权重,具体计算表示如下:
[0030]M=α
·
M
z

·
M
t

·
M
s
+y
·
M
l
[0031]其中,α本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合多维度多信息的实体对齐方法,其特征在于,包括以下步骤:步骤1,将两个异构知识图谱同时作为输入,使用平均词向量初始化的多层图卷积网络,捕获包含语义信息和拓扑信息的实体结点初始嵌入表示;步骤2,在步骤1的基础上根据邻域结点对中心结点的重要程度实现下采样,认为对于中心结点而言,邻域结点在上下文出现频率越高对中心结点贡献度越高;步骤3,将实体作为中心结点利用图卷积网络获得的嵌入表示同实现下采样后包含重要邻居信息的表示融合;步骤4,为了保证匹配的可靠性并减小计算成本的同时,为每个源实体选择可能的候选匹配域,基于前面步骤获得的实体向量表示,通过余弦相似度计算源实体e
i
与区域内的这些目标实体的相似度,取候选域中最大值的目标实体向量表示,则得到表示层相似矩阵M
z
,该矩阵为稀疏矩阵,其中矩阵的行表示源实体,列表示目标实体,矩阵的数值表示相似度大小;步骤5,对于实现语义级分析,采用BERT实预训练实体名称得到词向量,根据词向量计算得到实体语义名称向量,从而计算得到源实体和目标实体两两之间的余弦相似度矩阵M
s
;步骤6,考虑到操作上的简便,选用Levensh距离衡量两个实体名称的字符级相似度,相似矩阵表示为M
l
;步骤7,利用实体描述从句子级判别实体的相似程度;选用Sentence

Transformer实预训练模型,并针对句子定位词语任务训练,利用步骤3中获得的候选匹配域计算获得体描述的句子级相似度矩阵表示,此处矩阵为稀疏矩阵,表示为M
t
;步骤8,加权求和步骤4、5、6和7中获得的相似矩阵M
z
、M
s
、M
l
和M
t
,得到最终跨图的实体对齐得分表。2.根据权利要求1所述的一种融合多维度多信息的实体对齐方法,其特征在于:将两个异构知识图谱同时作为输入,使用平均词向量初始化的两层图卷积网络,捕获包含语义信息和拓扑信息的实体结点初始嵌入表示。3.根据权利要求1所述的一种融合多维度多信息的实体对齐方法,其特征在于,步骤3中将实体作为中心结点利用图卷积网络获得的嵌入表示同实现下采样后包含重要邻居信息的表示融合,计算方式如下:息的表示融合,计算方式如下:其中,为融合邻域信息后实体e
i
的向量表示,h
i
为多层图卷积编码得到的实体e
i
初始向量,g
i
为实体e
i
的下采样邻域结点融合表示,6(.)为激活函数,W为权重值,操作符||表示矩阵拼接。4.根据权利要求3所述的一种融合多维度多信息的实体对齐方法,其特征在于,融合结构信息、语义信息以及点下采样的邻居结点表...

【专利技术属性】
技术研发人员:刘春梅高永彬李菁方志军
申请(专利权)人:上海工程技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1