当前位置: 首页 > 专利查询>海南大学专利>正文

大规模跨语言知识图谱间的无监督实体对齐方法和系统技术方案

技术编号:39654452 阅读:12 留言:0更新日期:2023-12-09 11:23
本发明专利技术公开大规模跨语言知识图谱间的无监督实体对齐方法和系统,属于实体对齐领域

【技术实现步骤摘要】
大规模跨语言知识图谱间的无监督实体对齐方法和系统


[0001]本专利技术属于实体对齐
,更具体地,涉及大规模跨语言知识图谱间的无监督实体对齐方法和系统


技术介绍

[0002]知识图谱以三元组的形式
(
例如,
<
实体1,关系,实体
2>)
存储真实世界的知识,实体至少存在两种及以上的语言表示形式

目前,知识图谱已经广泛应用于信息检索和人工智能等领域,由于不同的知识图谱往往包含着互补的信息,这些互补信息对于提高知识图谱的质量来说有着重要作用,因此,许多研究者致力于知识图谱间对齐任务的研究

实体对齐,是一类找出不同知识图谱中表征同一语义实体的技术,能帮助各知识图谱更好的进行融合,是多知识图谱融合的关键技术之一

[0003]无监督的实体对齐任务一般根据知识图谱的侧信息
(
例如实体邻域

属性和描述等
)
得到一些近似的候选种子集

专利
CN112948597A
公开一种无监督的知识图谱实体对齐方法,利用实体的辅助信息生成文本距离矩阵,利用图卷积网络生成结构距离矩阵

基于文本距离矩阵和结构距离矩阵,进一步融合生成距离矩阵,最后迭代式的完成实体对齐任务

但是,该方法缺乏对知识图谱多视图信息的利用,且语义层面的平均词嵌入方法不能充分表征语义信息/>。
专利
CN115658927A
公开一种面向时序知识图谱的无监督实体对齐方法,首先通过图卷积式前向传递的方式构建特征矩阵,接着采用双向策略来生成实体对齐矩阵,并以匹配的方式来进一步获得预对齐伪标签

然后,将伪标签和时序知识图谱的四元组相结合,来对利用时间信息扩展后的图神经网络进行训练,以得到关系特征矩阵

最后,采用加权融合的方式来融合时间特征矩阵和关系特征矩阵,并通过最小化距离完成实体对齐任务

但是,该方法一定程度忽略了语义信息

此外,侧重时序知识图谱的对齐,即依赖知识图谱的时序信息,存在应用上的局限性


技术实现思路

[0004]针对现有技术的缺陷,本专利技术的目的在于提供大规模跨语言知识图谱间的无监督实体对齐方法和系统,旨在解决现有实体对齐方法需标签数据

模型复杂和对大规模实体对齐任务的适用性问题

[0005]为实现上述目的,第一方面,本专利技术提供了一种大规模跨语言知识图谱间的无监督实体对齐方法,包括:
[0006]提取跨语言知识图谱中各实体的多视图信息,所述跨语言知识图谱包括第一知识图谱和第二知识图谱,所述多视图信息包括:实体名

结构信息和属性信息;
[0007]将各实体的多视图信息输入至预训练的
LLM
模型和基于统计的
N

Gram
模型,分别得到各实体语义层面和字符层面的特征嵌入向量;
[0008]将第一知识图谱实体
A
与第二知识图谱实体
B
对应的语义层面特征嵌入向量中同类型的子向量进行点积,再加权融合各点积值,得到实体
A
与实体
B
的语义相似度值,所有实
体间的语义相似度值构成两个知识谱图间的语义相似度矩阵,字符层面特征嵌入向量按照同样方式进行点积和加权融合,得到两个知识谱图间的字符相似度矩阵;
[0009]融合语义相似度矩阵和字符相似度矩阵,生成两个知识谱图间的对齐矩阵;
[0010]将对齐矩阵中的值降序排列,完成实体对齐

[0011]优选地,还包括:在输入至预训练的
LLM
模型和基于统计的
N

Gram
模型前,通过翻译器处理多视图信息,实现预对齐

[0012]需要说明的是,使用翻译器进行预对齐,能提高对齐准确度,且对齐语言区别越大,效果越好

[0013]优选地,语义层面加权融合和字符层面加权融合的各权重相同

[0014]需要说明的是,这里语义层面加权融合和字符层面加权融合的各权重相同,减少了对齐过程中超参数的数量

[0015]优选地,加权融合时,实体名类型子向量的权重
>
属性信息类型子向量的权重
>
结构信息类型子向量的权重

[0016]需要说明的是,本专利技术优选上述赋值各类型子向量的权重,将实体名信息对实体最具标识性,其次为属性信息

而结构信息,则较为缺乏标识性

[0017]优选地,对齐矩阵采用以下方式生成:
[0018][0019]其中,
S
为对齐矩阵,
S
lf
为语义相似度矩阵,
S
sf
为字符相似度矩阵,
°
为哈达玛积

[0020]需要说明的是,本专利技术优选上述方式生成对齐矩阵

交叉融合的方式,能让语义和字符相似度更好地互补,从而实现语义相似度值较低时更多地考虑字符相似度,反之亦然

[0021]优选地,对齐矩阵采用以下方式生成:
[0022]S

S
lf
+f(S
sf
)
[0023]其中,
S
为对齐矩阵,
S
lf
为语义相似度矩阵,
S
sf
为字符相似度矩阵,
f
为正则化函数

[0024]需要说明的是,本专利技术优选上述方法生成对齐矩阵

以语义相似度为主,将字符相似度作为辅助信息

采用此方法能充分利用实体语义信息,字符信息则可进一步提高对齐准确度

[0025]为实现上述目的,第二方面,本专利技术提供了一种大规模跨语言知识图谱间的无监督实体对齐系统,包括:处理器和存储器;所述存储器,用于存储计算机执行指令;所述处理器,用于执行所述计算机执行指令,使得第一方面所述的方法被执行

[0026]为实现上述目的,第三方面,本专利技术提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序在处理器上运行时,使得所述处理器执行第一方面所述的方法

[0027]总体而言,通过本专利技术所构思的以上技术方案与现有技术相比,具有以下有益效果:
[0028]本专利技术公开大规模跨语言知识图谱间的无监督实体对齐方法和系统,在特征嵌入阶段,本专利技术基于知识图谱的多视图信息,从本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种大规模跨语言知识图谱间的无监督实体对齐方法,其特征在于,包括:提取跨语言知识图谱中各实体的多视图信息,所述跨语言知识图谱包括第一知识图谱和第二知识图谱,所述多视图信息包括:实体名

结构信息和属性信息;将各实体的多视图信息输入至预训练的
LLM
模型和基于统计的
N

Gram
模型,分别得到各实体语义层面和字符层面的特征嵌入向量;将第一知识图谱实体
A
与第二知识图谱实体
B
对应的语义层面特征嵌入向量中同类型的子向量进行点积,再加权融合各点积值,得到实体
A
与实体
B
的语义相似度值,所有实体间的语义相似度值构成两个知识谱图间的语义相似度矩阵,字符层面特征嵌入向量按照同样方式进行点积和加权融合,得到两个知识谱图间的字符相似度矩阵;融合语义相似度矩阵和字符相似度矩阵,生成两个知识谱图间的对齐矩阵;将对齐矩阵中的值降序排列,完成实体对齐
。2.
如权利要求1所述的方法,其特征在于,还包括:在输入至预训练的
LLM
模型和基于统计的
N

Gram
模型前,通过翻译器处理多视图信息,实现预对齐
。3.
如权利要求1所述的方法,其特征在于,语义层面加权融合和字符层面加权融合的各权重相同
。4.
如权利要求1...

【专利技术属性】
技术研发人员:蒋川宇谢夏陈丽君黄小欧
申请(专利权)人:海南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1