一种基于边类型注意力机制的实体对齐方法及装置制造方法及图纸

技术编号:27210859 阅读:21 留言:0更新日期:2021-01-31 12:47
本发明专利技术公开了一种基于边类型注意力机制的实体对齐方法,包括构建电力知识图谱的类型对偶图;采用属性注意力机制训练类型对偶图的节点特征并得到类型对偶图中每个节点的嵌入;将类型对偶图中的节点转换为知识图谱中关系的注意力系数,并将知识图谱中的节点根据关系注意力系数聚集邻居实体与关系信息,并得到最终的结构化嵌入结果;计算损失函数的值并将不同知识图谱中实体进行对齐,得到不同知识图谱中实体对齐的实体对。本发明专利技术还公开了一种实现所述基于边类型注意力机制的实体对齐方法的装置。本发明专利技术拓宽了关系信息挖掘的思路,挖掘了实体的结构特征,而且精确度高、实用性好且简单可靠。简单可靠。简单可靠。

【技术实现步骤摘要】
一种基于边类型注意力机制的实体对齐方法及装置


[0001]本专利技术属于电力系统大数据处理领域,具体涉及一种基于边类型注意力机制的实体对齐方法及装置。

技术介绍

[0002]在大规模知识库构建的任务中,需要处理大量来自多源知识库的实体数据,它们通常以知识图谱的形式存储在知识库中,如图1所示。因此,在构建知识库之初,首先需建立一个知识融合方法来对多源知识图谱进行融合。由于不同知识库的信息来源不同,以及人工定义及校对的差异,语义上相同的实体在不同的知识库中会有不同的表现形式。具有相同名称的实体也许表示着语义上的同一事物,也许表示着两种事物。因此在知识融合前,需要推断来自不同知识库的不同实体是否指代现实世界中的同一客观对象,即实体对齐任务。如图2所示,在中文电力知识图谱子图中,电阻和金属分别是头实体和尾实体,材料是他们之间的关系,知识图谱实体对齐就是找图中虚线对应实体对,例如电阻对应resistance。
[0003]知识图谱实体对齐的关键是知识图谱嵌入,其思想是学习知识图谱的向量表示(称为嵌入),根据嵌入的相似性找到实体对齐。目前的实体对齐方法,大多都基于TransE(Translate Embedding)模型,把每个三元组(h,r,t)建模为h+r≈t的形式;但是,该方法忽略了结构信息对实体对齐带来的积极影响。后来,基于GCN模型,通过学习邻域的结构信息的嵌入,即汇集邻居信息,从而使得中心节点包含邻域结构特征来得到实体嵌入;这种结构信息的好处在于:如图2所示,实体“电阻器(resistor)”和实体“resistance(电阻)”是从维基百科上获取的对齐实体对,然而,仅从翻译过后的语义信息是无法判断他们是否对齐,因此通过聚集邻居节点,即通过“欧姆”与“ohm”、“金属”与“metal”的对齐来捕获更多关于“电阻器”和“resistance”对齐的证据。
[0004]然而,以上方法存在两个局限:一是无法自动感知关系类型的权重。关系类型权重能强化结构信息,如图2所示,“单位(unit)”这种关系能很好地表示实体的特征,例如“resistance(电阻)”的单位是“ohm(欧姆)”,ohm可以作为电阻的主要特征,因此在邻居聚集时应该赋予更高的权重,这个权重由关系“unit(单位)”表示。而以往的方法将邻居节点同等对待,因此不能感知关系的权重,也不能保证同类型的关系在训练过程中的一致性。二是关系属性没有得到充分的利用,对齐的节点对周围的关系也存在对齐,有效利用关系属性信息可以获得更好的实体嵌入,例如在图2中,中文实体电阻器相连的关系种类、单位、材料,与英文实体resistance相连的关系type(种类)、unit(单位)、material(材料)是对齐的。
[0005]综上所述,当前的知识图谱实体对齐方法忽略了关系类型信息在实体对齐方面的作用。

技术实现思路

[0006]本专利技术的目的之一在于提供一种精确度高、实用性好且简单可靠的基于边类型注
意力机制的实体对齐方法。
[0007]本专利技术的目的之二在于提供一种实现所述基于边类型注意力机制的实体对齐方法的装置。
[0008]本专利技术提供的这种基于边类型注意力机制的实体对齐方法,包括如下步骤:
[0009]S1.以电力知识图谱实体对齐为例,构建电力知识图谱的类型对偶图;
[0010]S2.采用属性注意力机制训练步骤S1得到的类型对偶图的节点特征,从而得到类型对偶图中每个节点的嵌入,并使得相同类型关系在训练过程中保持一致;
[0011]S3.将类型对偶图中的节点转换为知识图谱中关系的注意力系数,并将知识图谱中的节点根据关系注意力系数聚集邻居实体与关系信息,从而得到最终的结构化嵌入结果;
[0012]S4.根据不同知识图谱中对齐实体嵌入的距离,计算损失函数的值,从而将不同知识图谱中实体进行对齐,得到不同知识图谱中实体对齐的实体对。
[0013]步骤S1所述的构建电力知识图谱的类型对偶图,具体为采用如下步骤构建类型对偶图:
[0014]给定跨语言知识图谱G1和G2,将原始电力知识图谱表示为G1和G2的融合g
e
=(V
e

e
),其中节点集合V
e
为G1和G2的实体集合,边集合ε
e
为G1和G2中所有关系的集合;同时,对齐的实体在g
e
中并未连接;g
e
的类型对偶图表示为g
r
,在g
e
中每种类型的边被描述为类型对偶图g
r
中的节点v
r
;同时边r
i
和r
j
在电力知识图谱中共同与一个实体信息连接时,此时对应的类型对偶图g
r
中节点和被边w
ij
连接,且边w
ij
的权重为边r
i
和r
j
共享头实体或尾实体的节点的数量与边r
i
和r
j
连接的头实体或尾实体数量的比值。
[0015]所述的边w
ij
的权重,具体为采用如下公式计算权重w
ij

[0016][0017]式中H
i
为边r
i
在原始图中的头实体的集合,H
j
为边r
j
在原始图中的头实体的集合,T
i
为边r
i
在原始图中的尾实体的集合,T
j
为边r
j
在原始图中的尾实体的集合。
[0018]步骤S2所述的采用属性注意力机制训练步骤S1得到的类型对偶图的节点特征,具体为在类型对偶图中,每个节点通过自注意力机制加权距离邻居节点信息,并采用如下算式计算得到注意力分数从而得到类型对偶图中节点i的嵌入
[0019][0020][0021]式中为和之间的注意力分数;ξ为激活函数Leaky ReLU;为类型对偶图中边权重;a1为用于将输入映射成标量的全连接层;W1为用于训练的权重矩阵且
其中d是矩阵的维度;r
i
和r
j
为电力知识图谱中的边;为类型对偶图中节点的邻居集合;||为将两个向量连接的操作符;σ为激活函数RELU。
[0022]步骤S3所述的将类型对偶图中的节点转换为知识图谱中关系的注意力系数,并将知识图谱中的节点根据关系注意力系数聚集邻居实体与关系信息,从而得到最终的结构化嵌入结果,具体为采用如下步骤得到最终的结构化嵌入结果:
[0023]A.采用如下算式,将关系嵌入映射到权重系数:
[0024][0025]式中为得到的与节点q连接的关系i的权重系数;ξ为激活函数Leaky ReLU,a2为全连接层,为类型对偶图中节点j的嵌入,即关系j的嵌入;为节点q的邻居关系的集合;
[0026]B.根据步骤A得到的权重系数,采用如下算式本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于边类型注意力机制的实体对齐方法,包括如下步骤:S1.构建电力知识图谱的类型对偶图;S2.采用属性注意力机制训练步骤S1得到的类型对偶图的节点特征,从而得到类型对偶图中每个节点的嵌入,并使得相同类型关系在训练过程中保持一致;S3.将类型对偶图中的节点转换为知识图谱中关系的注意力系数,并将知识图谱中的节点根据关系注意力系数聚集邻居实体与关系信息,从而得到最终的结构化嵌入结果;S4.根据不同知识图谱中对齐实体嵌入的距离,计算损失函数的值,从而将不同知识图谱中实体进行对齐,得到不同知识图谱中实体对齐的实体对。2.根据权利要求1所述的一种基于边类型注意力机制的实体对齐方法,其特征在于步骤S1所述的构建电力知识图谱的类型对偶图,具体为采用如下步骤构建类型对偶图:给定跨语言知识图谱G1和G2,将原始电力知识图谱表示为G1和G2的融合g
e
=(V
e

e
),其中节点集合V
e
为G1和G2的实体集合,边集合ε
e
为G1和G2中所有关系的集合;同时,对齐的实体在g
e
中并未连接;g
e
的类型对偶图表示为g
r
,在g
e
中每种类型的边被描述为类型对偶图g
r
中的节点v
r
;同时边r
i
和r
j
在电力知识图谱中共同与一个实体信息连接时,此时对应的类型对偶图g
r
中节点和被边w
ij
连接,且边w
ij
的权重为边r
i
和r
j
共享头实体或尾实体的节点的数量与边r
i
和r
j
连接的头实体或尾实体数量的比值。3.根据权利要求2所述的一种基于边类型注意力机制的实体对齐方法,其特征在于所述的边w
ij
的权重,具体为采用如下公式计算权重w
ij
:式中H
i
为边r
i
在原始图中的头实体的集合,H
j
为边r
j
在原始图中的头实体的集合,T
i
为边r
i
在原始图中的尾实体的集合,T
j
为边r
j
在原始图中的尾实体的集合。4.根据权利要求3所述的一种基于边类型注意力机制的实体对齐方法,其特征在于步骤S2所述的采用属性注意力机制训练步骤S1得到的类型对偶图的节点特征,具体为在类型对偶图中,每个节点通过自注意力机制加权距离邻居节点信息,并采用如下算式计算得到注意力分数从而得到类型对偶图节点i的嵌入从而得到类型对偶图节点i的嵌入从而得到类型对偶图节点i的嵌入式中为和之间的注意力分数;ξ为激活函数Leaky ReLU;为类型对偶图中边权重;a1为用于将输入映射成标量的全连接层;W1为用于训练的权重矩阵且其中d是矩阵的维度;r
i
和r
j
为电力知识图谱中的边;为类型对偶图中节点的邻居集合;
||为将两个向量连接的操作符;σ为激活函数RELU。5.根据权利...

【专利技术属性】
技术研发人员:陈毅波向行熊帆高建良何智强陈远扬田建伟蒋破荒黄鑫杨芳僚孙毅臻朱宏宇祝视张宇翔李浩志
申请(专利权)人:国网湖南省电力有限公司信息通信分公司国家电网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1