【技术实现步骤摘要】
一种基于边类型注意力机制的实体对齐方法及装置
[0001]本专利技术属于电力系统大数据处理领域,具体涉及一种基于边类型注意力机制的实体对齐方法及装置。
技术介绍
[0002]在大规模知识库构建的任务中,需要处理大量来自多源知识库的实体数据,它们通常以知识图谱的形式存储在知识库中,如图1所示。因此,在构建知识库之初,首先需建立一个知识融合方法来对多源知识图谱进行融合。由于不同知识库的信息来源不同,以及人工定义及校对的差异,语义上相同的实体在不同的知识库中会有不同的表现形式。具有相同名称的实体也许表示着语义上的同一事物,也许表示着两种事物。因此在知识融合前,需要推断来自不同知识库的不同实体是否指代现实世界中的同一客观对象,即实体对齐任务。如图2所示,在中文电力知识图谱子图中,电阻和金属分别是头实体和尾实体,材料是他们之间的关系,知识图谱实体对齐就是找图中虚线对应实体对,例如电阻对应resistance。
[0003]知识图谱实体对齐的关键是知识图谱嵌入,其思想是学习知识图谱的向量表示(称为嵌入),根据嵌入的相似性找到实体对齐。目前的实体对齐方法,大多都基于TransE(Translate Embedding)模型,把每个三元组(h,r,t)建模为h+r≈t的形式;但是,该方法忽略了结构信息对实体对齐带来的积极影响。后来,基于GCN模型,通过学习邻域的结构信息的嵌入,即汇集邻居信息,从而使得中心节点包含邻域结构特征来得到实体嵌入;这种结构信息的好处在于:如图2所示,实体“电阻器(resistor)”和实体“resi ...
【技术保护点】
【技术特征摘要】
1.一种基于边类型注意力机制的实体对齐方法,包括如下步骤:S1.构建电力知识图谱的类型对偶图;S2.采用属性注意力机制训练步骤S1得到的类型对偶图的节点特征,从而得到类型对偶图中每个节点的嵌入,并使得相同类型关系在训练过程中保持一致;S3.将类型对偶图中的节点转换为知识图谱中关系的注意力系数,并将知识图谱中的节点根据关系注意力系数聚集邻居实体与关系信息,从而得到最终的结构化嵌入结果;S4.根据不同知识图谱中对齐实体嵌入的距离,计算损失函数的值,从而将不同知识图谱中实体进行对齐,得到不同知识图谱中实体对齐的实体对。2.根据权利要求1所述的一种基于边类型注意力机制的实体对齐方法,其特征在于步骤S1所述的构建电力知识图谱的类型对偶图,具体为采用如下步骤构建类型对偶图:给定跨语言知识图谱G1和G2,将原始电力知识图谱表示为G1和G2的融合g
e
=(V
e
,ε
e
),其中节点集合V
e
为G1和G2的实体集合,边集合ε
e
为G1和G2中所有关系的集合;同时,对齐的实体在g
e
中并未连接;g
e
的类型对偶图表示为g
r
,在g
e
中每种类型的边被描述为类型对偶图g
r
中的节点v
r
;同时边r
i
和r
j
在电力知识图谱中共同与一个实体信息连接时,此时对应的类型对偶图g
r
中节点和被边w
ij
连接,且边w
ij
的权重为边r
i
和r
j
共享头实体或尾实体的节点的数量与边r
i
和r
j
连接的头实体或尾实体数量的比值。3.根据权利要求2所述的一种基于边类型注意力机制的实体对齐方法,其特征在于所述的边w
ij
的权重,具体为采用如下公式计算权重w
ij
:式中H
i
为边r
i
在原始图中的头实体的集合,H
j
为边r
j
在原始图中的头实体的集合,T
i
为边r
i
在原始图中的尾实体的集合,T
j
为边r
j
在原始图中的尾实体的集合。4.根据权利要求3所述的一种基于边类型注意力机制的实体对齐方法,其特征在于步骤S2所述的采用属性注意力机制训练步骤S1得到的类型对偶图的节点特征,具体为在类型对偶图中,每个节点通过自注意力机制加权距离邻居节点信息,并采用如下算式计算得到注意力分数从而得到类型对偶图节点i的嵌入从而得到类型对偶图节点i的嵌入从而得到类型对偶图节点i的嵌入式中为和之间的注意力分数;ξ为激活函数Leaky ReLU;为类型对偶图中边权重;a1为用于将输入映射成标量的全连接层;W1为用于训练的权重矩阵且其中d是矩阵的维度;r
i
和r
j
为电力知识图谱中的边;为类型对偶图中节点的邻居集合;
||为将两个向量连接的操作符;σ为激活函数RELU。5.根据权利...
【专利技术属性】
技术研发人员:陈毅波,向行,熊帆,高建良,何智强,陈远扬,田建伟,蒋破荒,黄鑫,杨芳僚,孙毅臻,朱宏宇,祝视,张宇翔,李浩志,
申请(专利权)人:国网湖南省电力有限公司信息通信分公司国家电网有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。