一种结构与属性注意力机制的实体对齐方法技术

技术编号：40104298 阅读：8 留言：0更新日期：2024-01-23 18:10

本申请公开了一种结构与属性注意力机制的实体对齐方法。具体来说，图谱信息按照属性三元组和关系三元组划分，利用关系三元组形成结构通道模块初始数据，同时利用关系和属性三元组形成属性通道模块初始数据，分别搭建网络模型，得到增强实体表示；构建图谱预对齐模块，分别对属性通道和结构通道表示到一个统一的向量空间，基于属性通道和基于结构通道实体对齐，实现图谱预对齐；构建双通道特征融合模块，利用所述双通道特征融合模块确定两个通道的权重比对于最终实体对齐效果的影响，实现实体对齐。解决大多实体对齐方法基于图嵌入实现，通过考虑结构和属性信息进行对齐，但并未很好地处理交互以及知识图谱的异构性导致实体对齐效果不佳的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及一种实体对齐的方法，具体涉及一种结构与属性注意力机制的实体对齐方法。

技术介绍

1、由于知识图谱具有语义表示和推理等功能，因此近年来其相关技术快速发展，出现了大量的知识图谱。不同图谱通常会包含许多互补信息，将这些图谱进行融合有助于提高对知识的利用率。然而不同来源的知识图谱之间存在着异构性、不完整性和数据冗余等问题。因此需要利用知识融合技术，对图谱中冗余信息进行对齐、合并，形成全局统一的知识表示和关联。实体对齐(entity alignment，ea)是知识融合过程中关键技术，旨在关联不同来源知识图谱中指向真实世界同一对象的等价/匹配实体。

2、早期，研究人员使用字符串的各种特征进行实体对齐。近年来随着知识表示学习技术的快速发展，研究人员提出许多基于表示学习的实体对齐方法，利用机器学习技术将图谱数据表示为低维稠密的向量，通过向量之间的距离来反映对象之间的语义关系。以transe为代表的翻译模型，对于每个三元组(h，r，t)，将关系看作头尾实体的连接，并且关系存在方向，来学习实体的向量表示，该方法孤立学习每个三元组，无法感知更多的全局信息。随着深度学习的兴起，研究人员开始利用图神经网络(graph neural networks，gnn)的方式来学习实体的向量表示，通过学习图谱中的结构信息和节点本身的属性信息进行实体对齐，但是目前基于图神经网络实现实体对齐的模型仍然存在着：由于不同的知识图谱具有结构异质性，图谱间等价的实体通常具有不同的邻域信息，导致实体对齐效果不佳的问题。

技术实现思路

1、本申请针对现有技术中由于不同的知识图谱具有结构异质性，图谱间等价的实体通常具有不同的邻域信息，导致实体对齐效果不佳的问题，提供一种结构与属性注意力机制的实体对齐方法，具体技术方案如下：

2、在本申请提供一种结构与属性注意力机制的实体对齐方法，包括：

3、步骤s1：对图谱数据进行划分，形成属性通道模块和结构通道模块的初始数据；

4、步骤s2：所述属性通道模块和所述结构通道模块分别搭建网络模型，得到增强实体特征；

5、步骤s3：构建图谱预对齐模块，分别将属性通道和结构通道表示到一个相同的向量空间，分别实现属性通道和结构通道实体对齐，实现图谱预对齐；

6、步骤s4：构建双通道特征融合模块，利用所述双通道特征融合模块确定两个通道的权重比对于最终实体对齐效果的影响，实现最终实体对齐。

7、进一步的，所述步骤s1中所述属性通道模块和所述结构通道模块通过给定源知识图谱gs、目标知识图谱gt和实体对齐种子对的集合，按照属性三元组和关系三元组对图谱中信息进行划分得到，对两个通道搭建不同的网络模型从而学习图谱中不同维度的信息。

8、进一步的，所述步骤s2具体包括：

9、s21：对结构通道模块的处理；

10、s22：对属性通道模块的处理；

11、其中所述步骤s21具体包括：

12、步骤s211：由于实体名称在进行实体对齐时是重要的信息，使用预训练的词嵌入模型对实体的语义信息进行编码，从而使得模型参数不再是随机初始化，减少模型训练成本。bert模型在大规模的多语言数据集上进行训练，已经捕捉了大规模文本数据中的语言特征，能够得到较好的初始实体特征表示，因此本申请利用bert模型实现对实体名称信息编码得到初始实体特征表示h∈rn×m，其中n表示实体数量，m表示实体嵌入维度，

13、步骤s212：由于一阶邻域相较于远距离邻居有着更小的异构性，不需要利用注意力机制对一阶邻域信息进行聚合，因此采用均值聚合器方式实现一阶邻域信息聚合，公式为：其中l表示网络的层数，同时也表示每个顶点能够聚合的邻接点的跳数，表示顶点为e的第l层的嵌入表示，表示顶点为e的第l-1层的嵌入表示，表示顶点为e的邻居顶点j的第l-1层的嵌入表示，n(e)表示顶点为e的全部邻居节点，mean(·)表示均值向量，实现将目标顶点和邻居顶点的第l-1层向量拼接，然后对向量的每个维度进行求均值的操作，wl表示第l层可学习的权重；

14、步骤s213：由于实体的特征表示不仅包括其自身的属性信息，还涉及到实体之间的关系，这些关系反应了实体之间的特殊作用，因此需要考虑关系的重要性并对关系进行权重学习，以获得更加丰富和准确的节点特征表示，

15、首先将实体特征映射到关系特征空间，利用注意力机制分别计算关系在头实体和尾实体作用下的表示，通过相加获得关系特征表示，其对应的数学公式如下所示：

16、

17、

18、

19、其中表示关系rl在头实体ei和尾实体ej作用下的注意力系数，exp表示以自然常数e为底的指数函数，β1是用于降维的向量，hi和hj表示头尾实体初始特征，h表示关系连接的头实体集合，t表示关系连接的尾实体集合，i′表示关系连接的任意头实体，j′表示关系连接的任意尾实体，wi和wj表示可学习参数，hi表示顶点为i的嵌入表示，表示头实体作用下的关系表示，表示尾实体作用下的关系表示，rl表示将头实体作用下的关系表示和尾实体作用下的关系表示对应位置相加的最终关系表示。

20、通过上述操作得到关系特征表示rl，接下来需要将获取的关系特征表示聚合到节点特征上，首先将初始实体特征h根据头节点索引和尾节点索引获取头节点特征x_h和尾节点特征x_t，通过如下公式获取实体特征表示x：x＝[x_h；x_t；rl]

21、接下来通过线性变化将x映射为注意力权重张量，并对注意力权重利用softmax激活函数得到注意系数α，其对应数学公式所示：其中αi表示顶点为i的注意系数，exp表示以自然常数e为底的指数函数，w表示可以学习的权重，xi表示顶点为i的特征表示，b表示神经元的偏置，n表示图谱中所有的顶点集合；

22、根据获取的注意力系数对实体特征进行加权聚合操作，对应数学公式如下：其中aggre表示聚合后的特征向量，hi表示输入的初始实体特征，αi为求得到的注意力系数，然后将该特征向量加入到原始实体特征向量h上得到聚合关系信息的实体特征向量hr，对应公式如：hr＝aggre+h；

23、然后将经过均值聚合器处理的一阶邻居信息和经过关系信息聚合的向量进行拼接，获得公式所示实体特征表示：he_r＝[he；hr]，其中he表示经过均值聚合器聚合的一阶邻域信息，hr通过关系聚合的信息；

24、步骤s214：为了避免误差累积，采用highway networks网络来平衡自身节点特征和一阶邻域关系信息，其对应的公式如下：hhighway＝gate·he_r+(1-gate)·h，其中he_r是进行向量拼接的一阶邻域关系信息，h表示输入的初始实体特征，gate对应的公式如：gate＝σ(h·w+b)，其中σ表示sigmoid激活函数，w为可学习的权重，b表示偏置；

25、步骤s215：为了实现对更多异构信息的考虑，使得实体特征融合本文档来自技高网...

【技术保护点】

1.一种结构与属性注意力机制的实体对齐方法，其特征在于，包括：

2.如权利要求1所述的一种结构与属性注意力机制的实体对齐方法，其特征在于，所述步骤S1中所述属性通道模块和所述结构通道模块通过给定源知识图谱、目标知识图谱和实体对齐种子对的集合，按照属性三元组和关系三元组对图谱中信息进行划分得到，对两个通道搭建不同的网络模型从而学习图谱中不同维度的信息。

3.如权利要求2所述的一种结构与属性注意力机制的实体对齐方法，其特征在于：所述步骤S2具体包括：

4.如权利要求3所述的一种结构与属性注意力机制的实体对齐方法，其特征在于，所述步骤S22中，由于对于同一个节点特征而言，不同的属性信息具有不同的权重，因此在完成属性类型和属性值的嵌入表示后，采用属性注意力来捕获实体不同属性的权重系数，学习实体嵌入表示，其计算公式为：

5.如权利要求4所述的一种结构与属性注意力机制的实体对齐方法，其特征在于，所述步骤S3中，图谱预对齐通过减少种子等价实体对之间的距离，从而将每个通道的两个子图表示到一个统一的向量空间，对于每个通道的预对齐，对齐损失函数为：p>

6.如权利要求5所述的一种结构与属性注意力机制的实体对齐方法，其特征在于，所述步骤S4中，由于从属性和结构通道中分别学习到图谱中不同的信息，需要将不同通道进行聚合，确定不同通道所占权重比对于最终实体对齐效果的影响，这里将权重信息的学习考虑成二分类问题，具体为标签0表示不对齐，标签1表示对齐，采用BCEWithLogitsLoss作为损失函数，其数学表达式为：

...

【技术特征摘要】

1.一种结构与属性注意力机制的实体对齐方法，其特征在于，包括：

2.如权利要求1所述的一种结构与属性注意力机制的实体对齐方法，其特征在于，所述步骤s1中所述属性通道模块和所述结构通道模块通过给定源知识图谱、目标知识图谱和实体对齐种子对的集合，按照属性三元组和关系三元组对图谱中信息进行划分得到，对两个通道搭建不同的网络模型从而学习图谱中不同维度的信息。

3.如权利要求2所述的一种结构与属性注意力机制的实体对齐方法，其特征在于：所述步骤s2具体包括：

4.如权利要求3所述的一种结构与属性注意力机制的实体对齐方法，其特征在于，所述步骤s22中，由于对于同一个节点特征而言，不同的属性信息具有不同的权重，因此在完成属性类型和属性值的嵌入表示后，采用...

【专利技术属性】
技术研发人员：李忠阳，王淑营，丁国富，张海柱，蒋敏，
申请(专利权)人：西南交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人