一种面向邻居实体层次信息聚合的知识表示学习方法技术

技术编号:38986353 阅读:6 留言:0更新日期:2023-10-07 10:17
本发明专利技术公开了一种面向邻居实体层次信息聚合的知识表示学习方法。首先,对中心目标实体周围不同层次的结构特征进行区分和度量。其次,针对星型结构利用图注意力网络对一跳邻居实体进行信息聚合。接着,针对三角形结构利用关系路径编码对多跳邻居实体进行信息聚合。然后,对所得到的关于中心实体的表示向量进行特征融合,制定损失函数并进行模型训练。最后,设计解码器convKB对上一步得到的特征向量训练和学习。现有方法未对中心目标实体周围的不同层次的结构特征进行区分和度量,导致中心目标实体与关系的表示结果产生过平滑性现象,实体链接预测效果较低。链接预测效果较低。链接预测效果较低。

【技术实现步骤摘要】
一种面向邻居实体层次信息聚合的知识表示学习方法


[0001]本专利技术适用于知识图谱中的知识表示学习领域,具体涉及了一种基于邻居实体在不同层次结构进行信息聚合的知识表示学习方法。

技术介绍

[0002]知识图谱(Knowledge Graphs,KGs)作为一种结构化知识形式,是各种常识性知识的流行载体,也是许多最先进的自然语言处理解决方案的核心,近年来引起学术界与业界的广泛关注。知识图谱对不同来源的知识进行融合,增强了数据之间的关联,将知识工程“自上而下”方式转变为挖掘数据、抽取知识的“自下而上”方式。经过长期的理论创新与实践探索,知识图谱已经具备体系化的构建与推理方法,并广泛应用于人机问答交互中。借助知识图谱技术,比如基于语义解析、基于图匹配、基于模式学习、基于表示学习和基于深度学习的知识图谱模型,用户可以更直观地对数据进行分析,也可以用于辅助进行数据分析与决策。
[0003]知识表示学习是一种对知识图谱的描述方式,利用信息技术将图谱中的海量信息转化为符合计算机处理模式的结构化数据,其目标在于将知识图谱的语义信息表示为稠密低维实值向量。知识表示学习将高频对象的语义信息用于低频对象的语义表示,有效的缓解了数据稀疏问题,显著的提升了计算效率以及低频对象语义表示的精确性,达到了融合异构信息的目的,在知识推理、多源知识整合、智能问答、信息检索、系统推荐等任务中发挥了必不可少的枢纽作用。
[0004]知识表示学习目前存在的问题在于:传统的知识表示方法,如早期专家系统时代的知识表示方法都是以符号逻辑为基础进行知识表示,其特点是易于刻画离散、显性的知识,具有较好的可解释性。但仍有许多不能用符号来刻画的连续、隐形的知识,在表示过程中失去鲁棒性,从而在下游任务中难以达到预期效果。尤为重要的是,现如今大多数知识表示模型未能对中心目标实体周围不同层次的结构特征进行区分和度量,降低了知识表示的准确性和完备性,影响了知识表示模型的表征能力。

技术实现思路

[0005]本专利技术所解决的技术问题是目前知识表示学习方法缺少对中心目标实体周围的不同层次的结构特征进行区分和度量,导致中心目标实体与关系的表示结果出现过平滑现象、实体链接预测准确性较低这一问题。
[0006]本专利技术解决上述技术问题的技术如下:
[0007]一种面向邻居实体层次信息聚合的知识表示学习方法EHRL(Entity Hierarchical Representation Learning)。具体包括以下步骤:
[0008]步骤1:中心目标实体周围不同层次的结构特征的区分和度量。
[0009]步骤2:针对星型结构利用图注意力网络对一跳邻居实体进行信息聚合。
[0010]步骤3:针对三角形结构利用关系路径编码对多跳邻居实体进行信息聚合。
[0011]步骤4:对步骤2与步骤3中的所得到的关于中心实体的表示向量进行特征融合。
[0012]步骤5:制定损失函数并进行模型训练。
[0013]步骤6:设计解码器convKB对步骤5得到的特征向量进行训练和学习。
[0014]进一步的,所述步骤1中心目标实体周围不同层次的结构特征的区分和度量具体为:定义了中心目标实体周围的三角形结构和星形结构。
[0015]步骤1.1定义知识图谱中的三角形结构。
[0016]知识图谱是由知识三元组组成,其形式为(h,r,t),其中h为头实体,r为关系,t为尾实体。假设知识图谱中存在三元组(h1,r1,t1)、(h2,r2,t2)和(h3,r3,t3),如果满足h1=t3、h3=t2、h2=t1,则知识图谱中存在三角形结构,顶点分别为h1、h2、h3,边分别为r1、r2、r3。
[0017]三角形结构中,任意两个实体之间均存在两种路径。以实体h1和h2为例,h1和h2之间分别存在一跳路径p1(h1,h2)=r1和二跳路径p2(h1,h2)=(r2,r3)。其中,p1(h1,h2)=r1表示以h1为路径起始点,h2为路径终点,以r1为关系的一跳路径,p2(h1,h2)=(r2,r3)表示以h1为路径起始点,h2为路径终点,以r2和r3为关系的二跳路径。后面将以这两种路径为训练对象,学习中心实体的表示向量。
[0018]步骤1.2定义知识图谱中的星形结构。
[0019]假设知识图谱中存在三元组(h1,r1,t1)、(h2,r2,t2)和(h3,r3,t3),如果满足h1=h2=h3、则知识图谱中存在星形结构,h1、h2、h3同时构成星形结构的中心节点,t1、t2、t3分别构成星形结构的邻居节点。
[0020]进一步的,所述步骤2针对星型结构利用图注意力网络对一跳邻居实体进行信息聚合具体为以下步骤:
[0021]步骤2.1定义中心目标实体的一跳邻居实体三元组集合。
[0022]令h
i
代表目标中心实体,N(h
i
)代表h
i
的一跳邻居实体三元组集合,则有:
[0023]N(h
i
)={(h
i
,r
ij
,t
j
)|r
ij
∈R,h
i
∈E,(h
i
,r
ij
,t
j
)∈F}
ꢀꢀꢀ
(1)
[0024]式(1)中R、E、F分别表示关系集合、实体集合以及三元组集合,r
ij
代表目标中心实体h
i
与其尾实体t
j
之间的关系。
[0025]步骤2.2构建N(h
i
)中三元组(h
i
,r
ij
,t
j
)的向量表示。
[0026]将目标中心实体h
i
、h
i
的一跳邻居尾实体t
j
以及h
i
与t
j
之间的关系向量r
ij
进行拼接,并通过全连接层的线性变换来计算三元组的向量表示。令T
ij
代表目标中心实体h
i
和尾实体t
j
的三元组向量表示,则有
[0027][0028]式(2)中
“⊕”
符号表示向量拼接。向量和分别表示实体h
i
、t
j
和关系r
ij
经过one

hot编码后得到的初始向量表示。W1表示线性变换矩阵。
[0029]步骤2.3重构中心目标实体h
i
的表示向量。
[0030]使用LeakyRule()作为激活函数,得到处于一跳邻域内的三元组的绝对注意力权重其表示为:
[0031][0032]式(3)中,W2是线性变换矩阵。重构后的中心目标实体向量h

i
表示为:
[0033][本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向邻居实体层次信息聚合的知识表示学习方法,其特征在于利用目标实体周围邻居实体的层次结构做信息聚合完成对目标实体的向量表示,所述知识表示学习方法包括以下步骤:步骤1:中心目标实体周围不同层次的结构特征的区分和度量;步骤2:针对星型结构利用图注意力网络对一跳邻居实体进行信息聚合;步骤3:针对三角形结构利用关系路径编码对多跳邻居实体进行信息聚合;步骤4:对步骤2与步骤3中的所得到的关于中心实体的表示向量进行特征融合;步骤5:制定损失函数并进行模型训练;步骤6:设计解码器convKB对步骤5得到的特征向量进行训练和学习。2.根据权利要求1所述的一种面向邻居实体层次结构聚合信息的知识表示学习方法,其特征在于,所述步骤1中心目标实体周围不同层次的结构特征的区分和度量具体为:定义了中心目标实体周围的三角形结构和星形结构。步骤1.1定义知识图谱中的三角形结构。知识图谱是由知识三元组组成,其形式为(h,r,t),其中h为头实体,r为关系,t为尾实体;假设知识图谱中存在三元组(h1,r1,t1)、(h2,r2,t2)和(h3,r3,t3),如果满足h1=t3、h3=t2、h2=t1,则知识图谱中存在三角形结构,顶点分别为h1、h2、h3,边分别为r1、r2、r3。三角形结构中,任意两个实体之间均存在两种路径;以实体h1和h2为例,h1和h2之间分别存在一跳路径p1(h1,h2)=r1和二跳路径p2(h1,h2)=(r2,r3);其中,p1(h1,h2)=r1表示以h1为路径起始点,h2为路径终点,以r1为关系的一跳路径,p2(h1,h2)=(r2,r3)表示以h1为路径起始点,h2为路径终点,以r2和r3为关系的二跳路径;后面将以这两种路径为训练对象,学习中心实体的表示向量。步骤1.2定义知识图谱中的星形结构。假设知识图谱中存在三元组(h1,r1,t1)、(h2,r2,t2)和(h3,r3,t3),如果满足h1=h2=h3、则知识图谱中存在星形结构,h1、h2、h3同时构成星形结构的中心节点,t1、t2、t3分别构成星形结构的邻居节点。3.根据权利要求1所述的一种面向邻居实体层次结构聚合信息的知识表示学习方法,其特征在于,所述步骤2针对星型结构利用图注意力网络对一跳邻居实体进行信息聚合具体为以下步骤:步骤2.1定义中心目标实体的一跳邻居实体三元组集合。令h
i
代表目标中心实体,N(h
i
)代表h
i
的一跳邻居实体三元组集合,则有:N(h
i
)={(h
i
,r
ij
,t
j
)∣r
ij
∈R,h
i
∈E,(h
i
,r
ij
,t
j
)∈F}
ꢀꢀꢀꢀꢀꢀꢀꢀ
(1)式(1)中R、E、F分别表示关系集合、实体集合以及三元组集合,r
ij
代表目标中心实体h
i
与其尾实体t
j
之间的关系。步骤2.2构建N(h
i
)中三元组(h
i
,r
ij
,t
j
)的向量表示。将目标中心实体h
i
、h
i
的一跳邻居尾实体t
j
以及h
i
与t
j
之间的关系向量r
ij
进行拼接,并通过全连接层的线性变换来计算三元组的向量表示;令T
ij
代表目标中心实体h
i
和尾实体t
j
的三元组向量表示,则有:
式(2)中
“⊕”
符号表示向量拼接;向量和分别表示实体h
i
、t
j
和关系r
ij
经过one

hot编码后得到的初始向量表示;W1表示线性变换矩阵。步骤2.3重构中心目标实体h
i
的表示向量。使用LeakyRule()作为激活函数,得到处于一跳邻域内的三元组的绝对注意力权重其表示为:式(3)中,W2是线性变换矩阵;重构后的中心目标实体向量h

i
表示为:式(4)中σ()表示激活函数。模型使用N头注意力机制,可同时计算N个注意力并取N个注意力头所得到的结果的均值作为最终结果,达到稳定学习过程的效果,采用了N头注意力机制的中心目标实体向量如式(5)所示。式(5)中,以及分别表示由N个注意力头得到的注意力权重以及三元组向量表示。4.根据权利要求1所述的一种面向邻居实体层次结构聚合信息的知识表示学习方法,其特征在于,所述的步骤3针对三角形结构利用关系路径编码对多跳邻居实体进行信息聚合具体为:步骤3.1筛选中心目标实体h
i
邻域内呈三角型结构的邻居实体集合。首先,将三角形结构拆分为一跳路径p1(h
i
,t
j
)=(r1)||(r2)||(r3)以及二跳路径p2(h
i
,t
j
)=(r2,r3)||(r1,r2)||(r1,r3);然后,计算二跳路径的内聚性函数β(h
i
,h
j
),并保留包含二跳路径内聚性大于0.01的三角形结构;三角形结构内任意两顶点h
i
和h
j
的内聚性函数如式(6)所示。β(h
i
,h
j
)=D(h
i
)D(t
j
),t
j
∈N(h
i
)∩N(h...

【专利技术属性】
技术研发人员:杨海陆孔德龙张金张庆财李骜陈晨王莉莉
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1