一种基于剪枝子图的知识图谱表示方法技术

技术编号:34278485 阅读:20 留言:0更新日期:2022-07-24 17:44
本发明专利技术提供一种基于剪枝子图的知识图谱表示方法,涉及知识图谱领域。该发明专利技术基于剪枝子图的知识图谱表示方法,包括:采用TransE模型学习三元组(e

A representation method of knowledge map based on pruning subgraph

【技术实现步骤摘要】
一种基于剪枝子图的知识图谱表示方法


[0001]本专利技术涉及知识图谱领域,具体为一种基于剪枝子图的知识图谱表示方法。

技术介绍

[0002]知识图谱(knowledge graph,KG)是一种语义网络,它由实体和关系组成,通过三元组(e
h
,r,e
t
)的方式进行表示。自从KG被提出以后,已经有不少的大型KG被构建出来,比较典型的有WordNet、知立方、知心等。这些大型的KG极大方便了人们对知识的查找。然而,由于大型KG采用了三元组(e
h
,r,e
t
)的方式表示知识,导致计算起来较为复杂,给知识检索、知识推理、自动问答等下游任务带来了一定的麻烦。因此,近年来学者们将注意力转向了知识表示学习,希望通过知识表示学习来解决KG面临的问题。知识表示学习的目标,是在保存知识图谱中的关键信息的前提下,将知识图谱中的实体和关系都表示为稠密的低维实值向量,以便深度学习对其进行下一步的处理。
[0003]最近,图注意力网络GAT(Graph Attention Network)作为一种新的在图数据上进行深度学习的方法,成为研究者们关注的一个新的热点。GAT在多项图数据的处理任务中取得了当前最好的性能。受此激发,有一些研究工作开始尝试利用GAT来对知识图谱进行表示学习。GAT将实体当作节点,将关系当作边来构造一个图来进行图运算。然而,用GAT来进行知识图谱表示主要存在两个问题:(1)GAT中的注意力主要基于实体内容之间的相似度计算,即GAT仅考虑实体的一阶邻域,而高阶邻域实体在很大程度上仍然没有被使用。(2)当GAT使用更高阶的邻域(间接邻居实体)来进行训练时,GAT的性能骤然下降。GAT表示学习性能下降的原因,很大程度上是由GAT本身存在的过平滑性(over

smoothing)造成的。
[0004]因此,我们提出一种基于剪枝子图的知识图谱表示方法,以便于解决上述中提出的问题。

技术实现思路

[0005](一)解决的技术问题
[0006]针对现有技术的不足,本专利技术提供了一种基于剪枝子图采样的知识图谱表示方法,解决以下问题:(1)GAT的注意力机制仅基于一阶邻域的实体的特征信息,没有考虑高阶邻域实体特征信息。(2)当GAT使用更高阶的邻域(间接邻居实体)来进行训练时,会出现过度平滑,造成知识图谱表示性能下降。
[0007](二)技术方案
[0008]为实现以上目的,本专利技术通过以下技术方案予以实现:一种基于剪枝子图的知识图谱表示方法,包括以下步骤:
[0009]步骤一:采用TransE模型学习三元组(e
h
,r,e
t
)的结构化信息,得到实体特征向量矩阵和关系特征向量矩阵
[0010]步骤二:所述知识图谱为有向图,信息由头实体传播到尾实体,通过计算三元组中的头实体特征向量和关系特征向量之间的距离得到关系传播系数,得到一个n
e
×
n
e
邻接权
重矩阵;
[0011]步骤三:所述知识图谱为有向图,尾实体聚合头实体的信息,所以对目标实体j(尾实体)的k阶实体由里向外呈线性扩展进行选择性采样,形成剪枝子图S(j);设定采样系数为β,一阶采样β个,二阶采样2β个,k阶采样kβ个;每采样一阶,则通过邻接权重矩阵来计算关系的采样概率P(v|u),通过关系来选择采样实体,从而形成目标实体的剪枝子图S(j);
[0012]步骤四:剪枝子图中实体的重要性随着阶数的增高而降低,通过折扣系数对剪枝子图中每一阶实体进行评估,形成剪枝子图特征向量
[0013]步骤五:将剪枝子图特征向量与GAT进行结合,每个实体通过聚合邻居剪枝子图特征向量得到新的特征向量
[0014]步骤六:将最初的实体特征向量经过线性变换,和相加得到最终实体特征向量同时对输入的关系特征向量进行线性变换得到新的关系特征矩阵向量
[0015]步骤七:将最终的实体特征向量矩阵以关系特征向量矩阵进行翻译模型优化训练。
[0016]优选的,所述实体特征向量矩阵E的维度为(n
e
,d),其中n
e
表示实体的数量;所述关系特征向量矩阵R的维度为(n
r
,d),其中n
r
表示关系的数量,d表示特征向量的维度。
[0017]优选的,所述步骤二具体计算公式为:
[0018][0019]其中,表示头实实体和尾实体之间关系的传播系数,根据头实体和关系之间的欧式距离求得传播系数,由此来求得邻接权重矩阵。
[0020]优选的,所述步骤三中具体采样概率和形成的子图S(j)为:
[0021][0022][0023]S(j)={{e
j
},{e
1,1
,e
1,2
,...e
1,β
},...{e
k,1
,e
k,2
,...e
k,kβ
}}
[0024]其中,定义实体v是上一阶采样实体u的邻居,实体u的邻居实体集合为N(u),c
v,u
代表关系(v,u)的权重,N(u)/S(j)表示除去已经在剪枝子图中的实体,{e
k,1
,e
k,2
,...e
k,kβ
}表示剪枝子图中采样的每一阶实体集合;{e
j
}代表实体j。
[0025]优选的,所述步骤四具体公式为:
[0026][0027]其中,ρ是一个0到1之间的折扣系数,阶数越高,实体对于剪枝子图的重要性就越
低,表示实体j的特征向量,表示采样的第k阶实体的特征向量相加,W1是线性变换矩阵,对打完折扣的每阶实体进行一次特征提取,是剪枝子图特征向量。
[0028]优选的,所述步骤五具体公式为:
[0029][0030][0031][0032]其中,表示实体i的初始特征向量,表示实体i的邻居剪枝子图特征向量,N
i
表示实体i的邻居剪枝子图集合,d
i,S(j)
和α
i,S(j)
都是表示实体i和剪枝子图S(j)之间的注意力系数,只不过α
i,S(j)
是d
i,S(j)
在的基础之上进行归一化的,W2为与特征向量相乘的矩阵,a为学习权重向量,σ为非线性激活函数,为最后聚合邻居剪枝子图的特征向量。
[0033]优选的,所述步骤六具体公式为:
[0034][0035][0036]其中,W3,W4都是线性变换矩阵,表示最终的实体特征向量,表示经过线性变换之后的关系特征向量。
[0037]优选的,所述步七中具体运算损失函数公式为:
[0038][0039]其中,S表示正样本集合,S'表示负样本集合,d(
·
)表示第一或者第二范式求距离,m本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于剪枝子图的知识图谱表示方法,其特征在于,包括以下步骤:步骤一:采用TransE模型学习三元组(e
h
,r,e
t
)的结构化信息,得到实体特征向量矩阵和关系特征向量矩阵步骤二:所述知识图谱为有向图,信息由头实体传播到尾实体,通过计算三元组中的头实体特征向量和关系特征向量之间的距离得到关系传播系数,得到一个n
e
×
n
e
邻接权重矩阵;步骤三:所述知识图谱为有向图,尾实体聚合头实体的信息,所以对目标实体j(尾实体)的k阶实体由里向外呈线性扩展进行选择性采样,形成剪枝子图S(j);设定采样系数为β,一阶采样β个,二阶采样2β个,k阶采样kβ个;每采样一阶,则通过邻接权重矩阵来计算关系的采样概率P(v|u),通过关系来选择采样实体,从而形成目标实体的剪枝子图S(j);步骤四:剪枝子图中实体的重要性随着阶数的增高而降低,通过折扣系数对剪枝子图中每一阶实体进行评估,形成剪枝子图特征向量步骤五:将剪枝子图特征向量与GAT进行结合,每个实体通过聚合邻居剪枝子图特征向量得到新的特征向量步骤六:将最初的实体特征向量经过线性变换,和相加得到最终实体特征向量同时对输入的关系特征向量进行线性变换得到新的关系特征矩阵向量步骤七:将最终的实体特征向量矩阵以关系特征向量矩阵进行翻译模型优化训练。2.根据权利要求1所述的一种基于剪枝子图的知识图谱表示方法,其特征在于,所述实体特征向量矩阵E的维度为(n
e
,d),其中n
e
表示实体的数量;所述关系特征向量矩阵R的维度为(n
r
,d),其中n
r
表示关系的数量,d表示特征向量的维度。3.根据权利要求1所述的一种基于剪枝子图的知识图谱表示方法,其特征在于:所述步骤二具体计算公式为:其中,表示头实体和尾实体之间关系的传播系数,根据头实体和关系之间的欧式距离求得传播系数,由此来求得邻接权重矩阵。4.根据权利要求1所述的一种基于剪枝子图的知识图谱表示方法,其特征在于:所述步骤三中具体采样概率和形成的子图S(j)为:
S(j)={{e
j
},{e
1,1
,e
1,2
,...e
1,β

【专利技术属性】
技术研发人员:刘文杰姚俊飞
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1