一种基于群表示理论的知识图谱嵌入的方法技术

技术编号:35563033 阅读:24 留言:0更新日期:2022-11-12 15:46
本发明专利技术涉及知识图谱领域,具体涉及一种基于群表示理论的知识图谱嵌入模型的方法。本发明专利技术提出了在群表示空间下的嵌入模型,能有效解决当前许多模型对某些关系模式无法表示的问题,如可逆关系模式、对称和反对称关系模式、组合模式等;对负采样方法提出了改进方案,在自对抗负采样的方法的基础上,对可能产生的负样本的范围做了处理,尽可能地避免产生假负样本和提高负样本地质量。和提高负样本地质量。和提高负样本地质量。

【技术实现步骤摘要】
一种基于群表示理论的知识图谱嵌入的方法


[0001]本专利技术涉及知识图谱领域,具体涉及一种基于群表示理论的知识图谱嵌入模型的方法。

技术介绍

[0002]知识图谱是结构化人类知识的一种形式,是事实的结构化表示,由实体、关系和语义描述组成。实体通常是现实世界中的对象或抽象概念,关系表示实体之间的关系,实体的语义描述及其关系包含具有明确含义的类型和属性。
[0003]知识图谱是知识库的同义词,由于其具有图结构,可将知识图谱视作图来考虑。当涉及形式语义时,可将其作为对事实进行解释的推理的知识库。在资源描述框架(RDF)下,知识可以用形如(head,relation,tail)的事实三元组来表示。它也可以表示为一个有向图,其中节点作为实体,边作为关系。
[0004]在知识图谱嵌入中,关系往往具有多种固定的关系模式,如可逆关系模式、对称和反对称关系模式、组合模式等。然而,现有模型对这些关系的表示有所欠缺,比如,TransE模型无法学习到关系的对称性模式,因为当三元组(h,r,t)和(t,r,h)同时成立时,学习到的嵌入表示会认为h和t是几乎相同的实体,而这显然是不正确的。而这些关系模式恰好在非对称群中可以找到对应的表示。因此,基于群表示理论的嵌入方法可以在一定程度上解决对各种关系模式的嵌入表示。例如TorusE,它是一个基于李群的嵌入模型,可以视作以n维酉变换群为嵌入空间的一种知识图谱嵌入方法。
[0005]同时,现有许多知识图谱嵌入方法中选用的负采样方法比较简单,比如TransE模型,仅仅是随机替换三元组中的头实体或尾实体来得到一个负样本,这样很容易得到假负样本(实际上可能是正样本)或质量不高的负样本(明显错误的负样本,对模型Loss下降起不到太大作用)。从而对训练效果和收敛速度有不好的影响。

技术实现思路

[0006]为了解决现有技术中存在的问题,本专利技术提供一种基于群表示理论的知识图谱嵌入的方法,具体包含以下步骤:
[0007]步骤1,获取指定的知识图谱作为数据集,利用嵌入模型将数据集中的实体和关系映射到低维的复数空间使得实体和关系向量化,其中嵌入空间为m维满足SU(2)的群结构;
[0008]步骤2,从数据集的训练集中选取一组正样本三元组(h,r,t),并通过替换头实体或尾实体得到负样本(h

,r,t)和(h,r,t

),用于计算相似度函数和Loss函数,即损失函数;
[0009]步骤3,对步骤2中得到的正样本三元组(h,r,t)和负样本三元组(h

,r,t)和(h,r,t

),通过反向传播更新实体和关系的嵌入向量,得到对应的实体和关系的嵌入表示;
[0010]步骤4,重复步骤2,步骤3直到嵌入模型迭代一定次数,或hits@k及MRR指标达到目标值时停止训练。
[0011]进一步的,步骤1中,在复数空间中,实体e和关系r可以有如下嵌入表示:
[0012]e=(x1,y1,x2,y2,...,x
m
,y
m
)
[0013][0014]其中x和y共同表示一个复数,x表示实部,y表示虚部,m表示维度,m维复数空间下的向量表示实体,对应的r可以看作是旋转角度;α表示在区间[0,2π]的旋转角度,是一个单位向量,由(θ,φ)两个角度表示;由此可以得到,关系r所对应的块对角矩阵R中,每一个2*2的块M
i
表示为如下形式:
[0015][0016]其中,i表示块对角矩阵R中的第i个矩阵块。
[0017]进一步的,m维复数空间下的嵌入模型满足群结构中的对称性、反对称性、可逆性和可组合性,如下所示:
[0018]1、对称性:
[0019]2、反对称性:
[0020]3、可逆性:
[0021]4、可组合性:
[0022]其中a,b,c表示实体,r1,r2,r3表示关系,∧表示且的意思,e

表示群结构中的单位元。
[0023]进一步的,步骤2的具体实现方式如下;
[0024]步骤2.1,对数据集中所有三元组进行预处理,根据(h,r)和(r,t)作为key进行分组,每一组(h,r)中存储所有对应的尾实体t1,t2,...,t
n
,同理每一组(r,t)中存储所有对应的头实体h1,h2,...,h
n
,这两个集合用于在负采样过程中使用,减少假负样本的生成;
[0025]步骤2.2,对三元组(h,r,t)替换头实体得到(h

,r,t),或替换尾实体得到(h,r,t

),以替换尾实体举例,记所有实体的集合为E,步骤2.1中得到的(h,r)对应的实体集合为B,计算E

B得到的差集为X,对任意t

∈X,通过相似度公式d计算(h,r,t

)的score作为权重,记所有负样本的权重之和为W,随机从差集X中选取一个尾实体t

来构造负样本(h,r,t

),并计算作为负样本的权重,在计算损失函数时代入,其中d(h,r,t

)通过公式(1)进行计算;
[0026]相似度公式d和损失函数的计算公式如下:
[0027]d=R
·
e
h

e
t
ꢀꢀꢀ
(1)
[0028]类似地,对于负采样得到的三元组(h

,r,t)或(h,r,t

),关系r表示的R不变,负样本中的头实体h

和尾实体t

分别表示为e

h
和e

t
,有:
[0029]d

=R
·
e

h

e
t
或d

=R
·
e
h

e

t
ꢀꢀ
(2)
[0030][0031]或
[0032]其中,σ表示激活函数,一般选择ReLU作为激活函数,γ表示偏置值,p(e

h
,R,e
t
)和p(e
h
,R,e

t
)是采用RotatE模型中提出的自对抗负采样方法得到地一个概率作为权重,损失
函数中,通过反向传播更新实体和关系的嵌入向量。
[0033]与现有技术相比,本专利技术的优点和有益效果如下:
[0034]1、本专利技术提出了在群表示空间下的嵌入模型,能有效解决当前许多模型对某些关系模式无法表示的问题,如可逆关系模式、对称和反对称关系模式、组合模式等;
[0035]2、本专利技术对负采样方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于群表示理论的知识图谱嵌入的方法,其特征在于,包括如下步骤:步骤1,获取指定的知识图谱作为数据集,利用嵌入模型将数据集中的实体和关系映射到低维的复数空间使得实体和关系向量化,其中嵌入空间为m维满足SU(2)的群结构;步骤2,从数据集的训练集中选取一组正样本三元组(h,r,t),并通过替换头实体或尾实体得到负样本(h

,r,t)和(h,r,t

),用于计算相似度函数和Loss函数,即损失函数;步骤3,对步骤2中得到的正样本三元组(h,r,t)和负样本三元组(h

,r,t)和(h,r,t

),通过反向传播更新实体和关系的嵌入向量,得到对应的实体和关系的嵌入表示;步骤4,重复步骤2,步骤3直到嵌入模型迭代一定次数,或hits@k及MRR指标达到目标值时停止训练。2.如权利要求1所述的一种基于群表示理论的知识图谱嵌入的方法,其特征在于:步骤1中,在复数空间中,实体e和关系r可以有如下嵌入表示:e=(x1,y1,x2,y2,

,x
m
,y
m
)其中x和y共同表示一个复数,x表示实部,y表示虚部,m表示维度,m维复数空间下的向量表示实体,对应的r可以看作是旋转角度;α表示在区间[0,2π]的旋转角度,是一个单位向量,由(θ,φ)两个角度表示;由此可以得到,关系r所对应的块对角矩阵R中,每一个2*2的块M
i
表示为如下形式:其中,i表示块对角矩阵R中的第i个矩阵块。3.如权利要求1所述的一种基于群表示理论的知识图谱嵌入的方法,其特征在于:m维复数空间下的嵌入模型满足群结构中的对称性、反对称性、可逆性和可组合性,如下所示:1、对称性:2、反对称性:3、可逆性:4、可组合性:其中a,b,c表示实体,r1,r2,r3表示关系,∧表示且的意思,e

表示群结构中的单位元。4.如权利要求1所述的一种基于群表示理论的知识图谱嵌入的方法,其特征在于:步骤2的具体实现方式如下;步骤2.1,对数据集中所有三元组进行预处理,根据(h,r)和(r,t)作为key进行分组,每一组(h,r)中存储所有对应的尾实体t1,t2,

,t
n
,同理每一组(r,t)中存储所有对应的头实体h1,h2,<...

【专利技术属性】
技术研发人员:熊盛武甘维康
申请(专利权)人:武汉理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1