【技术实现步骤摘要】
一种基于群表示理论的知识图谱嵌入的方法
[0001]本专利技术涉及知识图谱领域,具体涉及一种基于群表示理论的知识图谱嵌入模型的方法。
技术介绍
[0002]知识图谱是结构化人类知识的一种形式,是事实的结构化表示,由实体、关系和语义描述组成。实体通常是现实世界中的对象或抽象概念,关系表示实体之间的关系,实体的语义描述及其关系包含具有明确含义的类型和属性。
[0003]知识图谱是知识库的同义词,由于其具有图结构,可将知识图谱视作图来考虑。当涉及形式语义时,可将其作为对事实进行解释的推理的知识库。在资源描述框架(RDF)下,知识可以用形如(head,relation,tail)的事实三元组来表示。它也可以表示为一个有向图,其中节点作为实体,边作为关系。
[0004]在知识图谱嵌入中,关系往往具有多种固定的关系模式,如可逆关系模式、对称和反对称关系模式、组合模式等。然而,现有模型对这些关系的表示有所欠缺,比如,TransE模型无法学习到关系的对称性模式,因为当三元组(h,r,t)和(t,r,h)同时成立时,学习到的嵌入表示会认为h和t是几乎相同的实体,而这显然是不正确的。而这些关系模式恰好在非对称群中可以找到对应的表示。因此,基于群表示理论的嵌入方法可以在一定程度上解决对各种关系模式的嵌入表示。例如TorusE,它是一个基于李群的嵌入模型,可以视作以n维酉变换群为嵌入空间的一种知识图谱嵌入方法。
[0005]同时,现有许多知识图谱嵌入方法中选用的负采样方法比较简单,比如TransE模型,仅仅是随机替换 ...
【技术保护点】
【技术特征摘要】
1.一种基于群表示理论的知识图谱嵌入的方法,其特征在于,包括如下步骤:步骤1,获取指定的知识图谱作为数据集,利用嵌入模型将数据集中的实体和关系映射到低维的复数空间使得实体和关系向量化,其中嵌入空间为m维满足SU(2)的群结构;步骤2,从数据集的训练集中选取一组正样本三元组(h,r,t),并通过替换头实体或尾实体得到负样本(h
′
,r,t)和(h,r,t
′
),用于计算相似度函数和Loss函数,即损失函数;步骤3,对步骤2中得到的正样本三元组(h,r,t)和负样本三元组(h
′
,r,t)和(h,r,t
′
),通过反向传播更新实体和关系的嵌入向量,得到对应的实体和关系的嵌入表示;步骤4,重复步骤2,步骤3直到嵌入模型迭代一定次数,或hits@k及MRR指标达到目标值时停止训练。2.如权利要求1所述的一种基于群表示理论的知识图谱嵌入的方法,其特征在于:步骤1中,在复数空间中,实体e和关系r可以有如下嵌入表示:e=(x1,y1,x2,y2,
…
,x
m
,y
m
)其中x和y共同表示一个复数,x表示实部,y表示虚部,m表示维度,m维复数空间下的向量表示实体,对应的r可以看作是旋转角度;α表示在区间[0,2π]的旋转角度,是一个单位向量,由(θ,φ)两个角度表示;由此可以得到,关系r所对应的块对角矩阵R中,每一个2*2的块M
i
表示为如下形式:其中,i表示块对角矩阵R中的第i个矩阵块。3.如权利要求1所述的一种基于群表示理论的知识图谱嵌入的方法,其特征在于:m维复数空间下的嵌入模型满足群结构中的对称性、反对称性、可逆性和可组合性,如下所示:1、对称性:2、反对称性:3、可逆性:4、可组合性:其中a,b,c表示实体,r1,r2,r3表示关系,∧表示且的意思,e
′
表示群结构中的单位元。4.如权利要求1所述的一种基于群表示理论的知识图谱嵌入的方法,其特征在于:步骤2的具体实现方式如下;步骤2.1,对数据集中所有三元组进行预处理,根据(h,r)和(r,t)作为key进行分组,每一组(h,r)中存储所有对应的尾实体t1,t2,
…
,t
n
,同理每一组(r,t)中存储所有对应的头实体h1,h2,<...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。