当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于知识图谱蒸馏的知识图谱嵌入压缩方法技术

技术编号:32119836 阅读:17 留言:0更新日期:2022-01-29 19:05
本发明专利技术公开了一种基于知识图谱蒸馏的知识图谱嵌入压缩方法,将充分捕捉高维知识图谱嵌入模型(Teacher模型)中的三元组信息和嵌入结构信息蒸馏到知识图谱嵌入模型(Student模型)中,在保证Student模型存储和推理效率的情况下,提升了Student模型的表达能力,在蒸馏过程中考虑了Teacher模型和Student模型之间的双重影响,提出了软标签评估机制来区分不同三元组的软标签的质量,并提出了先固定Teacher模型后解除固定Teacher模型的训练方式,来提高Student模型对Teacher模型的适应性,最终提升Student模型的性能。升Student模型的性能。升Student模型的性能。

【技术实现步骤摘要】
一种基于知识图谱蒸馏的知识图谱嵌入压缩方法


[0001]本专利技术属于知识图谱表示
,具体涉及一种基于知识图谱蒸馏的知识图谱嵌入压缩方法。

技术介绍

[0002]知识图谱(KG Knowledge Graph),例如FreeBase,YAGO和WordNet等被逐渐构建起来,它们为许多重要的AI任务,例如语义搜索,推荐和问答等提供了有效的基础。知识图谱通常是一个多关系图,主要包含实体、关系和三元组,每一个三元组以实体作为节点和关系作为边缘,表示一条知识。三元组以(头部实体,关系,尾部实体)(简称为(h,r,t))的形式表示。
[0003]然而众所周知,当前大多数知识图谱还远远不够完整,这进而也促进了许多关于知识图谱完备性的研究,该任务旨在评估知识图中不存在的三元组的合理性。其中比较常见且广泛使用的方法是知识图谱嵌入(KGE Knowledge Graph Embedding),该方法将三元组中的实体和关系映射到低维稠密的向量,并使用这些向量评估三元组的合理性,具有代表性知识图嵌入方法有翻译模型TransE、双线性模型DistMult、旋转模型RotatE等。知识图谱嵌入方法简单有效,因此被广泛利用,同时,为了获得更好的性能,通常首选为知识图谱训练具有更高维度的Embedding。
[0004]但是对很多现实场景的知识图谱来说,低维Embedding有很大甚至是不可或缺的方便之处。通常来说,模型大小(即参数的数量)以及模型推理的时间成本会随着Embedding维度的增加而快速增加。随着Embedding维度的增大,模型性能上所获得的增益越来越小,而模型大小和模型推理的时间成本却仍几乎保持线性增长。此外,高维Embedding在许多现实生活场景中的应用是不切实际的。例如,一个预训练的十亿级知识图谱应该以微调(fine

tuned)的方式来解决不同的下游任务,并且通常应以更低的成本进行部署,但是高维Embedding的设置给这种大规模知识图谱存储带来了巨大的存储挑战。另一方面,高维知识图谱Embedding对计算资源的要求很高,例如在边缘计算或移动设备上部署知识图谱,或者是在推理时间有限的情景下,由高维Embedding带来的高昂的推理时间成本也是难以被接受的,例如在线金融预测和需要实时更新用户表示的电商知识图谱等。
[0005]在上述提及的这些场景中,低维的知识图谱Embedding是必不可少的。然而,直接训练一个小尺寸Embedding的模型通常难以捕获到知识图谱中的重要信息,预测精度较差,缺乏实用价值。因此,需要提升知识图谱的低维Embedding的效果,使得低维Embedding在保持低存储和推理成本的情况下,依旧取得良好的补全和预测效果。

技术实现思路

[0006]鉴于上述,本专利技术的目的是提供一种基于知识图谱蒸馏的知识图谱嵌入压缩方法,旨在从预训练的高维KGE(Teacher)中学习获得低维KGE(Student),使得低维KGE在保持低存储和推理成本的情况下取得良好的补全和预测效果。
[0007]为实现上述专利技术目的,本专利技术提供的技术方案为:
[0008]一种基于知识图谱蒸馏的知识图谱嵌入压缩方法,包括:
[0009](1)获取预训练好的高维知识图谱嵌入模型作为老师模型,随机初始化一个低维知识图谱嵌入模型作为学生模型;
[0010](2)对于每个三元组,分别从老师模型和学生模型中获得三元组分数、头实体嵌入向量和尾实体嵌入向量后,计算两个模型输出的三元组分数差异,计算两个模型输出的头实体嵌入向量和尾实体嵌入向量的结构差异,依据三元组分数差异和结构差异确定软标签优化目标;
[0011](3)对于每个三元组,基于老师模型输出的三元组分数,利用软标签评估模块评估计算学生模型的第一软标签权重后,基于第一软标签权重、软标签优化目标以及三元组的真实标签构建学生模型的第一软标签损失和第一硬标签损失,固定老师模型参数,利用第一软标签损失和第一硬标签损失优化学生模型参数;
[0012](4)对于每个三元组,基于学生模型输出的三元组分数,利用软标签评估模块评估计算教师模型的第二软标签权重后,基于第二软标签权重、软标签优化目标以及三元组的真实标签构建老师模型的第二软标签损失和第二硬标签损失,第一软标签损失、第一硬标签损失、第二软标签损失以及第二硬标签损失同时优化学生模型参数和老师模型参数,以得到优化后的学生模型为经过知识图谱嵌入压缩的低维知识图谱嵌入模型。
[0013]现有大多数知识图谱表示的方法不能很好地同时兼容高模型性能、低存储成本、推理成本,本专利技术提供的基于知识蒸馏的知识图谱嵌入压缩方法,相比于现有方法,具有的有益效果至少包括:
[0014]1、本专利技术能够充分捕捉高维知识图谱嵌入模型(Teacher模型)中的三元组信息和嵌入结构信息,并将这些信息蒸馏到知识图谱嵌入模型(Student模型)中,在保证Student模型存储和推理效率的情况下,提升了Student模型的表达能力;
[0015]2、本专利技术在蒸馏过程中考虑了Teacher模型和Student模型之间的双重影响,提出了软标签评估机制来区分不同三元组的软标签的质量,并提出了先固定Teacher模型后解除固定Teacher模型的训练方式,来提高Student模型对Teacher模型的适应性,最终提升Student模型的性能;
[0016]3、本专利技术可以从高维知识图谱嵌入中提取低维知识图谱嵌入,能够降低计算开销,在计算资源有限的应用中(例如在边缘计算或移动设备上部署知识图谱),或者是在推理时间有限的情景下(例如基于知识图谱的在线金融预测)具有很好的实用价值。
附图说明
[0017]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
[0018]图1是本专利技术实施例提供的基于知识图谱蒸馏的知识图谱嵌入压缩方法的流程图。
具体实施方式
[0019]为使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本专利技术进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本专利技术,并不限定本专利技术的保护范围。
[0020]图1是本专利技术实施例提供的基于知识图谱蒸馏的知识图谱嵌入压缩方法的流程图。如图1所示,实施例提供的基于知识图谱蒸馏的知识图谱嵌入压缩方法,包括以下步骤:
[0021]步骤1,准备知识图谱,获取预训练好的高维知识图谱嵌入模型作为老师模型,随机初始化一个低维知识图谱嵌入模型作为学生模型。
[0022]实施例中,准备一个知识图谱G,知识图谱G中的实体集合为E,知识图谱G的关系集合R,知识图谱中三元组表示为(h,r,t),其中h,t∈E,r∈R。用T表示知识图谱中的三元组(即用于训练的正三元组)集本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱蒸馏的知识图谱嵌入压缩方法,其特征在于,包括以下步骤:(1)获取预训练好的高维知识图谱嵌入模型作为老师模型,随机初始化一个低维知识图谱嵌入模型作为学生模型;(2)对于每个三元组,分别从老师模型和学生模型中获得三元组分数、头实体嵌入向量和尾实体嵌入向量后,计算两个模型输出的三元组分数差异,计算两个模型输出的头实体嵌入向量和尾实体嵌入向量的结构差异,依据三元组分数差异和结构差异确定软标签优化目标;(3)对于每个三元组,基于老师模型输出的三元组分数,利用软标签评估模块评估计算学生模型的第一软标签权重后,基于第一软标签权重、软标签优化目标以及三元组的真实标签构建学生模型的第一软标签损失和第一硬标签损失,固定老师模型参数,利用第一软标签损失和第一硬标签损失优化学生模型参数;(4)对于每个三元组,基于学生模型输出的三元组分数,利用软标签评估模块评估计算教师模型的第二软标签权重后,基于第二软标签权重、软标签优化目标以及三元组的真实标签构建老师模型的第二软标签损失和第二硬标签损失,第一软标签损失、第一硬标签损失、第二软标签损失以及第二硬标签损失同时优化学生模型参数和老师模型参数,以得到优化后的学生模型为经过知识图谱嵌入压缩的低维知识图谱嵌入模型。2.根据权利要求1所述的基于知识图谱蒸馏的知识图谱嵌入压缩方法,其特征在于,步骤(2)中,采用以下公式计算老师模型和学生模型输出的三元组分数差异d
Score
:其中,分别表示三元组(h,r,t)经过老师模型T和学生模型S时,采用评分函数f
r
(h,t)计算得到的三元组分数,l
δ
(
·
)为Huber损失函数,δ为超参数。3.根据权利要求1所述的基于知识图谱蒸馏的知识图谱嵌入压缩方法,其特征在于,步骤(2)中,采用以下公式计算两个模型输出的头实体嵌入向量和尾实体嵌入向量的结构差异d
Structure
:其中,h
T
,t
T
表示老师模型输出的头实体嵌入向量和尾实体嵌入向量,h
S
,t
S
表示表示学生模型输出的头实体嵌入向量和尾实体嵌入向量,表示表示头实体嵌入向量和尾实体嵌入向量之间的角度,表示头实体嵌入向量和尾实体嵌入向量的长度比,l
δ
(
·
)为Huber损失函数,δ为超参数。4.根据权利要求1所述的基于知识图谱蒸馏的知识图谱嵌入压缩方法,其特征在于,步骤(3)中,利用软标签评估模块评估计算学生模型的第一软标签权重的过程为:软标签评估模块用于为不同的三元组分配不同的软标签和硬标签权重,以保留高质量软标签的积极作用,避免低质量软标签的负面影响,通过以下公式计算学生模型的第一软标签权重...

【专利技术属性】
技术研发人员:张文朱渝珊赖亦璇徐雅静陈华钧
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1