一种用于知识图谱嵌入模型的负采样方法技术

技术编号:36823815 阅读:40 留言:0更新日期:2023-03-12 01:13
本发明专利技术公开了一种用于知识图谱嵌入模型的负采样方法,包括以下步骤:S1:初始化n个包含N个负样本的存储空间;S2:根据给定的正样本三元组,基于实体集合ε中全部实体生成负样本集合,通过均匀采样,从负样本集合中采样得到2*N1个负样本;S3:将步骤S2得到的若干个负样本添加至所储空间;S4:对存储空间中的负样本进行重要性评估;S5:对存储空间中所有负样本的重要性进行排序,保留重要性分数高的N3个样本;S6:从保留的负样本中均匀采样N个负样本组成HNS;S7:重复步骤S2

【技术实现步骤摘要】
一种用于知识图谱嵌入模型的负采样方法


[0001]本专利技术涉及知识图谱嵌入
,具体涉及一种用于知识图谱嵌入模型的负采样方法。

技术介绍

[0002]知识图谱(Knowledge Graph)是人工智能领域的重要分支,它由谷歌在2012年提出,核心思想是使用符号形式来描述真实世界中存在的事实及其相互关系。知识图谱作为一个统一的结构化语义知识库,对机器友好且人类可识别,同时还蕴含了丰富的语义信息,拥有极强的表达能力,所以知识图谱被广泛应用于信息检索、推荐系统、电子商务、金融风控等领域。
[0003]虽然知识图谱已在众多领域上获得了巨大成就,但知识图谱本身却存在一个缺陷:极度不完整。为了解决该缺陷,有学者提出知识图谱补全任务,即通过现有的事实补全推理得到新的事实,从而使知识图谱变得更加完整。知识图谱嵌入技术就是解决知识图谱补全任务的重要技术之一,其将知识图谱中的实体和关系嵌入到高维连续空间内,从而快速高效地进行知识补全和推理。
[0004]知识图谱嵌入模型在训练过程中,需要为嵌入模型提供正样本和负样本,使模型具备区分正、负样本的能力,但是知识图谱中的事实都是正样本,所以需要人工构造一批负样本用于学习,这就是负采样技术。负采样技术通过替换正样本中的头/尾实体,生成现实世界不存在的事实,即负样本。目前最常用的负采样技术是论文《Translating Embeddings for Modeling Multi

relational Data》(Bordes A,Usunier N,Garcia

Duran A,et al.Translating embeddings for modeling multi

relational data[J].Advances in neural information processing systems,2013,26.)提出的均匀负采样(Uniform Negative Sampling),即从全部实体中随机挑选某一个实体,用于替换正样本的头实体或者尾实体。论文《KBGAN:Adversarial Learning for Knowledge Graph Embeddings》(Cai L,Wang W Y.Kbgan:Adversarial learning for knowledge graph embeddings[J].arXiv preprint arXiv:1711.04071,2017.)中使用生成对抗网络(Generative Adversarial Networks,GAN)来拟合负样本的分布情况,从而得到与正样本区分度更高的负样本。现有技术中专利文献“一种基于数据增强和自适应负采样技术的知识图谱推理方法”提出将实体关系频率之间的皮尔逊系数作为判断依据,通过设定阈值来筛选得到高质量的负样本,但是其也存在着占用资源多、运行效率低的不足。

技术实现思路

[0005]鉴于现有问题,本专利技术的目的在于提供一种用于知识图谱嵌入模型的负采样方法,以解决上述问题。
[0006]本专利技术提供如下的技术方案:
[0007]一种用于知识图谱嵌入模型的负采样方法,包括以下步骤:
[0008]S1:在进行嵌入模型的第一次训练之前,根据输入模型的正样本X
i
(i=1,2,3......n)初始化n个存储空间Space_i(i=1,2,3......n),其中,每一个存储空间Space_i包含N个负样本,正样本X
i
与存储空间Space_i一一对应;
[0009]S2:根据给定的正样本三元组X
i
=(h,r,t),基于实体集合ε中全部实体生成负样本集合通过均匀采样从(h

,r,t)和(h,r,t

)中分别采样N1个负样本,得到2*N1个负样本,其中,负样本统一表示为(h

,r,t

),此外,(h

,r,t)中t=t

,(h,r,t

)中h=h


[0010]S3:将步骤S2得到的2*N1个负样本添加至存储空间Space_i,使存储空间Space_i共包含N2=(N+2*N1);
[0011]S4:对存储空间Space_i中的负样本进行重要性P
i
评估;
[0012]S5:对存储空间Space_i中所有负样本的重要性P
i
进行降序排序,保留重要性分数较高的N3个样本,存储于存储空间Space_i;
[0013]S6:从步骤S5保留的负样本中均匀采样若干个负样本组成HNS=(h

,r,t

)并将存储空间Space_i更新为HNS,HNS即为正样本三元组X
i
=(h,r,t)对应的高质量负样本集合;
[0014]S7:对步骤S2

S6重复n次,n个正样本分别得到对应的n个存储空间Space_i,将n个正样本集合和n个负样本集合输入模型完成一次训练;
[0015]S8:模型的当前轮次训练完成后,在下一次迭代训练开始之前,重复步骤S2

S7,直到迭代训练次数达到设置的次数或模型性能表现稳定。
[0016]优选地,步骤S4首先计算d
i
,d
i
通过以下任一方法,或任意多种方法取平均值求得:
[0017]a)通过相似性函数,衡量正样本(h,r,t)和负样本(h

,r,t

)之间的差异性,d
i
=||e
h

e
h

||+||e
t

e
t

||,其中e
h
为实体h的嵌入表示形式;
[0018]b)通过相似性函数,衡量当前状态的嵌入模型对正样本(h,r,t)和负样本(h

,r,t

)的损失函数g差异性,d
i
=||g(h,r,t)

g(h

,r,t

)||;
[0019]c)通过当前状态的嵌入模型对负样本(h

,r,t

)进行打分,d
i
=f(e
h

,e
r
,e
t

);
[0020]优选地,通过softmax函数计算重要性程度P
i

[0021][0022]优选地,步骤S5中计算得到的P
i
表示对应负样本的质量,重要性程度P
i
越高,负样本质量越高;保留重要性排序后本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于知识图谱嵌入模型的负采样方法,其特征在于,包括以下步骤:S1:在进行嵌入模型的第一次训练之前,根据输入模型的正样本X
i
,初始化n个存储空间Space_i;S2:根据给定的正样本三元组X
i
=(h,r,t),基于实体集合ε中全部实体生成负样本集合通过均匀采样,从负样本集合中采样得到若干个负样本;S3:将所述步骤S2得到的若干个负样本添加至所述存储空间Space_i;S4:对所述存储空间Space_i中的负样本进行重要性P
i
评估;S5:对所述存储空间Space_i中所有负样本的重要性P
i
进行降序排序,保留重要性分数较高的若干个样本,存储于所述存储空间Space_i;S6:从所述步骤S5保留的负样本中均匀采样若干个负样本组成HNS=(h',r,t')并将所述存储空间Space_i更新为HNS;S7:对步骤S2

S6重复n次,n个正样本分别得到对应的n个所述存储空间Space_i,将n个正样本集合和n个负样本集合输入模型完成一次训练;S8:模型的当前轮次训练完成后,在下一次迭代训练开始之前,重复步骤S2

S7,直到迭代训练次数达到设置的次数或模型性能表现稳定。2.根据权利要求1所述的用于知识图谱嵌入模型的负采样方法,其特征在于,所述步骤S1中所述正样本X
i
中i=1,2,3
……
n;n个所述存储空间Space_i中i=1,2,3
……
n;每一个所述存储空间Space_i包括N个负样本;其中,存储空间Space_i与正样本X
i
一一对应。3.根据权利要求2所述的用于知识图谱嵌入模型的负采样方法,其特征在于,所述步骤S2通过均匀采样从(h',r,t)和(h,r,t')中分别采样N1个负样本,得到2*N1个负样本,其中,负样本统一表示为(h',r,t'),此外,(h',r,t)中t=t',(h,r,t')中h=h'。4.根据权利要求3所述的用于知识图谱嵌入模型的负采样方法,其特征在于,所述步骤S3将所述步骤S2采样得到的2*N1个负样本添加...

【专利技术属性】
技术研发人员:谢禹舜顾钊铨方滨兴张小松王乐牛伟纳韩伟红李树栋张登辉谭润楠龙宇
申请(专利权)人:电子科技大学深圳高等研究院广州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1