一种用于知识图谱嵌入模型的负采样方法技术

技术编号：36823815 阅读：40 留言：0更新日期：2023-03-12 01:13

本发明专利技术公开了一种用于知识图谱嵌入模型的负采样方法，包括以下步骤：S1：初始化n个包含N个负样本的存储空间；S2：根据给定的正样本三元组，基于实体集合ε中全部实体生成负样本集合，通过均匀采样，从负样本集合中采样得到2*N1个负样本；S3：将步骤S2得到的若干个负样本添加至所储空间；S4：对存储空间中的负样本进行重要性评估；S5：对存储空间中所有负样本的重要性进行排序，保留重要性分数高的N3个样本；S6：从保留的负样本中均匀采样N个负样本组成HNS；S7：重复步骤S2

全部详细技术资料下载

【技术实现步骤摘要】
一种用于知识图谱嵌入模型的负采样方法

[0001]本专利技术涉及知识图谱嵌入
，具体涉及一种用于知识图谱嵌入模型的负采样方法。

技术介绍

[0002]知识图谱(Knowledge Graph)是人工智能领域的重要分支，它由谷歌在2012年提出，核心思想是使用符号形式来描述真实世界中存在的事实及其相互关系。知识图谱作为一个统一的结构化语义知识库，对机器友好且人类可识别，同时还蕴含了丰富的语义信息，拥有极强的表达能力，所以知识图谱被广泛应用于信息检索、推荐系统、电子商务、金融风控等领域。
[0003]虽然知识图谱已在众多领域上获得了巨大成就，但知识图谱本身却存在一个缺陷：极度不完整。为了解决该缺陷，有学者提出知识图谱补全任务，即通过现有的事实补全推理得到新的事实，从而使知识图谱变得更加完整。知识图谱嵌入技术就是解决知识图谱补全任务的重要技术之一，其将知识图谱中的实体和关系嵌入到高维连续空间内，从而快速高效地进行知识补全和推理。
[0004]知识图谱嵌入模型在训练过程中，需要为嵌入模型提供正样本和负样本，使模型具备区分正、负样本的能力，但是知识图谱中的事实都是正样本，所以需要人工构造一批负样本用于学习，这就是负采样技术。负采样技术通过替换正样本中的头/尾实体，生成现实世界不存在的事实，即负样本。目前最常用的负采样技术是论文《Translating Embeddings for Modeling Multi
‑
relational Data》(Bordes A,Usunier N,Ga...

【技术保护点】

【技术特征摘要】
1.一种用于知识图谱嵌入模型的负采样方法，其特征在于，包括以下步骤：S1：在进行嵌入模型的第一次训练之前，根据输入模型的正样本X
i
，初始化n个存储空间Space_i；S2：根据给定的正样本三元组X
i
＝(h,r,t)，基于实体集合ε中全部实体生成负样本集合通过均匀采样，从负样本集合中采样得到若干个负样本；S3：将所述步骤S2得到的若干个负样本添加至所述存储空间Space_i；S4：对所述存储空间Space_i中的负样本进行重要性P
i
评估；S5：对所述存储空间Space_i中所有负样本的重要性P
i
进行降序排序，保留重要性分数较高的若干个样本，存储于所述存储空间Space_i；S6：从所述步骤S5保留的负样本中均匀采样若干个负样本组成HNS＝(h',r,t')并将所述存储空间Space_i更新为HNS；S7：对步骤S2
‑
S6重复n次，n个正样本分别得到对应的n个所述存储空间Space_i，将n个正样本集合和n个负样本集合输入模型完成一次训练；S8：模型的当前轮次训练完成后，在下一次迭代训练开始之前，重复步骤S2
‑
S7，直到迭代训练次数达到设置的次数或模型性能表现稳定。2.根据权利要求1所述的用于知识图谱嵌入模型的负采样方法，其特征在于，所述步骤S1中所述正样本X
i
中i＝1，2，3
……
n；n个所述存储空间Space_i中i＝1，2，3
……
n；每一个所述存储空间Space_i包括N个负样本；其中，存储空间Space_i与正样本X
i
一一对应。3.根据权利要求2所述的用于知识图谱嵌入模型的负采样方法，其特征在于，所述步骤S2通过均匀采样从(h',r,t)和(h,r,t')中分别采样N1个负样本，得到2*N1个负样本，其中，负样本统一表示为(h',r,t')，此外，(h',r,t)中t＝t'，(h,r,t')中h＝h'。4.根据权利要求3所述的用于知识图谱嵌入模型的负采样方法，其特征在于，所述步骤S3将所述步骤S2采样得到的2*N1个负样本添加...

【专利技术属性】
技术研发人员：谢禹舜，顾钊铨，方滨兴，张小松，王乐，牛伟纳，韩伟红，李树栋，张登辉，谭润楠，龙宇，
申请(专利权)人：电子科技大学深圳高等研究院广州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人