知识图谱嵌入模型的训练方法、装置和计算机存储介质制造方法及图纸

技术编号：24353635 阅读：31 留言：0更新日期：2020-06-03 02:06

本申请涉及一种知识图谱嵌入模型的训练方法、装置、计算机可读存储介质和计算机设备，所述方法包括：获取图谱数据中正三元组中的待替换的第一实体；计算第一实体与图谱数据中各个第二实体的语义相似度；确定知识图谱嵌入模型的当前训练迭代次序，根据当前训练迭代次序以及第一实体与各第二实体的语义相似度，调整各第二实体的采样概率；基于各第二实体的采样概率，从第二实体中随机筛选目标实体；将正三元组中的第一实体替换为目标实体，得到负三元组；根据正三元组以及负三元组，对知识图谱嵌入模型进行迭代训练。本申请提供的方案可以实现有助于知识图谱嵌入模型区分那些难以区分的错误三元组，使得模型获得更好的嵌入效果。

Training method, device and computer storage medium of knowledge map embedding model

全部详细技术资料下载

【技术实现步骤摘要】
知识图谱嵌入模型的训练方法、装置和计算机存储介质
本申请涉及计算机
，特别是涉及一种知识图谱嵌入模型的训练方法、装置、计算机可读存储介质和计算机设备，以及一种基于知识图谱的实体间关系的预测方法。
技术介绍
知识图谱嵌入是指将知识图谱中实体和关系映射到低维连续的向量空间，即将图谱三元组(s,p,o)表示为向量(h,r,t)，使得知识图谱数据能够进一步应用于各种任务中，如知识图谱补全、关系提取等。但是，现有的知识图谱中只存储了有效的正确知识，而没有与之对应有效的错误知识，因而在传统的知识图谱嵌入技术中，特别是知识图谱嵌入模型的训练过程中需要生成负训练样本，负训练样本通常是随机选取的，即使用一个随机实体替换原有实体从而生成负样本。然而随机选取实体替换原有实体而生成的负训练样本大多数情况下是一个易于区分的负例，无法使知识图谱嵌入模型有效的区分语义上相似的正确实体与错误实体，导致训练得到的知识图谱嵌入模型的嵌入性能差，输出的实体向量或关系向量难以准确表示知识图谱中的实体或关系。
技术实现思路
基于此，...

【技术保护点】
1.一种知识图谱嵌入模型的训练方法，包括：/n获取图谱数据中正三元组中的待替换的第一实体；/n计算所述第一实体与图谱数据中各个第二实体的语义相似度；/n确定知识图谱嵌入模型的当前训练迭代次序，根据所述当前训练迭代次序以及所述第一实体与各所述第二实体的语义相似度，调整各所述第二实体的采样概率；/n基于各所述第二实体的采样概率，从所述第二实体中随机筛选目标实体；/n将所述正三元组中的第一实体替换为所述目标实体，得到负三元组；/n根据所述正三元组以及所述负三元组，对知识图谱嵌入模型进行迭代训练。/n

【技术特征摘要】
1.一种知识图谱嵌入模型的训练方法，包括：
获取图谱数据中正三元组中的待替换的第一实体；
计算所述第一实体与图谱数据中各个第二实体的语义相似度；
确定知识图谱嵌入模型的当前训练迭代次序，根据所述当前训练迭代次序以及所述第一实体与各所述第二实体的语义相似度，调整各所述第二实体的采样概率；
基于各所述第二实体的采样概率，从所述第二实体中随机筛选目标实体；
将所述正三元组中的第一实体替换为所述目标实体，得到负三元组；
根据所述正三元组以及所述负三元组，对知识图谱嵌入模型进行迭代训练。

2.根据权利要求1所述的方法，其特征在于，所述根据所述当前训练迭代次序以及所述第一实体与各所述第二实体的语义相似度，调整各所述第二实体的采样概率的步骤，包括：
获取各所述第二实体在所述图谱数据中的出现频率；
根据所述当前训练迭代次序、所述第一实体与各所述第二实体的语义相似度以及各所述第二实体的出现频率，计算各所述第二实体的采样概率。

3.根据权利要求2所述的方法，其特征在于，所述根据所述当前训练迭代次序、所述第一实体与各所述第二实体的语义相似度以及各所述第二实体的出现频率，计算各所述第二实体的采样概率的步骤，包括：
获取预设的训练迭代总次数；
根据所述当前训练迭代次序以及训练迭代总次数，确定所述第一实体与各所述第二实体的语义相似度的第一权重值，以及各所述第二实体的出现频率的第二权重值；
根据所述第一权重值以及所述第二权重值，计算所述第一实体与所述第二实体的语义相似度以及所述第二实体的出现频率的加权平均值，得到第二实体的采样概率。

4.根据权利要求1所述的方法，其特征在于，所述将所述正三元组中的第一实体替换为所述目标实体，得到负三元组的步骤，包括：
将所述正三元组中的第一实体替换为所述目标实体，获得替换三元组；
当所述替换三元组与所述图谱数据中各个三元组均不同，将所述替换三元组确定为与所述正三元组对应的负三元组。

5.根据权利要求1所述的方法，其特征在于，所述计算所述第一实体与图谱数据中各个第二实体的语义相似度的步骤，包括：
获取所述第一实体与各所述第二实体的共现关系相似度；
获取所述第一实体与各所述第二实体的实体类别相似度；
根据所述共现关系相似度与所述实体类别相似度，确定所述第一实体与各所述第二实体的语义相似度。

6.根据权利要求5所述的方法，其特征在于，所述获取所述第一实体与各所述第二实体的共现关系相似度的步骤，包括：
获取与所述第一实体存在共现关系的关系类别，得到第一关系类别集合；
获取与各所述第二实体存在共现关系的关系类别，得到各个第二关系类别集合；
分别计算所述第一关系类别集合以及各所述第二关系类别集合中，相同的关系类别的数量；
分别计算相同的关系类别的数量与关系类别总数量的比值，得到所述第一实体与各所述第二实体间的共现关系相似度。

7.根据权利要求5所述的方法，其特征在于，所述获取所述第一实体与各所述第二实体的实体类别相似度的步骤，包括：
获取所述第一实体所属的实体类别,得到第一实体类别集合；
获取各所述第二实体所属的实体类别，得到各个第二实体类别集合；
分别计算所述第一实体类别集合与各所述第二实体类别集合中，相同的实体类别的数量；
分别计算相同的实体类别的数量与实体类别总数量的比值，得到所述第一实体与各所述第二实体间的实体类别相似度。

8.根据权利要求1所述的方法，其特征在于，所述根据所述正三元组以及所述负三元组，对知识图谱嵌入模型进行迭代训练的步骤，包括：
将所述正三元组以及所述负三元组输入至所述知识图谱嵌入模型，通过知识图谱嵌入模...

【专利技术属性】
技术研发人员：李晨曦，荆宁，张红林，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人