知识图谱嵌入模型的训练方法、装置和计算机存储介质制造方法及图纸

技术编号:24353635 阅读:25 留言:0更新日期:2020-06-03 02:06
本申请涉及一种知识图谱嵌入模型的训练方法、装置、计算机可读存储介质和计算机设备,所述方法包括:获取图谱数据中正三元组中的待替换的第一实体;计算第一实体与图谱数据中各个第二实体的语义相似度;确定知识图谱嵌入模型的当前训练迭代次序,根据当前训练迭代次序以及第一实体与各第二实体的语义相似度,调整各第二实体的采样概率;基于各第二实体的采样概率,从第二实体中随机筛选目标实体;将正三元组中的第一实体替换为目标实体,得到负三元组;根据正三元组以及负三元组,对知识图谱嵌入模型进行迭代训练。本申请提供的方案可以实现有助于知识图谱嵌入模型区分那些难以区分的错误三元组,使得模型获得更好的嵌入效果。

Training method, device and computer storage medium of knowledge map embedding model

【技术实现步骤摘要】
知识图谱嵌入模型的训练方法、装置和计算机存储介质
本申请涉及计算机
,特别是涉及一种知识图谱嵌入模型的训练方法、装置、计算机可读存储介质和计算机设备,以及一种基于知识图谱的实体间关系的预测方法。
技术介绍
知识图谱嵌入是指将知识图谱中实体和关系映射到低维连续的向量空间,即将图谱三元组(s,p,o)表示为向量(h,r,t),使得知识图谱数据能够进一步应用于各种任务中,如知识图谱补全、关系提取等。但是,现有的知识图谱中只存储了有效的正确知识,而没有与之对应有效的错误知识,因而在传统的知识图谱嵌入技术中,特别是知识图谱嵌入模型的训练过程中需要生成负训练样本,负训练样本通常是随机选取的,即使用一个随机实体替换原有实体从而生成负样本。然而随机选取实体替换原有实体而生成的负训练样本大多数情况下是一个易于区分的负例,无法使知识图谱嵌入模型有效的区分语义上相似的正确实体与错误实体,导致训练得到的知识图谱嵌入模型的嵌入性能差,输出的实体向量或关系向量难以准确表示知识图谱中的实体或关系。
技术实现思路
基于此,有必要针对传统的随机选取实体替换原有实体而生成的负训练样本大多数情况下是一个易于区分的负例,导致训练得到的知识图谱嵌入模型的嵌入性能差的技术问题,提供一种知识图谱嵌入模型的训练方法、装置、计算机可读存储介质和计算机设备。一种知识图谱嵌入模型的训练方法,包括:获取图谱数据中正三元组中的待替换的第一实体;计算所述第一实体与图谱数据中各个第二实体的语义相似度;确定知识图谱嵌入模型的当前训练迭代次序,根据所述当前训练迭代次序以及所述第一实体与各所述第二实体的语义相似度,调整各所述第二实体的采样概率;基于各所述第二实体的采样概率,从所述第二实体中随机筛选目标实体;将所述正三元组中的第一实体替换为所述目标实体,得到负三元组;根据所述正三元组以及所述负三元组,对知识图谱嵌入模型进行迭代训练。一种基于知识图谱的实体间关系的预测方法,其特征在于,包括:获取已知的第一实体以及已知的第二实体;获取图谱数据中的各个关系类别,根据各所述关系类别、所述第一实体以及所述第二实体,生成与各所述关系类别对应的三元组;通过知识图谱嵌入模型获取各所述三元组的嵌入向量;其中,所述知识图谱嵌入模型是根据图谱数据中正三元组以及与所述正三元组对应的负三元组进行迭代训练的;所述负三元组是基于图谱数据中正三元组中的待替换的第一实体与图谱数据中第二实体间的语义相似度以及当前训练迭代次序确定的第二实体的采样概率,从所述第二实体中随机筛选目标实体替换所述正三元组中的第一实体得到的;分别对各所述三元组的嵌入向量进行打分,得到各所述三元组的三元组分值;根据各所述三元组的三元组分值确定目标三元组,并将所述目标三元组对应的关系类别确定为所述第一实体以及第二实体间的关系类别。一种知识图谱嵌入模型的训练装置,所述装置包括:第一实体获取模块,用于获取图谱数据中正三元组中的待替换的第一实体;语义相似度获取模块,用于计算所述第一实体与图谱数据中各个第二实体的语义相似度;采样概率获取模块,用于确定知识图谱嵌入模型的当前训练迭代次序,根据所述当前训练迭代次序以及所述第一实体与各所述第二实体的语义相似度,调整各所述第二实体的采样概率;目标实体确定模块,用于基于各所述第二实体的采样概率,从所述第二实体中随机筛选目标实体;负三元组获取模块,用于将所述正三元组中的第一实体替换为所述目标实体,得到负三元组;模型训练模块,用于根据所述正三元组以及所述负三元组,对知识图谱嵌入模型进行迭代训练。一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:获取图谱数据中正三元组中的待替换的第一实体;计算所述第一实体与图谱数据中各个第二实体的语义相似度;确定知识图谱嵌入模型的当前训练迭代次序,根据所述当前训练迭代次序以及所述第一实体与各所述第二实体的语义相似度,调整各所述第二实体的采样概率;基于各所述第二实体的采样概率,从所述第二实体中随机筛选目标实体;将所述正三元组中的第一实体替换为所述目标实体,得到负三元组;根据所述正三元组以及所述负三元组,对知识图谱嵌入模型进行迭代训练。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:获取图谱数据中正三元组中的待替换的第一实体;计算所述第一实体与图谱数据中各个第二实体的语义相似度;确定知识图谱嵌入模型的当前训练迭代次序,根据所述当前训练迭代次序以及所述第一实体与各所述第二实体的语义相似度,调整各所述第二实体的采样概率;基于各所述第二实体的采样概率,从所述第二实体中随机筛选目标实体;将所述正三元组中的第一实体替换为所述目标实体,得到负三元组;根据所述正三元组以及所述负三元组,对知识图谱嵌入模型进行迭代训练。上述知识图谱嵌入模型的训练方法、装置、计算机可读存储介质和计算机设备,在获取图谱数据中正三元组中的待替换的第一实体后,计算第一实体与图谱数据中各个第二实体的语义相似度;然后确定知识图谱嵌入模型的当前训练迭代次序,根据当前训练迭代次序以及第一实体与各第二实体的语义相似度,调整各第二实体的采样概率;进而基于各第二实体的采样概率,从第二实体中随机筛选目标实体,并将正三元组中的第一实体替换为目标实体,得到负三元组,最后根据正三元组以及负三元组,对知识图谱嵌入模型进行迭代训练。其中,在计算两两实体之间的语义相似度后,针对知识图谱嵌入模型训练过程中的每一次迭代训练,基于两两实体间的语义相似度重新调整实体负采样的概率,从而实现在每一次迭代训练中,自动调整各个实体的负采样概率,使得在知识图谱嵌入模型的训练后期,获取与正三元组中第一实体语义相似度更高的第二实体,并将第二实体对第一实体进行替换以获得负三元组,从而将正三元组以及负三元组作为知识图谱嵌入模型的训练数据对模型进行训练,有助于知识图谱嵌入模型区分那些难以区分的错误三元组,使得模型获得更好的嵌入效果,使得模型输出的实体向量或关系向量的准确性提高。附图说明图1为一个实施例中知识图谱嵌入模型的训练方法的应用环境图;图2为一个实施例中知识图谱嵌入模型的训练方法的流程示意图;图3为一个实施例中调整各第二实体的采样概率的步骤的流程示意图;图4为另一个实施例中调整各第二实体的采样概率的步骤的流程示意图;图5为一个实施例中计算所述第一实体与图谱数据中第二实体的语义相似度步骤的流程示意图;图6为一个实施例中获取第一实体与各第二实体的共现关系相似度步骤的流程示意图;图7为一个实施例中获取第一实体与各第二实体的实体类别相似度步骤的流程示意图;图8为一个实施例中根据正三元组以及负三元组,对知识图谱嵌入本文档来自技高网...

【技术保护点】
1.一种知识图谱嵌入模型的训练方法,包括:/n获取图谱数据中正三元组中的待替换的第一实体;/n计算所述第一实体与图谱数据中各个第二实体的语义相似度;/n确定知识图谱嵌入模型的当前训练迭代次序,根据所述当前训练迭代次序以及所述第一实体与各所述第二实体的语义相似度,调整各所述第二实体的采样概率;/n基于各所述第二实体的采样概率,从所述第二实体中随机筛选目标实体;/n将所述正三元组中的第一实体替换为所述目标实体,得到负三元组;/n根据所述正三元组以及所述负三元组,对知识图谱嵌入模型进行迭代训练。/n

【技术特征摘要】
1.一种知识图谱嵌入模型的训练方法,包括:
获取图谱数据中正三元组中的待替换的第一实体;
计算所述第一实体与图谱数据中各个第二实体的语义相似度;
确定知识图谱嵌入模型的当前训练迭代次序,根据所述当前训练迭代次序以及所述第一实体与各所述第二实体的语义相似度,调整各所述第二实体的采样概率;
基于各所述第二实体的采样概率,从所述第二实体中随机筛选目标实体;
将所述正三元组中的第一实体替换为所述目标实体,得到负三元组;
根据所述正三元组以及所述负三元组,对知识图谱嵌入模型进行迭代训练。


2.根据权利要求1所述的方法,其特征在于,所述根据所述当前训练迭代次序以及所述第一实体与各所述第二实体的语义相似度,调整各所述第二实体的采样概率的步骤,包括:
获取各所述第二实体在所述图谱数据中的出现频率;
根据所述当前训练迭代次序、所述第一实体与各所述第二实体的语义相似度以及各所述第二实体的出现频率,计算各所述第二实体的采样概率。


3.根据权利要求2所述的方法,其特征在于,所述根据所述当前训练迭代次序、所述第一实体与各所述第二实体的语义相似度以及各所述第二实体的出现频率,计算各所述第二实体的采样概率的步骤,包括:
获取预设的训练迭代总次数;
根据所述当前训练迭代次序以及训练迭代总次数,确定所述第一实体与各所述第二实体的语义相似度的第一权重值,以及各所述第二实体的出现频率的第二权重值;
根据所述第一权重值以及所述第二权重值,计算所述第一实体与所述第二实体的语义相似度以及所述第二实体的出现频率的加权平均值,得到第二实体的采样概率。


4.根据权利要求1所述的方法,其特征在于,所述将所述正三元组中的第一实体替换为所述目标实体,得到负三元组的步骤,包括:
将所述正三元组中的第一实体替换为所述目标实体,获得替换三元组;
当所述替换三元组与所述图谱数据中各个三元组均不同,将所述替换三元组确定为与所述正三元组对应的负三元组。


5.根据权利要求1所述的方法,其特征在于,所述计算所述第一实体与图谱数据中各个第二实体的语义相似度的步骤,包括:
获取所述第一实体与各所述第二实体的共现关系相似度;
获取所述第一实体与各所述第二实体的实体类别相似度;
根据所述共现关系相似度与所述实体类别相似度,确定所述第一实体与各所述第二实体的语义相似度。


6.根据权利要求5所述的方法,其特征在于,所述获取所述第一实体与各所述第二实体的共现关系相似度的步骤,包括:
获取与所述第一实体存在共现关系的关系类别,得到第一关系类别集合;
获取与各所述第二实体存在共现关系的关系类别,得到各个第二关系类别集合;
分别计算所述第一关系类别集合以及各所述第二关系类别集合中,相同的关系类别的数量;
分别计算相同的关系类别的数量与关系类别总数量的比值,得到所述第一实体与各所述第二实体间的共现关系相似度。


7.根据权利要求5所述的方法,其特征在于,所述获取所述第一实体与各所述第二实体的实体类别相似度的步骤,包括:
获取所述第一实体所属的实体类别,得到第一实体类别集合;
获取各所述第二实体所属的实体类别,得到各个第二实体类别集合;
分别计算所述第一实体类别集合与各所述第二实体类别集合中,相同的实体类别的数量;
分别计算相同的实体类别的数量与实体类别总数量的比值,得到所述第一实体与各所述第二实体间的实体类别相似度。


8.根据权利要求1所述的方法,其特征在于,所述根据所述正三元组以及所述负三元组,对知识图谱嵌入模型进行迭代训练的步骤,包括:
将所述正三元组以及所述负三元组输入至所述知识图谱嵌入模型,通过知识图谱嵌入模...

【专利技术属性】
技术研发人员:李晨曦荆宁张红林
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1