【技术实现步骤摘要】
模型的训练方法、三元组的嵌入方法、装置、介质及设备
本公开涉及机器学习
,具体而言,涉及一种三元组的嵌入模型的训练方法及装置、三元组的嵌入方法及装置、计算机可读介质和电子设备。
技术介绍
知识图谱(KnowledgeGraph,简称:KG),或称作知识库(KnowledgeBase,简称:KB),是通过“实体”和“关系”来表示知识的图(Graph)结构。而知识图谱嵌入(KGEmbedding)是指将知识图谱中的“实体”和“关系”用向量或低维向量表示,从而,在基于知识图谱的推理应用中,可以用向量计算代替符号推理。也就是说,使得知识图谱中的三元组更适用于基于知识图谱的推理计算中。相关技术中,将知识图谱中三元组的嵌入标签模型视为二分类模型:三元组所表达的知识点成立则为“正样本”、三元组所表达的知识点不成立则为“负样本”(不成立的知识点)。进一步地,二分类模型的训练目标为:对于训练样本中知识点成立的三元组,其向量h+r与t之间的距离尽可能小。一般采用的损失函数为:正样本比负样本的距离值小至少一预设距离。然而,相关技术提 ...
【技术保护点】
1.一种三元组的嵌入模型的训练方法,其特征在于,所述方法包括:/n获取N组训练样本,其中,每组训练样本包括:三元组和所述三元组所表述的知识成立的概率,N为大于1的整数;/n将第i组训练样本中的三元组输入嵌入模型,根据所述嵌入模型的输出得到投影距离S
【技术特征摘要】
1.一种三元组的嵌入模型的训练方法,其特征在于,所述方法包括:
获取N组训练样本,其中,每组训练样本包括:三元组和所述三元组所表述的知识成立的概率,N为大于1的整数;
将第i组训练样本中的三元组输入嵌入模型,根据所述嵌入模型的输出得到投影距离Si,其中,i为小于等于N的正整数;
根据所述第i组训练样本的概率Pi和所述投影距离Si确定所述嵌入模型的损失函数,以基于所述损失函数训练所述嵌入模型。
2.根据权利要求1所述的三元组的嵌入模型的训练方法,其特征在于,所述根据所述第i组训练样本的概率Pi和所述投影距离Si确定所述嵌入模型的损失函数,包括:
基于预设的映射函数,将第i个组训练样本中的概率Pi映射为第i组训练样本对应的目标距离Di;
根据所述目标距离Di和所述投影距离Si的差值确定所述嵌入模型的损失函数;
其中,所述映射函数为投影距离Si的值域和概率Pi的值域之间实现一对一映射的单调函数。
3.根据权利要求1所述的三元组的嵌入模型的训练方法,其特征在于,
所述获取N组训练样本,包括:
获取N1组训练正样本和N2组训练负样本;其中,每组训练正样本包括:第一三元组和所述三元组所表述的知识成立的第一概率,每组训练负样本包括:第二三元组和预设概率值;
所述将所述第i组训练样本中的三元组输入嵌入模型,根据所述嵌入模型的输出得到投影距离Si,包括:
将第i1组训练正样本中的第一三元组输入嵌入模型,根据所述嵌入模型的输出得到第一投影距离Si1,其中,i1为小于等于N1的正整数;以及,将第i2组训练负样本中的第二三元组输入所述嵌入模型,根据所述嵌入模型的输出得到第二投影距离Si2,其中,i2为小于等于N2的正整数;
所述根据所述第i组训练样本的概率Pi和所述投影距离Si确定所述嵌入模型的损失函数,包括:
根据所述第i1组训练正样本的第一概率Pi1和所述第一投影距离Si1确定第一损失函数;根据所述预设概率值和所述第二投影距离Si2确定第二损失函数;以及,根据所述第一损失函数和所述第二损失函数确定所述嵌入模型的损失函数。
4.根据权利要求3所述的三元组的嵌入模型的训练方法,其特征在于,所述根据所述第i1组训练正样本的第一概率Pi1和所述投影距离Si1确定第一损失函数,包括:
基于预设的映射函数,将第i1个组训练正样本中的第一概率Pi1映射为第i1组训练正样本对应的第一目标距离Di1;
根据所述第一目标距离Di1和所述第一投影距离Si1的差值确定所述第一损失函数;
其中,所述映射函数为第一投影距离Si1的值域和第一概率Pi1的值域之间实现一对一映射的单调函数。
5.根据权利要求4所述的三元组的嵌入模型的训练方法,其特征在于,所述根据所述预设概率值和所述第...
【专利技术属性】
技术研发人员:王尧,李林峰,
申请(专利权)人:南京医渡云医学技术有限公司,南京懿医云大数据科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。