当前位置: 首页 > 专利查询>清华大学专利>正文

三元组作为节点的知识图谱的表示学习方法、装置及设备制造方法及图纸

技术编号:33914881 阅读:39 留言:0更新日期:2022-06-25 20:04
本发明专利技术提供一种三元组作为节点的知识图谱的表示学习方法、装置及设备,属于机器学习技术领域,方法通过初始化预测模型的参数,参数包括知识图谱中实体和关系的向量表示,知识图谱是三元组作为节点所构成的;遍历知识图谱中的每个三元组,确定预测模型针对每个三元组的损失;基于每个三元组的损失,利用优化器对实体和关系的向量表示进行优化,由于知识图谱本身是以三元组作为节点所构成的,该类型的知识图谱可以极大地丰富知识图谱的表示能力,且基于该知识图谱的表示学习方法,能够很好的对这类知识图谱进行表示学习。这类知识图谱进行表示学习。这类知识图谱进行表示学习。

【技术实现步骤摘要】
三元组作为节点的知识图谱的表示学习方法、装置及设备


[0001]本专利技术涉及机器学习
,尤其涉及一种三元组作为节点的知识图谱的表示学习方法、装置及设备。

技术介绍

[0002]随着大数据的普及与发展,储存大量知识的大规模知识图谱越来越被人们所重视。大多数知识图谱是用三元组形式存储的,如(四川,省会,成都)便是一个三元组,这里四川是头实体,成都是尾实体,而省会是头尾实体之间的关系,这个三元组便表示了四川的省会是成都这样一个事实。换个角度来,可以说目前的知识图谱多数是实体作为节点,关系作为实体之间的边。
[0003]这种存储格式有利于在互联网上保存。然而这种形式是离散的,因而不利于对知识图谱的计算。为了解决知识图谱的计算性问题,知识图谱表示学习的方法被提出,并被广泛研究。具体的来说,知识图谱表示学习方法可以将知识图谱中的每一个实体和关系表示为低维空间中的向量。这些向量是连续的,并且可以进行数学运算,这在一定程度上解决了知识图谱的计算性问题。此外,知识图谱的表示学习也被证明对很多下游的人工智能任务或系统很有帮助,如知识图谱自动补全、自动问答系统和信息抽取系统等。
[0004]目前大规模应用的知识图谱如Freebase、WordNet和XLORE都是以实体作为知识图谱的节点,关系作为节点之间的边,组成了大规模的图结构。TransE方法是一种基于平移的知识图谱表示学习方法,该方法将关系视为头实体向尾实体的平移变换,通过该假设对实体向量和关系向量进行优化学习。TransR方法是对TransE方法的改进,在一定程度上解决了一对多和多对多关系的表示问题。目前的基于平移模型和实体属性的知识图谱表示学习方法,将知识图谱中的三元组分类两类,一类是关系三元组,另一类为特性三元组。对于关系三元组,使用平移模型来学习实体和关系的向量表示;对于特性三元组,利用神经网络分类模型,来学习实体向量和特性向量之间的关联。
[0005]但是,目前的针对于只是以实体作为节点的知识图谱的表示学习方法在一定程度上限制了知识图谱的表示学习能力。

技术实现思路

[0006]本专利技术提供一种三元组作为节点的知识图谱的表示学习方法、装置及设备,用以解决现有技术中知识图谱表示学习能力差的缺陷,实现通过构建三元组作为节点的知识图谱,提高表示学习的能力。
[0007]本专利技术提供一种三元组作为节点的知识图谱的表示学习方法,包括:
[0008]初始化预测模型的参数,所述参数包括知识图谱中实体和关系的向量表示,所述知识图谱是三元组作为节点所构成的;
[0009]遍历所述知识图谱中的每个三元组,确定所述预测模型针对每个所述三元组的损失;
[0010]基于每个所述三元组的损失,利用优化器对所述实体和关系的向量表示进行优化。
[0011]根据本专利技术提供的一种三元组作为节点的知识图谱的表示学习方法,所述确定所述预测模型针对每个所述三元组的损失,包括:
[0012]基于每个所述三元组的构成,确定所述每个三元组对应的任务类别,所述三元组的构成包括:实体构成的第一三元组、三元组作为头实体构成的第二三元组和所述第二三元组与所述第一三元组构成的第三三元组;
[0013]确定针对每个所述任务类别的预测模型的损失。
[0014]根据本专利技术提供的一种三元组作为节点的知识图谱的表示学习方法,当所述三元组为第一三元组时,所述确定针对每个所述任务类别的预测模型的损失,包括:
[0015]对所述第一三元组的头实体和关系进行编码;
[0016]基于所述编码后的结果,确定所述预测模型预测尾实体的概率;
[0017]根据所述概率,确定所述预测模型针对所述第一三元组对应的任务类型的损失。
[0018]根据本专利技术提供的一种三元组作为节点的知识图谱的表示学习方法,当所述三元组为第二三元组时,所述确定针对每个所述任务类别的预测模型的损失,包括:
[0019]通过融合策略和/或注意力机制,对作为头实体的三元组进行学习表示;
[0020]基于所述表示,对所述第二三元组的头实体和关系进行编码;
[0021]根据所述编码后的结果,确定所述预测模型针对所述第二三元组对应的任务类型的损失。
[0022]根据本专利技术提供的一种三元组作为节点的知识图谱的表示学习方法,当所述三元组为第三三元组时,所述确定针对每个所述任务类别的预测模型的损失,包括:
[0023]基于所述第一三元组,确定所述第一三元组作为头实体的第二三元组的关系和尾实体列表;
[0024]对所述第一三元组作为头实体的第二三元组的关系和尾实体列表进行编码;
[0025]根据所述编码后的结果,确定所述预测模型针对所述第三三元组对应的任务类型的损失。
[0026]根据本专利技术提供的一种三元组作为节点的知识图谱的表示学习方法,所述初始化预测模型的参数之前,还包括:
[0027]基于预设数据集和预设数据库,构建三元组作为节点的知识图谱。
[0028]根据本专利技术提供的一种三元组作为节点的知识图谱的表示学习方法,所述基于预设数据集和预设数据库,构建三元组作为节点的知识图谱,包括:
[0029]将所述预设数据集中的实体对齐到所述预设数据库中,得到初始实体集合;
[0030]确定所述预设数据库的每个三元组作为节点的目标三元组,以所述目标三元组不属于所述初始实体集合中的尾部实体构建中间实体集合;
[0031]将所述中间实体集合中的合格实体合并到所述初始实体集合中,得到目标实体集合;
[0032]在所述目标实体集合中抽取第一三元组和第二三元组,构建知识图谱,所述第一三元组的头实体和尾实体均为实体,所述第二三元组的头实体为三元组尾实体为实体。
[0033]根据本专利技术提供的一种三元组作为节点的知识图谱的表示学习方法,所述基于每
个所述三元组的损失,利用优化器对所述实体和关系的向量表示进行优化,包括:
[0034]根据每个所述三元组的损失,确定所述预测模型的整体损失;
[0035]基于所述整体损失,利用优化器对所述实体和关系的向量表示进行优化。
[0036]本专利技术还提供一种三元组作为节点的知识图谱的表示学习装置,包括:
[0037]初始化模块,用于初始化预测模型的参数,所述参数包括知识图谱中实体和关系的向量表示,所述知识图谱是三元组作为节点所构成的;
[0038]确定模块,用于遍历所述知识图谱中的每个三元组,确定所述预测模型针对每个所述三元组的损失;
[0039]优化模块,用于基于每个所述三元组的损失,利用优化器对所述实体和关系的向量表示进行优化。
[0040]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述三元组作为节点的知识图谱的表示学习方法。
[0041]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种三元组作为节点的知识图谱的表示学习方法,其特征在于,包括:初始化预测模型的参数,所述参数包括知识图谱中实体和关系的向量表示,所述知识图谱是三元组作为节点所构成的;遍历所述知识图谱中的每个三元组,确定所述预测模型针对每个所述三元组的损失;基于每个所述三元组的损失,利用优化器对所述实体和关系的向量表示进行优化。2.根据权利要求1所述的三元组作为节点的知识图谱的表示学习方法,其特征在于,所述确定所述预测模型针对每个所述三元组的损失,包括:基于每个所述三元组的构成,确定所述每个三元组对应的任务类别,所述三元组的构成包括:实体构成的第一三元组、三元组作为头实体构成的第二三元组和所述第二三元组与所述第一三元组构成的第三三元组;确定针对每个所述任务类别的预测模型的损失。3.根据权利要求2所述的三元组作为节点的知识图谱的表示学习方法,其特征在于,当所述三元组为第一三元组时,所述确定针对每个所述任务类别的预测模型的损失,包括:对所述第一三元组的头实体和关系进行编码;基于所述编码后的结果,确定所述预测模型预测尾实体的概率;根据所述概率,确定所述预测模型针对所述第一三元组对应的任务类型的损失。4.根据权利要求2所述的三元组作为节点的知识图谱的表示学习方法,其特征在于,当所述三元组为第二三元组时,所述确定针对每个所述任务类别的预测模型的损失,包括:通过融合策略和/或注意力机制,对作为头实体的三元组进行学习表示;基于所述表示,对所述第二三元组的头实体和关系进行编码;根据所述编码后的结果,确定所述预测模型针对所述第二三元组对应的任务类型的损失。5.根据权利要求2所述的三元组作为节点的知识图谱的表示学习方法,其特征在于,当所述三元组为第三三元组时,所述确定针对每个所述任务类别的预测模型的损失,包括:基于所述第一三元组,确定所述第一三元组作为头实体的第二三元组的关系和尾实体列表;对所述第一三元组作为头实体的第二三元组的关系和尾实体列表进行编码;根据所述编码后的结果,确定...

【专利技术属性】
技术研发人员:侯磊吕鑫史佳欣曹书林李涓子张鹏唐杰许斌
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1