基于实体概念的知识图谱补全、推演、存储方法及装置制造方法及图纸

技术编号:23445803 阅读:28 留言:0更新日期:2020-02-28 19:59
本发明专利技术公开了一种基于实体概念的知识图谱补全、推演、存储方法及装置,所述方法包括:确定知识图谱中与实体的多个概念一一对应的多个概念向量以及与关系对应的关系向量;根据实体的多个概念向量,确定实体的实体向量;根据未知三元组的头实体向量、尾实体向量、关系向量中的任意两个已知向量,计算未知向量;遍历知识图谱中确定的实体向量或关系向量,确定与计算的未知向量余弦相似度最高的实体向量或关系向量,并推测未知向量对应的实体或关系,以补全知识图谱。采用本发明专利技术,将概念信息与知识图谱中已有的结构知识充分融合,并将概念及关系向量化,可以有效提高知识图谱向量化建模结果的准确率和表达能力。

Methods and devices of knowledge map completion, deduction and storage based on entity concept

【技术实现步骤摘要】
基于实体概念的知识图谱补全、推演、存储方法及装置
本专利技术涉及知识图谱
,尤其涉及一种基于实体概念的知识图谱补全、推演、存储方法及装置。
技术介绍
知识图谱对于诸多自然语言处理任务而言已经成为了一项重要资源,但是目前的知识图谱普遍面临“不完备”缺陷。为了解决这个问题,很多基于表示学习的知识图谱实体推理预测方法被提出:实体推理预测研究,旨在给定一个实体和一个关系,预测三元组中缺失的实体。例如,给定(h,r,?),预测尾实体t;或给定(?,r,t),预测头实体h。相关技术中,基于翻译模型的知识图谱实体推理预测方法仅利用结构信息而忽略知识图谱中所蕴含的语义信息及其所表达的先验知识。
技术实现思路
本专利技术实施例提供一种基于实体概念的知识图谱补全、推演、存储方法及装置,用以解决现有技术中对知识图谱实体推理预测算法仅利用结构信息而忽略知识图谱中所蕴含的语义信息及其所表达的先验知识的缺陷问题。第一方面,本专利技术实施例提出一种基于实体概念的知识图谱补全、推演、存储方法,包括:确定知识图谱中与所述实体的多个概念一一对应的多个概念向量以及与关系对应的关系向量;根据所述实体的多个概念向量,确定所述实体的实体向量;根据未知三元组的头实体向量、尾实体向量、关系向量中的任意两个已知向量,计算未知向量;遍历所述知识图谱中确定的实体向量或关系向量,确定与计算的未知向量余弦相似度最高的实体向量或关系向量,并推测所述未知向量对应的实体或关系,以补全所述知识图谱。<br>根据本专利技术的一些实施例,所述确定知识图谱中与所述实体的多个概念一一对应的多个概念向量以及与关系对应的关系向量,包括:初始化所述知识图谱中所述实体的概念向量和所述关系向量;基于所述三元组中头实体的条件概率、尾实体的条件概率、关系的条件概率,构建目标函数;根据已知三元组,训练所述目标函数,并根据随机梯度下降的反向传播技术,确定所述知识图谱中所述实体的概念向量和所述关系向量。进一步的,所述基于所述三元组中头实体的条件概率、尾实体的条件概率、关系的条件概率,构建目标函数,包括:构建所述三元组中头实体的条件概率、尾实体的条件概率、关系的条件概率;根据公式1-2,构建所述目标函数:其中,Δ表示三元组,h表示头实体,t表示尾实体,r表示关系,表示所述头实体的条件概率,表示所述尾实体的条件概率,表示所述关系的条件概率,(h,r,t)∈Δ表示正例,(h′,r′,t′)∈Δ′表示负例。更进一步的,所述构建所述三元组中头实体的条件概率、尾实体的条件概率、关系的条件概率,包括:构建所述三元组中头实体的先验概率、尾实体的先验概率、关系的先验概率;构建所述三元组的似然概率;基于所述三元组的似然概率和所述三元组中头实体的先验概率、尾实体的先验概率、关系的先验概率,构建所述三元组中头实体的条件概率、尾实体的条件概率、关系的条件概率。在本专利技术的一些实施例中,所述构建所述三元组中头实体的先验概率、尾实体的先验概率、关系的先验概率,包括:确定所述三元组中头实体的概念集合、尾实体的概念集合;根据所述三元组中头实体的概念集合、尾实体的概念集合,构建所述三元组中关系的头概念集合和关系的尾概念集合;根据所述三元组中关系的头概念集合和所述关系的尾概念集合,构建所述三元组中关系与头实体的语义相似度、关系与尾实体的语义相似度、头实体与尾实体的语义相似度;基于所述三元组中关系与头实体的语义相似度、关系与尾实体的语义相似度、头实体与尾实体的语义相似度,构建所述三元组中头实体的先验概率、所述尾实体的先验概率、所述关系的先验概率。在本专利技术的一些实施例中,所述构建所述三元组的似然概率,包括:根据公式3-4构建所述三元组的似然概率:fr(hi,tj)=||hi+r-tj||公式4,其中,|Ch|表示头实体的概念数量,|Ct|表示尾实体的概念数量,{w{h,1},…,w{h,|Ch|}}表示头实体的随机变量,表示尾实体的随机变量,hi表示头实体的第i个概念,tj表示尾实体的第j个概念,hi表示头实体的第i个概念向量,tj表示尾实体的第j个概念向量,r表示关系向量。第二方面,本专利技术实施例还提出一种基于实体概念的知识图谱补全、推演、存储装置,包括:向量确定单元,用于确定知识图谱中与所述实体的多个概念一一对应的多个概念向量以及与关系对应的关系向量,并根据所述实体的多个概念向量,确定所述实体的实体向量;计算单元,用于根据未知三元组的头实体向量、尾实体向量、关系向量中的任意两个已知向量,计算未知向量;推测单元,用于遍历所述知识图谱中的实体向量或关系向量,确定与计算的未知向量余弦相似度最高的实体向量或关系向量,并推测所述未知向量对应的实体或关系,以补全所述知识图谱。根据本专利技术的一些实施例,所述向量确定单元,用于:初始化所述知识图谱中所述实体的概念向量和所述关系向量;基于所述三元组中头实体的条件概率、尾实体的条件概率、关系的条件概率,构建目标函数;根据已知三元组,训练所述目标函数,并根据随机梯度下降的反向传播技术,确定所述知识图谱中所述实体的概念向量和所述关系向量。第三方面,本专利技术实施例还提出一种基于实体概念的知识图谱补全、推演、存储设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的方法的步骤。第四方面,本专利技术实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现如上所述的方法的步骤。采用本专利技术实施例,通过将语义信息中层次更高的“概念”信息(表征所属类目)引入到知识图谱表示学习中,并将概念信息与知识图谱中已有的结构知识充分融合,可以有效提高知识图谱向量化建模结果的准确率和表达能力,可在知识图谱实体预测、知识表示与推演、知识图谱补全等诸多应用中广泛适用。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1是本专利技术实施例中基于实体概念的知识图谱补全、推演、存储方法的流程图;图2是本专利技术实施例中基于实体概念的知识图谱补全、推演、存储方法的流程图;图3是本专利技术实施例中基于实体概念的知识图谱补全、推演、存储装置结构示意图;图4是本专利技术实施例中基于实体概念的知识图谱补全、推演、存储设备结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这本文档来自技高网...

【技术保护点】
1.一种基于实体概念的知识图谱补全、推演、存储方法,其特征在于,包括:/n确定知识图谱中与所述实体的多个概念一一对应的多个概念向量以及与关系对应的关系向量;/n根据所述实体的多个概念向量,确定所述实体的实体向量;/n根据未知三元组的头实体向量、尾实体向量、关系向量中的任意两个已知向量,计算未知向量;/n遍历所述知识图谱中确定的实体向量或关系向量,确定与计算的未知向量余弦相似度最高的实体向量或关系向量,并推测所述未知向量对应的实体或关系,以补全所述知识图谱。/n

【技术特征摘要】
1.一种基于实体概念的知识图谱补全、推演、存储方法,其特征在于,包括:
确定知识图谱中与所述实体的多个概念一一对应的多个概念向量以及与关系对应的关系向量;
根据所述实体的多个概念向量,确定所述实体的实体向量;
根据未知三元组的头实体向量、尾实体向量、关系向量中的任意两个已知向量,计算未知向量;
遍历所述知识图谱中确定的实体向量或关系向量,确定与计算的未知向量余弦相似度最高的实体向量或关系向量,并推测所述未知向量对应的实体或关系,以补全所述知识图谱。


2.如权利要求1所述的方法,其特征在于,所述确定知识图谱中与所述实体的多个概念一一对应的多个概念向量以及与关系对应的关系向量,包括:
初始化所述知识图谱中所述实体的概念向量和所述关系向量;
基于所述三元组中头实体的条件概率、尾实体的条件概率、关系的条件概率,构建目标函数;
根据已知三元组,训练所述目标函数,并根据随机梯度下降的反向传播技术,确定所述知识图谱中所述实体的概念向量和所述关系向量。


3.如权利要求2所述的方法,其特征在于,所述基于所述三元组中头实体的条件概率、尾实体的条件概率、关系的条件概率,构建目标函数,包括:
构建所述三元组中头实体的条件概率、尾实体的条件概率、关系的条件概率;
根据公式1-2,构建所述目标函数:






其中,Δ表示三元组,h表示头实体,t表示尾实体,r表示关系,表示所述头实体的条件概率,表示所述尾实体的条件概率,表示所述关系的条件概率,(h,r,t)∈Δ表示正例,(h′,r′,t′)∈Δ′表示负例。


4.如权利要求3所述的方法,其特征在于,所述构建所述三元组中头实体的条件概率、尾实体的条件概率、关系的条件概率,包括:
构建所述三元组中头实体的先验概率、尾实体的先验概率、关系的先验概率;
构建所述三元组的似然概率;
基于所述三元组的似然概率和所述三元组中头实体的先验概率、尾实体的先验概率、关系的先验概率,构建所述三元组中头实体的条件概率、尾实体的条件概率、关系的条件概率。


5.如权利要求4所述的方法,其特征在于,所述构建所述三元组中头实体的先验概率、尾实体的先验概率、关系的先验概率,包括:
确定所述三元组中头实体的概念集合、尾实体的概念集合;
根据所述三元组中头实体的概念集合、尾实体的概念集合,构建所述三元组中关系的头概念集合和关系的尾...

【专利技术属性】
技术研发人员:王亚珅张欢欢谢海永
申请(专利权)人:中国电子科技集团公司电子科学研究院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1