一种知识图谱的知识补全方法及装置制造方法及图纸

技术编号:21914047 阅读:27 留言:0更新日期:2019-08-21 12:27
本发明专利技术提供一种知识图谱的知识补全方法及装置,能够解决知识补全过程中存在的负例无意义和1‑N关系难以处理的问题。方法包括:确定实体和关系对应的空间向量;根据实体和关系对应的空间向量,计算语义关系,得到实体之间新的关系,补全知识图谱;利用生成式对抗网络随机生成负例,并结合导出的事实三元组训练第一知识表示模型;对得到的事实三元组进行概念分层,随机选择事实三元组同一子概念下的实体构造负例,并结合导出的事实三元组,采用最大间隔方法,训练第二知识表示模型;将第二知识表示模型作为第一知识表示模型的判别器输入,通过对抗生成式网络优化第一知识表示模型,得到用于知识补全的目标知识表示模型。本发明专利技术涉及知识工程领域。

A Knowledge Completion Method and Device for Knowledge Map

【技术实现步骤摘要】
一种知识图谱的知识补全方法及装置
本专利技术涉及知识工程领域,特别是指一种知识图谱的知识补全方法及装置。
技术介绍
知识图谱经常以高结构化的形式表示,描述了现实世界中各种实体之间的关系。目前,知识图谱已经广泛应用于各个领域,例如:自动问答、信息抽取等领域。典型的知识图谱是由大量的三元组组成。虽然知识图谱可以提供高质量的结构化数据,但是大多数公开的知识图谱,都是通过人工或者半自动的方法构建的,这些图谱往往会存在数据稀疏的问题甚至大量实体之间的关系没有被充分的挖掘出来,为了得到更加高质量的知识图谱,需将知识图谱进行知识补全。知识补全的目标是补全知识图谱中缺失的事实,其中,每个事实都可表示成一个形式为(头实体,关系,尾实体)的三元组。现有技术中,一般通过表示学习的方法来进行知识补全,但是存在很多问题,例如,以基于翻译的嵌入式(TranslatingEmbedding,TransE)模型为例,对于负例的选取,通常所用的方法是随机替换三元组的头实体或者尾实体构造负例,但是这种方法可能会产生一个无意义的负例;TransE模型力求嵌入的头实体向量加关系向量与尾实体向量足够靠近,可以很好地处理1-1关系,但是在处理1-N关系时,存在多个实体竞争一个向量空间点的现象,其中,N为大于1的整数。
技术实现思路
本专利技术要解决的技术问题是提供一种知识图谱的知识补全方法及装置,以解决现有技术所存在的利用TransE模型进行知识补全过程中存在的负例无意义和1-N关系难以处理的问题。为解决上述技术问题,本专利技术实施例提供一种知识图谱的知识补全方法,包括:获取知识图谱,根据获取的知识图谱,输出实体和关系对应的空间向量;根据得到的实体和关系对应的空间向量,计算语义关系,得到实体之间新的关系,补全知识图谱;利用生成式对抗网络随机生成负例,并结合导出的事实三元组训练第一知识表示模型,其中,所述生成式对抗网络包括:生成器和判别器;对得到的事实三元组进行概念分层,随机选择事实三元组同一子概念下的实体构造负例,并结合导出的事实三元组,采用最大间隔方法,训练第二知识表示模型;将第二知识表示模型作为第一知识表示模型的判别器输入,通过对抗生成式网络优化第一知识表示模型,得到用于知识补全的目标知识表示模型。进一步地,所述获取知识图谱包括:获取原始知识图谱;构建属性图对原始知识图谱中利用率小于预设的利用率阈值的实体节点进行知识表示。进一步地,所述根据获取的知识图谱,输出实体和关系对应的空间向量包括:根据处理得到的知识图谱,导出事实三元组,并通过随机替换事实三元组的头实体或者尾实体来构造负例;根据导出的事实三元组及构造的负例,应用基于TransE模型的知识嵌入表示,输出实体和关系对应的空间向量,其中,TransE表示翻译的嵌入式。进一步地,所述根据处理得到的知识图谱,导出事实三元组包括:根据处理得到的知识图谱,利用图形数据库导出事实三元组。进一步地,所述根据得到的实体和关系对应的空间向量,计算语义关系,得到实体之间新的关系,补全知识图谱包括:根据得到的实体和关系对应的空间向量,选取事实三元组的头实体和关系,计算尾实体的能量,获取推理排名为前k的尾实体及其打分分数;根据得到的实体和关系对应的空间向量,选取事实三元组的尾实体和关系,计算头实体的能量,获取推理排名为前k的头实体及其打分分数;根据实体的概念类型,将推理得到的实体与预先确定的候选集进行比较,去掉非候选集中的实体;根据打分分数,确定推理得到的实体的置信度,取置信度排名为前k’的推理实体补充其与头实体或尾实体之间的关系,补全知识图谱。进一步地,所述利用生成式对抗网络随机生成负例,并结合导出的事实三元组训练第一知识表示模型包括:根据导出的事实三元组,对TransE模型和双线性模型进行预训练;将预训练好的TransE模型作为生成器、预训练好的双线性模型作为判别器;生成器和判别器采用交替优化方式进行训练,直至判别器输出的正例和负例三元组的边际损失小于预设的阈值,得到的生成器和判别器构成第一知识表示模型;其中,训练判别器时,固定生成器,利用生成器随机模拟产生样本作为负例,从事实三元组中采集正例,将负例和正例输入判别器,根据判别器输出和正负例标签来计算误差,利用误差反向传播算法来更新判别器的梯度参数;训练生成器时,固定判别器,利用生成器随机模拟产生负例,并输入到判别器,根据判别器输出和负例标签来计算误差,利用误差反向传播算法来更新生成器的梯度参数。进一步地,所述对得到的事实三元组进行概念分层,随机选择事实三元组同一子概念下的实体构造负例,并结合导出的事实三元组,采用最大间隔方法,训练第二知识表示模型包括:对得到的事实三元组进行概念分层,随机选择事实三元组同一子概念下的实体作为负例,依据当前形成的负例和导出的事实三元组,采用最大间隔方法,训练第二知识表示模型;其中,利用第二知识表示模型进行实体链接预测时,移除不属于子概念关系特定的实体类型的候选实体。本专利技术实施例还提供一种知识图谱的知识补全装置,包括:获取模块,用于获取知识图谱,根据获取的知识图谱,输出实体和关系对应的空间向量;第一确定模块,用于根据得到的实体和关系对应的空间向量,计算语义关系,得到实体之间新的关系,补全知识图谱;第一训练模块,用于利用生成式对抗网络随机生成负例,并结合导出的事实三元组训练第一知识表示模型,其中,所述生成式对抗网络包括:生成器和判别器;第二训练模块,用于对得到的事实三元组进行概念分层,随机选择事实三元组同一子概念下的实体构造负例,并结合导出的事实三元组,采用最大间隔方法,训练第二知识表示模型;第二确定模块,用于将第二知识表示模型作为第一知识表示模型的判别器输入,通过对抗生成式网络优化第一知识表示模型,得到用于知识补全的目标知识表示模型。本专利技术的上述技术方案的有益效果如下:上述方案中,根据获取的知识图谱,输出实体和关系对应的空间向量;根据得到的实体和关系对应的空间向量,计算语义关系,得到实体之间新的关系,补全知识图谱;利用生成式对抗网络随机生成负例,并结合导出的事实三元组训练第一知识表示模型,从而解决利用TransE模型进行知识补全过程中存在的负例无意义问题;对得到的事实三元组进行概念分层,随机选择事实三元组同一子概念下的实体构造负例,并结合导出的事实三元组,采用最大间隔方法,训练第二知识表示模型,以确保训练时让正例和负例远离,从而有效避免多个实体竞争同一个向量空间点的现象;将第二知识表示模型作为第一知识表示模型的判别器输入,通过对抗生成式网络优化第一知识表示模型,得到目标知识表示模型,这样,使用目标知识表示模型进行补全时,能够解决利用TransE模型进行知识补全过程中存在的负例无意义和1-N关系难以处理的问题。附图说明图1为本专利技术实施例提供的知识图谱的知识补全方法的流程示意图;图2为本专利技术实施例提供的风热犯表证的证性关系示意图;图3为本专利技术实施例提供的风热犯表证的属性示意图;图4为本专利技术实施例提供的基于TransE模型的中医知识表示和推理建模示意图;图5为本专利技术实施例提供的G-TransE模型的实现流程示意图;图6为本专利技术实施例提供的基于TG-TransE模型补全中医知识图谱的实现流程示意图。具体实施方式为使本专利技术要解决的技术问题、本文档来自技高网...

【技术保护点】
1.一种知识图谱的知识补全方法,其特征在于,包括:获取知识图谱,根据获取的知识图谱,输出实体和关系对应的空间向量;根据得到的实体和关系对应的空间向量,计算语义关系,得到实体之间新的关系,补全知识图谱;利用生成式对抗网络随机生成负例,并结合导出的事实三元组训练第一知识表示模型,其中,所述生成式对抗网络包括:生成器和判别器;对得到的事实三元组进行概念分层,随机选择事实三元组同一子概念下的实体构造负例,并结合导出的事实三元组,采用最大间隔方法,训练第二知识表示模型;将第二知识表示模型作为第一知识表示模型的判别器输入,通过对抗生成式网络优化第一知识表示模型,得到用于知识补全的目标知识表示模型。

【技术特征摘要】
1.一种知识图谱的知识补全方法,其特征在于,包括:获取知识图谱,根据获取的知识图谱,输出实体和关系对应的空间向量;根据得到的实体和关系对应的空间向量,计算语义关系,得到实体之间新的关系,补全知识图谱;利用生成式对抗网络随机生成负例,并结合导出的事实三元组训练第一知识表示模型,其中,所述生成式对抗网络包括:生成器和判别器;对得到的事实三元组进行概念分层,随机选择事实三元组同一子概念下的实体构造负例,并结合导出的事实三元组,采用最大间隔方法,训练第二知识表示模型;将第二知识表示模型作为第一知识表示模型的判别器输入,通过对抗生成式网络优化第一知识表示模型,得到用于知识补全的目标知识表示模型。2.根据权利要求1所述的知识图谱的知识补全方法,其特征在于,所述获取知识图谱包括:获取原始知识图谱;构建属性图对原始知识图谱中利用率小于预设的利用率阈值的实体节点进行知识表示。3.根据权利要求2所述的知识图谱的知识补全方法,其特征在于,所述根据获取的知识图谱,输出实体和关系对应的空间向量包括:根据处理得到的知识图谱,导出事实三元组,并通过随机替换事实三元组的头实体或者尾实体来构造负例;根据导出的事实三元组及构造的负例,应用基于TransE模型的知识嵌入表示,输出实体和关系对应的空间向量,其中,TransE表示翻译的嵌入式。4.根据权利要求3所述的知识图谱的知识补全方法,其特征在于,所述根据处理得到的知识图谱,导出事实三元组包括:根据处理得到的知识图谱,利用图形数据库导出事实三元组。5.根据权利要求1所述的知识图谱的知识补全方法,其特征在于,所述根据得到的实体和关系对应的空间向量,计算语义关系,得到实体之间新的关系,补全知识图谱包括:根据得到的实体和关系对应的空间向量,选取事实三元组的头实体和关系,计算尾实体的能量,获取推理排名为前k的尾实体及其打分分数;根据得到的实体和关系对应的空间向量,选取事实三元组的尾实体和关系,计算头实体的能量,获取推理排名为前k的头实体及其打分分数;根据实体的概念类型,将推理得到的实体与预先确定的候选集进行比较,去掉非候选集中的实体;根据打分分数,确定推理得到的实体的置信度,取置信度排名为前k’的推理实体补充其与头实体或尾实体之间的关系,补全知识图谱。6.根...

【专利技术属性】
技术研发人员:谢永红李珍珍张德政阿孜古丽栗辉贾麒
申请(专利权)人:北京科技大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1