一种基于属性聚合的知识图谱嵌入方法及其存储介质技术

技术编号:21453993 阅读:26 留言:0更新日期:2019-06-26 04:48
一种基于属性聚合的知识图谱嵌入方法及其存储介质,该方法包括将知识图谱中的属性聚合并转化为实体;利用知识图谱中已经存在的三元组构成所有正例,形成正例训练数据集合O

【技术实现步骤摘要】
一种基于属性聚合的知识图谱嵌入方法及其存储介质
本专利技术涉及知识图谱领域,具体的,涉及一种知识图谱中的属性聚合,将知识图谱中属性转化为实体,增加知识图谱中的实体嵌入和关系嵌入所能包含的信息量的知识图谱嵌入方法及其存储介质。
技术介绍
知识图谱具有描述现实世界复杂关系的能力,其概念自2012年提出以来,就受到学术界和各个应用领域的广泛关注。如今,已经存在了大量的知识图谱系统,这些系统在信息提取、专家系统、知识问答、以及社会网络分析等领域都发挥了重要作用。知识图谱是一个描述实体、以及实体之间关系的图结构。知识图谱由三个基本元素组成:实体、关系、属性。实体是指现实存在的物体(例如“姚明”),以及抽象概念(例如“植物”);关系是指实体之间联系,例如“叶莉”是“姚明”的妻子;属性是指实体的特征,例如“226厘米”是“姚明”的身高属性。知识图谱中的实体具有全局标识符;实体的属性通常为字符串。现有的知识图谱大多采用图形式进行表示,然而实际应用中,图形式难以直接输入到神经网络等人工智能模型中,限制了知识图谱的实际应用,据此知识图谱嵌入应运而生。知识图谱嵌入是指将知识图谱中的实体和关系转化为连续向量空间中的向量,使得知识图谱在保存结构的同时,扩展知识图谱的使用范围。知识图谱嵌入在知识图谱补全、知识推理等方面具有重要的应用意义。现有技术一“一种融合多背景知识的知识图谱嵌入方法与流程”公开了一种知识图谱嵌入方法,主要包括以下步骤:1)从知识库的实体标签中选择优质的实体描述信息,从Web语料中选择与实体相关的优质语料,构成多背景知识;2)通过嵌入多背景知识来学习知识库的嵌入表示;3)使用长短记忆模型从多背景知识获得相应实体的语义嵌入向量;4)将融合嵌入机制用于多背景知识与实体关系细粒度结合,完成融合多背景知识的知识图谱嵌入。但该现有技术一具有如下缺点:(1)该方法以Web语料为基础,需要在网络上采集信息。网络信息具有来源复杂,可信度差的特点。以Web语料为基础会增加知识图谱嵌入工作量,还为知识图谱嵌入过程引入不确定性,难以保障知识图谱嵌入结果的可信度。(2)在进行知识图谱嵌入时,并没有考虑实体的属性,丢失了大量的信息,因此形成的嵌入结果难以应用在实体属性发现领域,具有局限性。现有技术二“一种基于知识图谱的词嵌入深度学习方法”公布了一种知识图谱嵌入方法。方法主要包含步骤:(1)依据语义强度对知识图谱中的实体关系进行划分;(2)基于划分后的各实体关系组来产生不同路径长度的训练样本;(3)词嵌入深度学习阶段,构造深度神经网络结构;(4)以步骤2中的训练样本集为输入来迭代优化深度神经网络结构的参数。训练完成后,保留网络结构中的编码器和卷积神经网络两个部件构成词嵌套编码器。但该现有技术二具有如下缺点:(1)在训练样本中的反例生成中采用完全随机的替换方法,其结果可能产生假反例(例如“姚明的国籍是中国”是一个随机产生的假反例),从而影响最终的嵌入结果。(2)在进行知识图谱嵌入时,该方法同样并没有考虑实体的属性,丢失了大量的信息,因此形成的嵌入结果难以应用在实体属性发现领域,具有局限性。因此可见,在现有知识图谱嵌入的研究和专利技术中,大多没有考虑实体的属性信息,使得知识图谱的嵌入结果难以应用在实体属性发现领域。此外,在现有知识图谱嵌入的研究和专利技术中,训练样本中的反例生成采用的随机化方法,可能产生假反例,影响知识图谱嵌入结果的可信度。因此,如何在知识图谱研究中将属性信息嵌入到知识图谱中,防止知识图谱嵌入结果中属性信息的丢失,以及降低假反例出现的可能性,提高训练样本的质量,成为现有技术亟需解决的技术问题。
技术实现思路
本专利技术的目的在于提出一种基于属性聚合的知识图谱嵌入方法及其存储介质,通过属性聚合,将属性转化为实体,防止知识图谱嵌入过程中属性信息的丢失。使得知识图谱嵌入结果不止可以用于关系推理,还可以用于属性推理。为达此目的,本专利技术采用以下技术方案:一种基于属性聚合的知识图谱嵌入方法,包括如下步骤:属性聚合步骤S110:将知识图谱中的属性聚合并转化为实体,具体过程如下:令E={e1,e2,…,em}表示知识图谱中同一个类的实体组成的集合,对于E的属性a,提取该属性a下所有的属性值,将这些属性值划分为Na个离散区间,每个区间转化为一个实体,形成新的实体集合对于E中的每一个实体ei,根据其属性a的属性值x,在ei与新实体e′f(x)之间建立新的关系a;训练数据集生成步骤S120:利用知识图谱中已经存在的三元组构成所有正例,形成正例训练数据集合O+,利用以下步骤构造反例,所述反例包括值域类反例和关系类反例,随机选择一个三元组<b,r,e>,其中b与e表示实体,r表示关系,令T表示实体b的类型,即所有与实体b为同一类型的实体的集合,反例构造方法分别如下:值域类反例构建方法:令D(r)={y|<a,r,y>∧a∈T}表示关系r的值域,在D(r)中随机选择一个不等于e的实体q,构建反例<b,r,q>;关系类反例构建方法:令R(T)={h|<a,h,y>∧a∈T}表示类型T的关系域,在R(T)中随机选择一个不等于r的关系h,构建关系类反例<b,h,e>;对于每个三元组<b,r,e>构建值域类反例C1次,构建关系类反例C2次,得到反例训练数据集合O-,将正例训练数据集合O+和反例训练数据集合O-作为下一步骤的输入;知识图谱嵌入学习步骤S130:建立知识图谱嵌入目标函数,并利用上一步骤形成的训练数据求解目标函数,具体为:将步骤S110中的一系列三元组表示<b,r,e>,令U表示实体嵌入矩阵,令W表示关系嵌入矩阵,U与W是知识图谱嵌入的求解目标,令U[b]、U[e]分别表示b与e对应的向量,令W[r]表示关系r对应的向量,通过设定知识图谱嵌入效果度量函数,以正例训练数据集合O+和反例训练数据集合O-作为训练数据集,求解知识图谱嵌入目标函数,得到U与W。可选的,在所述属性聚合步骤中,所述离散区间Na的数量和该属性a有关。可选的,对E中的每一个实体ei,根据其属性a的属性值x,通过属性值划分函数f(x)计算方法如下:f(x)=gcode(x)%Na(1)其中,gcode(x)表示属性字符串x的Unicode编码,其作用是将字符串转化为数字,符号%表示取余数,通过属性值划分函数f(x)将字符串映射到Na个离散区间上。可选的,在训练数据集生成步骤中,构建值域类反例和关系类反例的次数根据需要而定。可选的,在知识图谱嵌入学习步骤中,所述知识图谱嵌入效果度量函数和所述知识图谱嵌入目标函数根据知识图谱嵌入学习所需要突出的特性而选择确定。令g(U(b),W(r),U(e))表示知识图谱嵌入效果度量函数,计算方法如公式(2)所示,知识图谱嵌入目标函数如公式(3)所示,对于正例中的三元组<b,r,e>来说,g(U(b),W(r),U(e))的值越大,表示嵌入结果越贴近知识图谱的真实结构,g(U(b),W(r),U(e))=-||U(b)+W(r)-U(b)||2(2)其中利用梯度下降法求解公式(3)即可得到U与W的值。本专利技术进一步公开了一种存储介质,用于存储计算机可执行指令,其特征在于:所述计算机可执行指令在被处理器执行本文档来自技高网
...

【技术保护点】
1.一种基于属性聚合的知识图谱嵌入方法,包括如下步骤:属性聚合步骤S110:将知识图谱中的属性聚合并转化为实体,具体过程如下:令E={e1,e2,…,em}表示知识图谱中同一个类型的实体组成的集合,对于E的属性a,提取该属性a下所有的属性值,将这些属性值划分为Na个离散区间,每个区间转化为一个实体,形成新的实体集合

【技术特征摘要】
1.一种基于属性聚合的知识图谱嵌入方法,包括如下步骤:属性聚合步骤S110:将知识图谱中的属性聚合并转化为实体,具体过程如下:令E={e1,e2,…,em}表示知识图谱中同一个类型的实体组成的集合,对于E的属性a,提取该属性a下所有的属性值,将这些属性值划分为Na个离散区间,每个区间转化为一个实体,形成新的实体集合对于E中的每一个实体ei,根据其属性a的属性值x,在ei与新实体e′f(x)之间建立新的关系a;训练数据集生成步骤S120:利用知识图谱中已经存在的三元组构成所有正例,形成正例训练数据集合O+,利用以下步骤构造反例,所述反例包括值域类反例和关系类反例,随机选择一个三元组<b,r,e>,其中b与e表示实体,r表示关系,令T表示实体b的类型,即所有与实体b为同一类型的实体的集合,值域类反例和关系类反例构造方法分别如下:值域类反例构建方法:令D(r)={y|<a,r,y>∧a∈T}表示关系r的值域,在D(r)中随机选择一个不等于e的实体q,构建反例<b,r,q>;关系类反例构建方法:令R(T)={h|<a,h,y>∧a∈T}表示类型T的关系域,在R(T)中随机选择一个不等于r的关系h,构建关系类反例<b,h,e>;对于每个三元组<b,r,e>构建值域类反例C1次,构建关系类反例C2次,得到反例训练数据集合O-,将正例训练数据集合O+和反例训练数据集合O-作为下一步骤的输入;知识图谱嵌入学习步骤S130:建立知识图谱嵌入目标函数,并利用上一步骤形成的训练数据求解目标函数,具体为:将步骤S110中的一系列三元组表示<b,r,e>,令U表示实体嵌入矩阵,令W表示关系嵌入矩阵,U与W是知识图谱嵌入的求解目标,令U[b]、U[e]分别表示...

【专利技术属性】
技术研发人员:温秀秀高原原马超康子路谢海永王亚珅刘弋锋
申请(专利权)人:中国电子科技集团公司信息科学研究院
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1